PLS útelemzés, avagy változóblokkok kapcsolati elemzése Dr. Kovács Sándor (kovacs.sandor@econ.unideb.hu)
PLS modellcsalád /Herman Wold, Svante Wold, Harald Martens and Jan-Bernd Lohmöller/ 1. NIPALS (Nonlinear Iterative Partial Least Squares) 2. PLS Regression (Partial Least Squares Regression) 3. PLS Discriminant Analysis 4. SIMCA (Soft Independent Modeling by Class Analogy) 5. PLS Approach to Structural Equation Modeling, Path modelling 6. N-way PLS 7. PLS Logistic Regression 8. PLS Generalized Linear Model
PLS útelemzéses modell
PLS útelemzéses modell
Strukturált Egyenletek Modellezése (SEM) (PLS megközelítést Herman Wold alkotta) Cél: látens változók (LV) lineáris kapcsolatrendszerének tanulmányozása Egy látens változót egy magyarázó változókból álló csoport ír le Egy látens változó összefoglalja a magyarázó változók értékének együttesét Típusok: Ordinális, nominális, arányskála (nem kell normalitás) Nem szükséges túl nagy elemszámú minta Regresszió és faktorelemzés kombinációja
Gazdasági egyenlőtlenség és politikai instabilitás, Russett (1964) adatbázisa Mezőgazdasági fejlettség GINI : Földterületek eloszlásának koncentráltsága FARM : Gazdálkodók %-a akik földtulajdonosok (>50%) RENT : Gazdálkodók %-a akik bérlik a földjüket Ipari fejlettség GNPR : Egy főre jutó Bruttó Nemzeti Össztermék ($ 1955) LABO : A mezőgazdaságban alkalmazott munkaerő %-a Politikai instabilitás INST : végrehajtó szervek instabilitása (1945-61) ECKS : erőszakos belső háborús incidensek aránya (1946-61) DEAT : Polgári erőszak megölt áldozatainak aránya (1950-62) D-STAB : Demokrácia stabilitása D-UNST : Demokrácia instabilitása DICT : Dictatorship
Gazdasági egyenlőtlenség és politikai instabilitás, Russett (1964) adatbázisa
Gazdasági egyenlőtlenség és politikai instabilitás modellje, Russett (1964) adatbázisa Reflektív modell Dummy változók Összevonhatók Egy változóba
A PLS modellezés: az algoritmusa Külső faktormodell (measurement, outer model) Reflektív modell (Mode A) (a látens változó megvilágítja a magyarázó változókat) Minden magyarázó Xjq változót felírhatunk így: Formatív modell (Mode B) a magyarázó változók formálják a látens változót) A látens j változó az Xj –val jelölt blokk változóinak a lineáris függvénye: Belső strukturált modell (structural, inner model) A látens változók között is létezik egy lineáris strukturális modell: Politikai instabilitás (3) = 1Mezőgazd. fejlettség (1) + 2Ipari fejlettség (2) + HIBA
A PLS modellezés: az algoritmusa
A PLS modellezés: a látens változók becslése (1) Külső modell (outer) becslése, Yj standardizált külső becslése j-nek (2) Belső modell (inner) becslése, Zj standardizált belső becslése j-nek : előjeles korreláció Yi és Yj között Yi és Yj között van út (3) A wj –val jelölt súlyok becslése wjq = cor(Zj , Xjq)
A PLS modellezés: a látens változók becslése I. Külső modell becslése, Yj és j kapcsolata Képlettel: Yj = Xjwj Példánkban: Y1 = w11Gini + w12Farm + w13Rent Y2 = w21GNPR + w22 LABO Y3 = w31 INST + w32 ECKS + w33DEAT + w34DEMO
A PLS modellezés: a látens változók becslése II. korrelációstruktúra 1 2 3 + - (2) Belső modell becslés, Zj és j kapcsolata Képlettel: Példánkban: Sign(Cor(1 ,3))= + Sign(Cor(2 ,3))= - Z1 = sign(cor(1, 3)Y3 = (+1)Y3 Z2 = sign(cor(2, 3)Y3 = (-1)Y3 Z3 = sign(cor(3, 1)Y1 + sign(cor(3, 2)Y2 = (+1)Y1 + (-1)Y2
A PLS modellezés: a súlyok becslése A wh-val jelölt súlyok becslése wjq = cor(Xjq , Zj) w11 = cor(Gini , Z1) w12 = cor(Farm , Z1) w13 = cor(Rent , Z1) w21 = cor(GNPR , Z2) w22 = cor(LABO , Z2) w31 = cor(INST , Z3) w32 = cor(ECKS , Z3) w33 = cor(DEAR , Z3) w34 = cor(DEMO , Z3)
Súlyok inicializálása, iteratív algoritmus eset: minden súly egyenlő kezdetben 1-gyel Eset: minden súly egyenlő 1-gyel, kivéve egy, az pedig -1 lesz Példánkban Az algoritmus kezdeti súlyokkal indul, aztán új súlyok képződnek az – 3) lépések ismétlésével egészen addig, míg a súlyok értéke beáll és nem változik érdemben GINI: w11 = 1 RENT: w12 = 1 FARM: w13 = 1 GNPR: w21 = 1 LABO: w22 = -1
Az általánosított PLS algoritmus Yj = Xjwj Külső model (standardizált) Yj2 Yj1 Yjm Zj ej1 ej2 ejm Belső strukturális model wj Kezdés Mode A: wj = Mode B: wj = w cor(X,Z) Opciók a súlyok becslésére Előjeles korreláció (centroid) Korreláció (factor) Regressziós paraméter (Path) A korrelációk (loadings) becslése érdekes
A PLS modell becslése R-ben, eredmények library(plspm) #szortvercsomag betöltése View(russa) # adatok megjelenítése data("russa") #adatok használatbavétele Vagy data("russett") #struktúra leírása kapcsolati mátrix-szal mgf = c(0,0,0) #mezőgazdasági fejlettség ipf = c(0,0,0) #Ipari fejlettség pi = c(1,1,0) #Politikai instabilitás
A PLS modell becslése R-ben, eredmények sens_path = rbind(mgf,ipf,pi) # látens változók neve colnames(sens_path) = rownames(sens_path) #kapcsolati mx innerplot(sens_path) #kapcsolati mx sens_blocks = list(1:3,4:5,6:11) # változóblokkok megadása sens_modes = c("A", "A", "A") # A: reflektív, B: formatív sens_pls = plspm(russett, sens_path, sens_blocks, modes = sens_modes) #modell becslése itt történik plot(sens_pls, arr.width = 0.2) #ábrák plot(sens_pls, what = "loadings", arr.width = 0.1) #súlyok
A PLS modell becslése R-ben, eredmények
A PLS modell becslése R-ben, eredmények
A PLS modell becslése R-ben, eredmények
A PLS modell becslése R-ben, eredmények Politikai Instabilitás = 0.215*Mezőgazd. Fejlettség -0.694*Ipari fejlettség (2.21*) (-7.13**) A zárójeles érték a Student-t statisztika a többváltozós regresszióból
Eredmények, Strukturális belső modell Az LV legalább 50%-át magyarázza a blokk varianciájának (Konvergencia validitása) R2 : >0,6 (erős);0,3-0,6 (közepes);<0,3 (gyenge) Average Communality = (3*AvCommun1 + 2*AvCommun2 + 6*AvCommun3)/11 = 6,723/11=0,611 GOF2=0,622*0,611 GOF =0,617
Eredmények, külső mérési modell Average = 0.28 Communality = Cor(Xjq, Yj)2 = Loading2 Endogén (bemeneti) LV : Redundancia = Cor2(Xjq, Yj)*R2(Yj, Yj –t magyarázó LV-k )
Eredmények, keresztkorrelációk Változók lojalitása, a keresztkorrelációk alacsonyabbak, mint a saját LV-vel való korreláció, demoinst megsérti ezt a feltételt
Eredmények, külső modell egydimenzióssága Változók homogenitása, DG rho és a C.alpha < 0.7 Egydimenziósság, 1. érték >1, a 2. érték <1 Ipf egydimenziós, mgf homogén változókból áll
Eredmények, diszkriminálás validitása AVE(Yj) (Average Variance Extracted), átlagos magyarázott variancia > cor2(Yj,Yi) minden i-re Az LV sokkal többet magyaráz a hozzá tartozó változókból, mint más LV-k
Eredmények, Direkt és Indirekt hatások P1 P3 P2 P2 P3 P1 P1
Eredmények, Direkt és Indirekt hatások P1= 0.587843*0.357859=0,210365 P2=0.587843*0.324712*0.212862=0.040631 P3=0.275914*0.212862=0.058732 Total=0.210365+0.040631+0.058732=0,309728
Eredmények, Direkt és Indirekt hatások Motivációnak közvetett hatása: 29,72% Strat.use közvetett hatása: 6,63% Összes = 1.042081 Összes hatás Csak közvetlen hatás (63,65%) Movitáció hatása: 38.60% Strat.Use hatása: 40.97% Vocabulary hatása: 20,43% Movitáció hatása: 8.88% Strat.Use hatása: 34.34% Vocabulary hatása: 20,43%
Eredmények, Direkt és Indirekt hatások MG hatás 23,64% (+) Ipar hatás 76,36% (-) Az ipar hatása több mint 3x akkora
Eredmények, Bootstrap validáció Nem parametrikus eljárás a PLS, a paraméterbecslés parametrikus úton nem lehetséges, a becslések pontossága bootsrap mintavétellel tőrténik, ebből nyerjük a standard hiba becslését. N mintát veszünk visszatevéses mintavétellel, ismétléssel az eredeti adatokból N modell, illetve N paraméterbecslés adódik, ebből számolható az átlag, szórás és a standard hiba (szórás osztva megfigyelések számának a gyöke) N értéke 100 - 1000 között lehet, a javasolt érték 500 Futtatás: Boot.val=TRUE, br=500 a plspm() parancson belül Az utolsó két oszlop a 95%-os konfidenciancia intervallumokat mutatja!!!
Eredmények, Bootstrap validáció A paraméter szignifikáns, ha értéke kétszerese legalább a st. Hibának Ezenkívül a konfidencia intervallum nem szabad, hogy tartalmazza a 0-t
Eredmények, Bootstrap validáció
Speciális lehetőségek, kanonikus korreláció
Eredmények, Kanonikus korreláció, 1. dimenzió Mezőgazdasági fejlettség (X) GINI INST -.292 -.462 ECKS .814 FARM -.682 -.534 DEAT -.715 RENT -.028 1 3 D-STB .885 -.974 GNPR D-UNS -.957 LABO DICT Ipari fejlettség (X) Politikai instabilitás (Y)
Eredmények, Kanonikus korreláció, 2. dimenzió Mezőgazdasági fejlettség (X) GINI INST .333 .336 ECKS .646 FARM -.057 .159 DEAT .525 RENT .610 1 3 D-STB .127 -.161 GNPR D-UNS -.033 LABO DICT Ipari fejlettség (X) Politikai instabilitás (Y)
Speciális lehetőségek, Faktorelemzés
Speciális lehetőségek, Változó klaszterezés
Köszönöm a megtisztelő figyelmet!