Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Többváltozós adatelemzés
10. előadás
2
Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun
3
Főkomponens modell Adva van x1, x2, …, xn változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y1=a1*x1+a2*x2+…+an*xn
4
Főkomponens elemzés A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a12+a22+…+an2=1 Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a1*x1+a2*x2)=a12*var(x1)+a22*var(x2)
5
Főkomponens elemzés A továbbiakban feltételezzük, hogy x1, x2, …, xn változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y1)=y1Ty1= =a12var(x1)+a22var(x2)+…+an2var(xn)+ +2a1a2kovar(x1,x2)+2a1a3kovar(x1,x3)+ +….+2an-1ankovar(xn-1,xn)
6
Főkomponens elemzés Var(y1)=y1Ty1=aTCa, ahol ‘C’ a variancia-kovariancia mátrix. max(aTCa), feltéve, hogy aTa=1 L=aTCa-λ(aTa-1) -> max Deriváltat tegyük egyenlővé 0-val: Ca- λa=0 -> (C- λE)a=0 Sajátérték feladat
7
Főkomponens elemzés A variancia-kovariancia mátrix sajátértékei keressük. A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek
8
Főkomponens elemzés Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.
9
Főkomponens elemzés Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1-esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés
10
Főkomponens elemzés Kiadások
11
Főkomponens elemzés
12
Főkomponens elemzés Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt
13
Főkomponens elemzés Az x változók és a főkomponensek közötti korreláció: kovar(X,Y)=XTY= XT(XA)=(XTX)A=ΛA, mivel A sajátvektorok mátrixa. Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)var(yj)]= =kovar(xi,yj)/sqrt[var(xi)*λj]
14
Főkomponens elemzés Sztenderdizált x változók esetén:
korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)*λj]= = λj*aj /sqrt[λj]=sqrt[λj]*aj Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke
15
Főkomponens elemzés
16
Főkomponens elemzés Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk A sajátvektorok (főkomponensek) merőleges egymásra
17
Főkomponensek értelmezése
A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál
18
Főkomponensek értelmezése
főkomponens: nagyság főkomponens: fejlesztés (részben humán is) Működtetési költségek Pedagógus állomány
19
Főkomponensek értelmezése
A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen Az előbbi példában nem ez a helyzet
20
Főkomponensek száma Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. Alapbeállításként az 1-nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)
21
Főkomponensek száma
22
Kommunalitás Amennyiben nem tartjuk meg az összes főkomponenset,nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. XTX=C=AΛA Var(xi)=(ai*sqrt[λj])T*(ai*sqrt[λj]) Ha csak r főkomponenst tartunk meg,a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege
23
Kommunalitás 0,846^2=0,716
24
Kommunalitás 0,846^2+(-0,303)^2=0,808
25
Kommunalitás A kommunalitás értelmezhető R2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R2 mutatója a kommunalitás.
26
Főkomponensek forgatása
Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak
27
Varimax forgatás A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. A forgatás numerikusan egy iteratív folyamat végeredménye
28
Varimax forgatás
29
Főkomponens elemzés tulajdonságai
Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra
30
Főkomponens elemzés tulajdonságai
31
Főkomponens elemzés tulajdonságai
Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2-re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk
32
Főkomponens elemzés tulajdonságai
33
Előfeltételek Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1-hez
34
Előfeltételek KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0,5 felett van jelentős az összefüggés az adatokban. Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.
35
További segítségek Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások
36
Elemzés Milyen összefüggések vannak a különböző tancsoportok számai között
37
Elemzés
38
Elemzés
39
Elemzés
40
Elemzés
41
Elemzés
42
Elemzés
43
Elemzés
44
Elemzés
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.