Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Többváltozós adatelemzés 10. előadás. Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer.

Hasonló előadás


Az előadások a következő témára: "Többváltozós adatelemzés 10. előadás. Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer."— Előadás másolata:

1 Többváltozós adatelemzés 10. előadás

2 Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun

3 Főkomponens modell Adva van x 1, x 2, …, x n változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y 1 =a 1 *x 1 +a 2 *x 2 +…+a n *x n

4 Főkomponens elemzés A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a 1 2 +a 2 2 +…+a n 2 =1 Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a 1 *x 1 +a 2 *x 2 )=a 1 2 *var(x 1 )+a 2 2 *var(x 2 )

5 Főkomponens elemzés A továbbiakban feltételezzük, hogy x 1, x 2, …, x n változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y1)=y 1 T y 1 = =a 1 2 var(x 1 )+a 2 2 var(x 2 )+…+a n 2 var(x n )+ +2a 1 a 2 kovar(x 1,x 2 )+2a 1 a 3 kovar(x 1,x 3 )+ +….+2a n-1 a n kovar(x n-1,x n )

6 Főkomponens elemzés Var(y 1 )=y 1 T y 1 =a T Ca, ahol ‘C’ a variancia- kovariancia mátrix. max(a T Ca), feltéve, hogy a T a=1 L=a T Ca-λ(a T a-1) -> max Deriváltat tegyük egyenlővé 0-val: Ca- λa=0->(C- λE)a=0 Sajátérték feladat

7 Főkomponens elemzés A variancia-kovariancia mátrix sajátértékei keressük. A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek

8 Főkomponens elemzés Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.

9 Főkomponens elemzés Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1-esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés

10 Főkomponens elemzés Kiadások

11 Főkomponens elemzés

12 Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt

13 Főkomponens elemzés Az x változók és a főkomponensek közötti korreláció: kovar(X,Y)=X T Y= X T (XA)=(X T X)A=ΛA, mivel A sajátvektorok mátrixa. Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel korrel(x i,y j )=kovar(x i,y j )/sqrt[var(x i )var(y j )]= =kovar(x i,y j )/sqrt[var(x i )*λ j ]

14 Főkomponens elemzés Sztenderdizált x változók esetén: korrel(x i,y j )=kovar(x i,y j )/sqrt[var(x i )*λ j ]= = λ j *a j /sqrt[λ j ]=sqrt[λ j ]*a j Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke

15 Főkomponens elemzés

16 Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk A sajátvektorok (főkomponensek) merőleges egymásra

17 Főkomponensek értelmezése A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál

18 Főkomponensek értelmezése 1.főkomponens: nagyság 2.főkomponens: fejlesztés (részben humán is) 3.Működtetési költségek 4.Pedagógus állomány

19 Főkomponensek értelmezése A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen Az előbbi példában nem ez a helyzet

20 Főkomponensek száma Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. Alapbeállításként az 1-nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)

21 Főkomponensek száma

22 Kommunalitás Amennyiben nem tartjuk meg az összes főkomponenset,nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. XTX=C=AΛA Var(x i )=(a i *sqrt[λ j ]) T *(a i *sqrt[λ j ]) Ha csak r főkomponenst tartunk meg,a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege

23 Kommunalitás 0,846^2=0,716

24 Kommunalitás 0,846^2+(-0,303)^2=0,808

25 Kommunalitás A kommunalitás értelmezhető R 2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R 2 mutatója a kommunalitás.

26 Főkomponensek forgatása Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak

27 Varimax forgatás A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. A forgatás numerikusan egy iteratív folyamat végeredménye

28 Varimax forgatás

29 Főkomponens elemzés tulajdonságai Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra

30 Főkomponens elemzés tulajdonságai

31 Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2-re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk

32 Főkomponens elemzés tulajdonságai

33 Előfeltételek Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1-hez

34 Előfeltételek KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0,5 felett van jelentős az összefüggés az adatokban. Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.

35 További segítségek Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások

36 Elemzés Milyen összefüggések vannak a különböző tancsoportok számai között

37 Elemzés

38

39

40

41

42

43

44


Letölteni ppt "Többváltozós adatelemzés 10. előadás. Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer."

Hasonló előadás


Google Hirdetések