Többváltozós adatelemzés

Többváltozós adatelemzés
10. előadás

Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun

Főkomponens modell Adva van x1, x2, …, xn változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y1=a1*x1+a2*x2+…+an*xn

Főkomponens elemzés A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a12+a22+…+an2=1 Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a1*x1+a2*x2)=a12*var(x1)+a22*var(x2)

Főkomponens elemzés A továbbiakban feltételezzük, hogy x1, x2, …, xn változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y1)=y1Ty1= =a12var(x1)+a22var(x2)+…+an2var(xn)+ +2a1a2kovar(x1,x2)+2a1a3kovar(x1,x3)+ +….+2an-1ankovar(xn-1,xn)

Főkomponens elemzés Var(y1)=y1Ty1=aTCa, ahol ‘C’ a variancia-kovariancia mátrix. max(aTCa), feltéve, hogy aTa=1 L=aTCa-λ(aTa-1) -> max Deriváltat tegyük egyenlővé 0-val: Ca- λa=0 -> (C- λE)a=0 Sajátérték feladat

Főkomponens elemzés A variancia-kovariancia mátrix sajátértékei keressük. A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek

Főkomponens elemzés Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.

Főkomponens elemzés Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1-esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés

Főkomponens elemzés Kiadások

Főkomponens elemzés

Főkomponens elemzés Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt

Főkomponens elemzés Az x változók és a főkomponensek közötti korreláció: kovar(X,Y)=XTY= XT(XA)=(XTX)A=ΛA, mivel A sajátvektorok mátrixa. Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)var(yj)]= =kovar(xi,yj)/sqrt[var(xi)*λj]

Főkomponens elemzés Sztenderdizált x változók esetén:
korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)*λj]= = λj*aj /sqrt[λj]=sqrt[λj]*aj Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke

Főkomponens elemzés

Főkomponens elemzés Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk A sajátvektorok (főkomponensek) merőleges egymásra

Főkomponensek értelmezése
A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál

főkomponens: nagyság főkomponens: fejlesztés (részben humán is) Működtetési költségek Pedagógus állomány

A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen Az előbbi példában nem ez a helyzet

Főkomponensek száma Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. Alapbeállításként az 1-nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)

Főkomponensek száma

Kommunalitás Amennyiben nem tartjuk meg az összes főkomponenset,nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. XTX=C=AΛA Var(xi)=(ai*sqrt[λj])T*(ai*sqrt[λj]) Ha csak r főkomponenst tartunk meg,a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege

Kommunalitás 0,846^2=0,716

Kommunalitás 0,846^2+(-0,303)^2=0,808

Kommunalitás A kommunalitás értelmezhető R2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R2 mutatója a kommunalitás.

Főkomponensek forgatása
Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak

Varimax forgatás A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. A forgatás numerikusan egy iteratív folyamat végeredménye

Varimax forgatás

Főkomponens elemzés tulajdonságai
Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra

Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2-re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk

Előfeltételek Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1-hez

Előfeltételek KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0,5 felett van jelentős az összefüggés az adatokban. Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.

További segítségek Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások

Elemzés Milyen összefüggések vannak a különböző tancsoportok számai között

Elemzés

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés