Többváltozós adatelemzés

Slides:



Advertisements
Hasonló előadás
Lineáris regressziós MODELLEK
Advertisements

A bizonytalanság és a kockázat
A portfolió-választási feladat instabilitása
Kvantitatív Módszerek
Készítette: Szinai Adrienn
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Matematika II. 2. előadás Geodézia szakmérnöki szak 2012/2013. tanév Műszaki térinformatika ágazat őszi félév.
Matematikai Statisztika VIK Doktori Iskola
Földrajzi összefüggések elemzése
Térbeli niche szegregáció kétfoltos környezetben
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VIII.. Dr. Szalka Éva, Ph.D.2 Többváltozós korreláció és regresszióanalízis.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p.,
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
Regresszióanalízis 10. gyakorlat.
Lineáris transzformáció sajátértékei és sajátvektorai
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Diszkriminancia analízis
Főkomponens és faktor analízis
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Lineáris algebra.
Egytényezős variancia-analízis
STATISZTIKA II. 7. Előadás
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Lineáris regresszió.
Többtényezős ANOVA.
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
Faktoranalízis az SPSS-ben
Lineáris algebra.
Petrovics Petra Doktorandusz
Dr. Bánkuti Gyöngyi Klingné Takács Anna
Bevezetés a Korreláció & Regressziószámításba
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Többdimenziós valószínűségi eloszlások
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Pedagógiai hozzáadott érték „Őrült beszéd, de van benne rendszer” Nahalka István
A számítógépes elemzés alapjai
Lineáris regressziós modellek
Többváltozós lineáris regresszió
III. előadás.
Dr. Varga Beatrix egyetemi docens
Faktor- és főkomponensanalízis
Valószínűségi változók együttes eloszlása
Többdimenziós normális eloszlás
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

Többváltozós adatelemzés 10. előadás

Főkomponens elemzés Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun

Főkomponens modell Adva van x1, x2, …, xn változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y1=a1*x1+a2*x2+…+an*xn

Főkomponens elemzés A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a12+a22+…+an2=1 Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a1*x1+a2*x2)=a12*var(x1)+a22*var(x2)

Főkomponens elemzés A továbbiakban feltételezzük, hogy x1, x2, …, xn változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y1)=y1Ty1= =a12var(x1)+a22var(x2)+…+an2var(xn)+ +2a1a2kovar(x1,x2)+2a1a3kovar(x1,x3)+ +….+2an-1ankovar(xn-1,xn)

Főkomponens elemzés Var(y1)=y1Ty1=aTCa, ahol ‘C’ a variancia-kovariancia mátrix. max(aTCa), feltéve, hogy aTa=1 L=aTCa-λ(aTa-1) -> max Deriváltat tegyük egyenlővé 0-val: Ca- λa=0 -> (C- λE)a=0 Sajátérték feladat

Főkomponens elemzés A variancia-kovariancia mátrix sajátértékei keressük. A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek

Főkomponens elemzés Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.

Főkomponens elemzés Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1-esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés

Főkomponens elemzés Kiadások

Főkomponens elemzés

Főkomponens elemzés Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt

Főkomponens elemzés Az x változók és a főkomponensek közötti korreláció: kovar(X,Y)=XTY= XT(XA)=(XTX)A=ΛA, mivel A sajátvektorok mátrixa. Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)var(yj)]= =kovar(xi,yj)/sqrt[var(xi)*λj]

Főkomponens elemzés Sztenderdizált x változók esetén: korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)*λj]= = λj*aj /sqrt[λj]=sqrt[λj]*aj Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke

Főkomponens elemzés

Főkomponens elemzés Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk A sajátvektorok (főkomponensek) merőleges egymásra

Főkomponensek értelmezése A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál

Főkomponensek értelmezése főkomponens: nagyság főkomponens: fejlesztés (részben humán is) Működtetési költségek Pedagógus állomány

Főkomponensek értelmezése A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen Az előbbi példában nem ez a helyzet

Főkomponensek száma Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. Alapbeállításként az 1-nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)

Főkomponensek száma

Kommunalitás Amennyiben nem tartjuk meg az összes főkomponenset,nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. XTX=C=AΛA Var(xi)=(ai*sqrt[λj])T*(ai*sqrt[λj]) Ha csak r főkomponenst tartunk meg,a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege

Kommunalitás 0,846^2=0,716

Kommunalitás 0,846^2+(-0,303)^2=0,808

Kommunalitás A kommunalitás értelmezhető R2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R2 mutatója a kommunalitás.

Főkomponensek forgatása Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak

Varimax forgatás A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. A forgatás numerikusan egy iteratív folyamat végeredménye

Varimax forgatás

Főkomponens elemzés tulajdonságai Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra

Főkomponens elemzés tulajdonságai

Főkomponens elemzés tulajdonságai Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2-re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk

Főkomponens elemzés tulajdonságai

Előfeltételek Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1-hez

Előfeltételek KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0,5 felett van jelentős az összefüggés az adatokban. Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.

További segítségek Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások

Elemzés Milyen összefüggések vannak a különböző tancsoportok számai között

Elemzés

Elemzés

Elemzés

Elemzés

Elemzés

Elemzés

Elemzés

Elemzés