Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.

Slides:

Advertisements

Hasonló előadás

Advertisements

Kvantitatív Módszerek

Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.

Gazdaságelemzési és Statisztikai Tanszék

Kvantitatív módszerek

Földrajzi összefüggések elemzése

Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.

Összefüggés vizsgálatok

Becsléselméleti ismétlés

Gazdaságelemzési és Statisztikai Tanszék

STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.

Statisztika II. VI. Dr. Szalka Éva, Ph.D..

Dr. Szalka Éva, Ph.D.1 Statisztika II. VIII.. Dr. Szalka Éva, Ph.D.2 Többváltozós korreláció és regresszióanalízis.

Ozsváth Károly NYME ACSJK Testnevelési Tanszék. II. Országos Sportinformatikai Szimpózium A sportinformatikai szimpózium előadásai kimondva.

Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.

Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p.,

Ozsváth Károly NYME ACSJK Testnevelési Tanszék. A diszkriminanciaanalízis (DSC, DISCRIMINANT) /{ DA, MDA }/ csoportok közti különbségek (különbözőségek),

III. előadás.

Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.

Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

SPSS többváltozós (lineáris) regresszió (4. fejezet)

SPSS többváltozós regresszió

Diszkriminancia analízis

Főkomponens és faktor analízis

Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.

Kvantitatív módszerek

Kvantitatív módszerek

Egytényezős variancia-analízis

Statisztika a szociológiában

Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.

Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.

Kvantitatív Módszerek

Adatbányászati módszerek a térinformatikában

Többváltozós adatelemzés

Többváltozós adatelemzés

Többváltozós adatelemzés

Többváltozós adatelemzés

Következtető statisztika 9.

A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió

Alapsokaság (populáció)

t A kétoldalú statisztikai próba alapfogalmai

Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS

Faktoranalízis az SPSS-ben

Többváltozós számítások

Adatelemzés számítógéppel

Statisztikai alapfogalmak

Bevezetés a Korreláció & Regressziószámításba

A szóráselemzés gondolatmenete

Vargha András KRE és ELTE, Pszichológiai Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.

Valószínűségszámítás II.

Többdimenziós valószínűségi eloszlások

Korreláció-számítás.

A számítógépes elemzés alapjai

Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/

A számítógépes elemzés alapjai

Kvantitatív módszerek

Korreláció, regresszió

Többváltozós lineáris regresszió

III. előadás.

Dr. Varga Beatrix egyetemi docens

Faktor- és főkomponensanalízis

Az Európai Unió tagországainak, a csatlakozásra váró országoknak

Valószínűségi változók együttes eloszlása

A leíró statisztikák alapelemei

2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.

Dr. Varga Beatrix egyetemi docens

Előadás másolata:

Ozsváth Károly NYME ACSJK Testnevelési Tanszék

Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára szolgáló eljárás, adatelemzési koncepció. Sajátérték: azt mutatja meg, hogy az adott faktor(ok) a az eredeti változók teljes varianciáját mennyiben magyarázzák meg. A kiszűrendő faktorok számának behatárolására használatos. Kommunalitás: egy eredeti változó varianciájának magyarázata a faktorokkal. Faktorsúly: az egyes változók szerepe a kiszűrt faktorban, a változók összefüggése az adott faktorral. Analóg a korrelációs együtthatóval, értékei és előjele is annak megfelelő. Faktor érték (Factor scores): ez egyes vizsgált esetek/személyek „eredményei” a kiszűrt háttérváltozóban, faktorban az eredetileg mért változók alapján. Egyféle klasszifikációs, besorolási technika részeként is felhasználható.

A faktoranalízis (FA) a többváltozós statisztikai analízisek körébe tartozik. Nem tartozik azonban a statisztikai hipotézisvizsgálati eljárások közé, a FA esetében nincs nullhipotézis, nincs szignifikancia vizsgálat. A FA elsősorban egy „…matematikai elemzési koncepció valamely többváltozós összefüggésrendszer háttérváltozóinak feltárására” /Sváb J. (1979): Többváltozós módszerek a biometriában. Mezőgazdasági Kiadó, Bp., i.m. 100.p./. Sok változó esetén a sokaságról nyerhető információkat a FA néhány hipotetikus változóba sűríti. Az eljárás célja, hogy a megfigyelt/megmért változókat olyan közös faktorok/komponensek lineáris kombinációjaként fejezze ki, amelyekkel az eredeti változók szórásának túlnyomó része megmagyarázható. A FA alapjait a korrelációszámításból ismert Pearson (1901) és Spearmann (1904) fejtette ki. Kelley (1935) kezdeményezésére Hotelling fejlesztette ki az úgynevezett főfaktor módszert. Jelentős szerepet játszottt a módszer fejlesztésében Thurstone (1935, 1947). Kezdetben főleg pszichológusok alkalmazták. Az 50-es és 60-as években tovább fejlesztették a módszert, azonban nagy számításigénye miatt csak a számítógépek elterjedése tette lehetővé széleskörű alkalmazását.

Két vagy több tetszőleges valószínűségi változó közötti korreláció létrejötte elképzelhető közös keletkezési feltételek alapján. Ezeket a közös keletkezési feltételeket nevezzük faktoroknak, melyek egymástól függetlenek, azaz egymással nem korrelálnak. A korrelációs együtthatók mátrixot képeznek, és ezen korrelációs együtthatókból a faktorok megbecsülhetők. Ez a FA feladata. A faktorok vektoroknak tekinthetők, ezek komponensei a faktorsúlyok. A faktorok összessége is egy mátrix, a faktorsúlyok mátrixa. A faktorsúlyok gyakorlatilag korrelációs együtthatóknak tekinthetők: az adott faktor és az eredeti változó közötti korrelációnak. A FA során az eredeti korrelációs mátrixból a faktorsúlyok mátrixa kerül kiszámításra. A FA során tehát a változók sokaságából kevesebb számú faktort vezetünk le, amelyek az összefüggésrendszer pontosabb, és részben általánosabb magyarázatát teszik lehetővé. Az eredmény alapjaiban kvalitativ, minőségi jellegű, mert hipotetikus háttérváltozókat eredményez. A faktorsúlyok mátrixával azonban regresszióanalízis végezhető („faktorregresszió”), amellyel a FA minőségi jellegű eredményét mennyiségi jellegűvé változtathatjuk.

A FA ma már több technikai megoldással rendelkezik. Ugyanazon korrelációs mátrix különböző módszerű FA megoldásai részben különböző eredményeket adnak. Legáltalánosabb a főkomponens módszer (Principal Component) és a főfaktor módszer (Pricipal Factor, Maximum likelihood) használata. Az eredmények azonban többnyire nehezen interpretálhatók, mert a megoldás szerkezetének megfelelően az első faktor szokta tartalmazni a nagy faktorsúlyok többségét. Azaz egy „általános faktor” dominál a megoldásban. A faktorsruktúrák nem egyértelmű megoldások, hiszen „n” változó esetén egy „m<n” dimenziós teret feszítenek ki. A koordináta rendszer megfelelő transzformációjával, rotációjával azonban elérhető, hogy ne lépjen fel általános faktor. A transzformációkkal megváltozik a faktorstuktúra, de a faktorok közötti viszonyok változatlanok maradnak. A rotációkra is több megoldást dolgoztak ki. A legáltalánosabb megoldás az ú.n. „varimax” rotáció. A FA összességében alkalmas eljárás rendszerek belső szerkezetének feltárására és szakmai elemzésére. Az eredményeket azonban szembe kell állítani a valósággal, a talált összefüggéseket gondosan kell értelmezni. Semmiképpen sem lehet eltekinteni attól, hogy nem hipotézisvizsgálati eljárásról, hanem egy adatelemzési koncepció alkalmazásáról van szó.

A főfaktor módszer azon a geometriai elképzelésen alapul, hogy az „n” számú standardizált változók (átlag=0, szórás=1 értékű, „hagyományos” mértékegység nélküli változók) egy n-dimenziós teret feszítenek ki, ahol a változók normális eloszlásúak. A változókhoz tartozó korelációs együtthatók pedig egy n-dimenziós ellipszoidon fekszenek. Az ellipiszoid tengelyei a meghatározandó faktorok. A faktorok meghatározása ekvivalens az ellipszoid főtengelyének meghatározásával, ami egy ú.n. sajátérték problémára vezethető vissza. Matematikai mátrixműveletek során egy n-ed fokú algebrai egyenlet megoldásait, illetve a polinom gyökeit nevezzük sajátértékeknek. A FA során ezen sajátértékek maximálása a cél. A sajátérték probléma numerikus megoldása – különösen magasabb rendű/rangú mátrixok esetén - nagy számítási ráfordítást igényel. Maximálisan annyi sajátérték számítható ki, amennyi a változók száma. A sajátértékek nagyság szerinti rendezése után azonban az utolsó faktorok olyan kis súlyúak, hogy már nem tartalmaznak lényeges információkat. A kiszűrendő faktorok számához ezért korlátot kell megadni. Ezen korlát megadásához azonban nincsenek szigorú feltételek, vagy teljesen egyértelmű megoldások. Tapasztalati értékek alapján legáltalánosabb a =1 korlát használata, azaz az 1-nél nagyobb sajátértékű faktorokat értelmezzük. Létezik azonban olyan javaslat is, mely szerint az összes varianciát 80%-ban magyarázó faktorokat célszerű kiszűrni.

Az utóbbi években elterjedt álláspont szerint javasolt sok faktorra kiszámítani a sajátértékeket, és ezeket nagyság szerinti sorrendbe állítva a nagy „töréspontokig” érdemes kiszűrni a faktorokat (pontosabban „komponenseket”, mert ez a FA-on belül kezelt „főkomponensanalízis” során kezelhető a jelzett formában.) A Statistica programban erre szolgál a „kavics ábra”, a Scree plot (Plot of Eigenvalues).

Magát a faktoranalízist részemről az egyik legnehézkesebben értelmezhető többváltozós módszernek tartom. Nem ad egyértelmű megoldásokat, sőt eleve többféle, egymástól kisebb-nagyobb mértékben különböző megoldásokat ajánl fel. Az alkalmazó saját belátása szerint választhatja meg a kiszűrendő faktorok számát, saját belátása szerint dönt az esetleges rotálásról, annak formájáról, saját belátása szerint dönt a faktormodell elvi pontosságát befolyásoló iterációk számáról, sőt bizonyos határokon belül még a jelentősnek tekintett faktorsúlyok határértékéről is. Mindezeket azután „értelmezni”, „magyarázni” kell – ami magában hordozza az erőltetett „belemagyarázás” lehetőségét. A gyakorlatban tehát nagyon óvatosan kell eljárni. Sok esetben néhány faktor valóban jól értelmezhető, a többi kiszűrt faktor azonban nem egyértelmű. Ilyen esetekben kerülni kell ezen faktorok „mindenáron” történő megmagyarázását. Fentiekhez azt azért hozzá kell tenni, hogy a különböző megoldások általában nagyon hasonló eredményeket adnak. Ez vonatkozik a FA kiválasztott módszerére és a rotációkra egyaránt. Saját tapasztalataim szerint a leginkább értelmezhető eredményeket a főkomponensanalízis adja, azaz a FA technikái közül a „Principal components method”.

Az eljárás számítási megoldásaiban többféle lehet. Általános jellemzője, hogy az eredményként kapott faktorstruktúra nehezen értelmezhető és „kezdetben” a nagy faktorsúlyok többségét általában az első faktor – „általános faktor” - tartalmazza. A faktorok vektorok, melyek a faktorok számának megfelelő dimenziójú teret feszítenek ki. A viszonyítási alap, a koordinátarendszer változtatható, transzformálható. A transzformációkkal változik a faktorstruktúra, de a faktorok közötti viszonyok változatlanok maradnak. A koordinátarendszer rotációjával el lehet érni, hogy ne lépjen fel általános faktor, amelynek súlyai minden változónál jelentősek. A rotációk egyúttal megpróbálják maximalizálni az egyes változók faktortöltését[1]. A rotációk sem egyértelmű megoldások, technikailag számos módszer létezik, bár eredményük hasonló.[1] [1] A „faktortöltés” és „faktorsúly” a magyar szakirodalomban azonos jelentésű, a faktor és a változó közötti korrelációt takarja. A kapott érték előjelét ugyanúgy kell értelmezni mint „egyszerű” korreláció esetén. Utóbbiról nem egyszer „eltekintenek”, pedig a negatív faktorsúlyok alapjában változtathatják meg egy faktor értelmezhetőségét!. [1]

A faktoranalízis szemléletem szerint elsősorban minőségi jellegű eredményeket ad, nevezetesen sok változó belső összefüggésrendszere milyen hipotetikus háttérváltozókkal – faktorokkal – magyarázható. Ez a „kvalitatív eredmény” természetesen kvantitatív eredményeken alapul és faktorregresszió révén „újból” teljes körűen „mennyiségűvé” alakítható. Kérdés, hogy a faktorregresszió mennyiben értelmezhető és milyen mértékű a becslés pontossága, azaz a „gyakorlatban” használható-e, van-e értelme a jósolt érték kiszámításának, van-e értelme a modell alkalmazásának? Fábián Gy. és Zsidegh M. a „Testnevelési és sporttudományos kutatások módszertana” (MTE, Bp ) c. tankönyvükben több, mint 50 oldalon át mutatják be a faktoranalízist. Kiemelik, hogy az eljárásnál az alapvető problémát a faktorok értelmezése jelenti. A különféle rotációk során pedig a faktorok értelmezése is változik, más értelmet nyernek a faktorok. A faktoranalízis azonban semmiképpen sem tekinthető klasszikus statisztikai próbának, hipotézisvizsgáló eljárásnak. Nincs ugyanis nullhipotézis és nincs szignifikancia vizsgálat sem, még a kiszűrendő faktorok számának meghatározására sincs egyértelmű módszer[4]. Fő alkalmazási területe ennek megfelelően a vizsgált változók szerkezetének, lehetséges összetett háttérváltozóinak feltárása – és ezáltal esetleg a vizsgált változószám csökkentése további analízisekhez, vizsgálatokhoz. Nem véletlen, hogy az SPSS programcsomag „adatredukálás” (Data Reduction) alatt helyezte el a faktoranalízist.[4] [4] A leggyakrabban az 1-nél nagyobb sajátértékű faktorokat szokás figyelembe venni, de ettől el lehet térni. Az eltérést azonban nem árt indokolni, illetve az értelmezésnél ügyelni kell arra, hogy az 1-nél lényegesen kisebb sajátértékű faktorok magyarázó hatása szinte elhanyagolható. [4]

Másképpen megfogalmazva a FA fő alkalmazási területe az eredeti változók számának csökkentése, redukálása. Ugyanazt a jelenséget kevesebb változóval magyarázzuk, azaz dimenziócsökkentést valósítunk meg. Az alap tehát: „sokból kevesebbet”. A változókat „faktorokba” vonjuk össze. A FA arra szolgál, hogy nagyszámú korrelált valószínűségi változót kisszámú korrelálatlan változóval magyarázzunk meg. Egy adatrendszer együttes/közös elemzésére szolgál. A FA „másodlagosan” egyféle csoportosítási/klasszifikációs/osztálybasorolási technikaként is alkalmazható. ((Erre azonban az igazán célzott eljárások az SPSS-ben „Classify” menüpont alatt található diszkriminancia- és clusteranalízisek. A Statistica-ban ezek az eljárások a FA-al egy menüpont alatt, a „Multivariate Exploratory Techniques” között találhatók.))

Kommunalitás (h 2 ): az adott változó varianciáját mennyiben magyarázzák a kiszűrt faktorok. A változó faktorsúlynégyzeteinek összege. (Analóg az R 2 többszörös determinációs együtthatóval. A főfaktor módszernél h 2 =R 2 a kiinduló becslés, amely alsó határ egyes módszereknél az iterációkkal „javítható”, pontosítható. A főkomponens módszernél a kiinduló becslés h 2 =1, azaz maga az eredeti korrelációs mátrix.

Mekkora faktorsúlyok tekinthetők lényegesnek? Erre nincs egyértelmű „szabály”, Sváb (1978) szerint e téren „egyelőre a józan ész szerinti mérlegelésre vagyunk utalva.” Támpont a korrelációs együtthatók 5%-os szignifikancia szintje a (változók száma -1) szabadságfok mellett. A gyakorlatban ez azt jelenti, hogy a 0,7 feletti faktorsúlyok mindig lényegesnek tekinthetők, de magas változozószámok mellett a 0,5 feletti értékek sem hagyhatók teljesen figyelmen kívül.

Miután a többváltozós eljárások korrelációs mátrixból indulnak ki alapvető kritériumnak tekintendő, hogy az analízisbe bevont változók ne legyenek egymásból számolhatók. Azaz ne legyen olyan változó az analízisben, amelyet két vagy több másik változóból lineáris számítással képeztek, mert ez az összefüggésrendszerben eleve jelentkezik. (W.Jahn-H.Vahle: A faktoranalízis és alkalmazása. Közgazdasági és Jogi Könyvkiadó, 1974.)

A többváltozós eljárásoknál, így a FA-nál is célszerű, ha a változók számánál legalább 50-el nagyobb a vizsgált minta elemszáma. Az eredmények azonban ettől eltérő esetekben is lehetnek egyértelműek. A továbbiakban bemutatott példák erre mutatnak mintát.

Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p., Statistica: p.) Fájl: eufit2004ccc.sta

The End of FA