Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.

Hasonló előadás


Az előadások a következő témára: "Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók."— Előadás másolata:

1 Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók lineáris transzformációjával olyan mesterséges (hipotetikus) változók állíthatók elő, amelyek függetlenek egymástól, ugyanakkor információtartalmuk azonos az eredeti változókéval. A főkomponensek az „xj” változók helyettesítését szolgáló, magukból a változókból lineáris transzformációval előállított mesterséges változók, melyek páronként korrelálatlan rendszert alkotnak, és hordozzák az eredeti változók információtartalmát.

2 A főkomponensek és az eredeti változók közötti összefüggés:
ahol Y: a főkomponenseket tartalmazó mátrix, : a megfigyelt változók (X) standardizáltjait tartalmazó mátrix, B: a transzformáció mátrixa. Adott főkomponens statisztikai tartalmát a vele legszorosabban (akár pozitív, akár negatív) korreláló változók adják.

3 A főkomponenssúlyok a vizsgált változók és a főkomponensváltozók közötti lineáris korrelációs együtthatók. A kumulált főkomponenssúly-négyzetek azt tükrözik, hogy a főkomponenseknek milyen súlya van a megfigyelt változók varianciájában.

4 Variancia- és kovarianciaanalízis
A szóráselemzés vagy varianciaanalízis segítségével egy vagy több csoportosító ismérv szerint részekre bontott sokaság mennyiségi ismérvének és a csoportosító ismérveknek a kapcsolatát vizsgáljuk. Arra keressük a választ, hogy a csoportok szignifikánsan különböznek-e a vizsgált mennyiségi ismérv értékét tekintve. A varianciaanalízis célja annak tesztelése, hogy az egyes csoportosító ismérvek (hatótényezők) lényegesen befolyásolják-e az adott mennyiségi ismérv értékét. Attól függően, hogy hány csoportosító ismérv hatását vizsgáljuk, beszélünk egyutas, kétutas, illetve többutas varianciaanalízisről.

5 Kétutas és többutas varianciaanalízis
Két vagy több csoportosító ismérv esetén már számolnunk kell az azok közötti függőségi viszonnyal is, azaz azzal a hatással, amelyet a két vagy több változó közösen gyakorol a vizsgált eredmény változónkra. Ezt interakciós hatásnak nevezzük. A hatótényezők által külön-külön kifejtett hatást pedig főhatásoknak nevezzük. Az interakció két hatótényező esetén azt jelenti, hogy rögzítve az egyik hatótényező értékét a másik hatótényező különböző ismérv-változatai mentén az eredmény változó másként viselkedik, mint az egyik hatótényező más rögzített értékei mellett.

6 ANCOVA Ha modellünkben a nemmetrikus hatótényezők (minőségi ismérvek) mellett metrikus hatótényezőt (mennyiségi ismérvet) is szerepeltetünk, akkor ANCOVA módszert alkalmazunk. A nemmetrikus magyarázó változókat faktoroknak, a metrikus magyarázó változókat pedig kovariánsoknak nevezzük. Az eredmény változó és a kovariánsok között többszörös determinációs együttható számítható. Ezzel kiszámíthatjuk az eredmény változó szóródásának azt a részét, amit a kovariánsok magyaráznak. A szóródás (eltérés-négyzetösszeg) fennmaradó hányada magyarázható a faktorokkal. Itt is felléphetnek interakciós hatások pusztán faktorok között, pusztán kovariánsok között, valamint faktorok és kovariánsok között.

7 MANOVA A magyarázó változók (csoportosító ismérvek) mellett növelhetjük az eredmény változók számát is. Ezt többváltozós szórásnégyzetelemzésnek (MANOVA) hívjuk. Ekkor az eredmény változók egy p komponensű vektorváltozót képeznek. Hipotézisvizsgálatot végzünk, hogy az egyes csoportok különbözőnek tekinthetőek-e a várható értékek vektorai tekintetében. A MANOVA modellek bonyolultabbak az ANOVA modelleknél, mivel ilyenkor az eredmény változók közötti sztochasztikus kapcsolatot is kezelni kell.

8 A Petres-féle Red-mutató
Ha egy regressziós modell magyarázóváltozói között nagy a multikollinearitás akkor a forrásául szolgáló adatállomány redundáns, nem mindegyik adat hordoz hasznos tartalmat a modell β paraméterének becsléséhez. Minél kisebb a hasznos tartalmat hordozó adatok aránya, annál nagyobb a redundancia mértéke. Ennek méréséhez a magyarázóváltozók R korrelációs mátrixának (j = 1,2,…,m) sajátértékeit alkalmazzuk. Minél nagyobb mértékben szóródnak a sajátértékek, annál nagyobb mértékű az adatállományban szereplő magyarázóváltozók együttmozgása.

9 A szóródás mértékét számszerűsíthetjük a sajátértékek relatív szórásával .
Különböző adatállományok redundanciájának összevethetősége végett a mutatót normálni kell értékkel. m = a magyarázó változók száma Az így kapott un. Red-mutatót a redundancia mértékének számszerűsítésére használjuk: A redundancia hiánya esetén a fenti mutató értéke nulla, illetve nulla százalék, míg maximális redundancia esetén egy, illetve száz százalék. a sajátértékek relatív szórása

10 Két vagy több különböző méretű adatállomány redundanciájának összevetésekor a Red-mutató alapján csak annyi állítható, hogy az egyes adatállományok mennyire redundánsak, de arra vonatkozó közvetlen kijelentés nem tehető, hogy ezek közül melyiknek van több hasznosítható adata.

11 A Red-mutató kiszámítható a sajátértékek ismerete nélkül is, ha az eredeti adatokat tartalmazó adatállományban a magyarázóváltozókat standardizáljuk. ahol: i = 1,2,…,n j = 1,2,…,m = a magyarázó változók a j-edik magyarázóváltozó tapasztalati szórását jelöli.

12 A Red-mutató előnye az, hogy segítségével mérni lehet az elemzés alapjául szolgáló adatállományon belül a hasznos tartalmat hordozó adatok arányát is. Ugyanis, egy adott méretű adatállományban a hasznos tartalmat hordozó adatok aránya az azonos méretű, minimális redundanciájú adatállományhoz viszonyítva 100·(1-Red) százalék, míg az adatok átlagos együttmozgásának a maximálishoz viszonyított mértéke 100·Red százalék.


Letölteni ppt "Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók."

Hasonló előadás


Google Hirdetések