Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaAlajos Deák Megváltozta több, mint 10 éve
1
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók lineáris transzformációjával olyan mesterséges (hipotetikus) változók állíthatók elő, amelyek függetlenek egymástól, ugyanakkor információtartalmuk azonos az eredeti változókéval. A főkomponensek az „xj” változók helyettesítését szolgáló, magukból a változókból lineáris transzformációval előállított mesterséges változók, melyek páronként korrelálatlan rendszert alkotnak, és hordozzák az eredeti változók információtartalmát.
2
A főkomponensek és az eredeti változók közötti összefüggés:
ahol Y: a főkomponenseket tartalmazó mátrix, : a megfigyelt változók (X) standardizáltjait tartalmazó mátrix, B: a transzformáció mátrixa. Adott főkomponens statisztikai tartalmát a vele legszorosabban (akár pozitív, akár negatív) korreláló változók adják.
3
A főkomponenssúlyok a vizsgált változók és a főkomponensváltozók közötti lineáris korrelációs együtthatók. A kumulált főkomponenssúly-négyzetek azt tükrözik, hogy a főkomponenseknek milyen súlya van a megfigyelt változók varianciájában.
4
Variancia- és kovarianciaanalízis
A szóráselemzés vagy varianciaanalízis segítségével egy vagy több csoportosító ismérv szerint részekre bontott sokaság mennyiségi ismérvének és a csoportosító ismérveknek a kapcsolatát vizsgáljuk. Arra keressük a választ, hogy a csoportok szignifikánsan különböznek-e a vizsgált mennyiségi ismérv értékét tekintve. A varianciaanalízis célja annak tesztelése, hogy az egyes csoportosító ismérvek (hatótényezők) lényegesen befolyásolják-e az adott mennyiségi ismérv értékét. Attól függően, hogy hány csoportosító ismérv hatását vizsgáljuk, beszélünk egyutas, kétutas, illetve többutas varianciaanalízisről.
5
Kétutas és többutas varianciaanalízis
Két vagy több csoportosító ismérv esetén már számolnunk kell az azok közötti függőségi viszonnyal is, azaz azzal a hatással, amelyet a két vagy több változó közösen gyakorol a vizsgált eredmény változónkra. Ezt interakciós hatásnak nevezzük. A hatótényezők által külön-külön kifejtett hatást pedig főhatásoknak nevezzük. Az interakció két hatótényező esetén azt jelenti, hogy rögzítve az egyik hatótényező értékét a másik hatótényező különböző ismérv-változatai mentén az eredmény változó másként viselkedik, mint az egyik hatótényező más rögzített értékei mellett.
6
ANCOVA Ha modellünkben a nemmetrikus hatótényezők (minőségi ismérvek) mellett metrikus hatótényezőt (mennyiségi ismérvet) is szerepeltetünk, akkor ANCOVA módszert alkalmazunk. A nemmetrikus magyarázó változókat faktoroknak, a metrikus magyarázó változókat pedig kovariánsoknak nevezzük. Az eredmény változó és a kovariánsok között többszörös determinációs együttható számítható. Ezzel kiszámíthatjuk az eredmény változó szóródásának azt a részét, amit a kovariánsok magyaráznak. A szóródás (eltérés-négyzetösszeg) fennmaradó hányada magyarázható a faktorokkal. Itt is felléphetnek interakciós hatások pusztán faktorok között, pusztán kovariánsok között, valamint faktorok és kovariánsok között.
7
MANOVA A magyarázó változók (csoportosító ismérvek) mellett növelhetjük az eredmény változók számát is. Ezt többváltozós szórásnégyzetelemzésnek (MANOVA) hívjuk. Ekkor az eredmény változók egy p komponensű vektorváltozót képeznek. Hipotézisvizsgálatot végzünk, hogy az egyes csoportok különbözőnek tekinthetőek-e a várható értékek vektorai tekintetében. A MANOVA modellek bonyolultabbak az ANOVA modelleknél, mivel ilyenkor az eredmény változók közötti sztochasztikus kapcsolatot is kezelni kell.
8
A Petres-féle Red-mutató
Ha egy regressziós modell magyarázóváltozói között nagy a multikollinearitás akkor a forrásául szolgáló adatállomány redundáns, nem mindegyik adat hordoz hasznos tartalmat a modell β paraméterének becsléséhez. Minél kisebb a hasznos tartalmat hordozó adatok aránya, annál nagyobb a redundancia mértéke. Ennek méréséhez a magyarázóváltozók R korrelációs mátrixának (j = 1,2,…,m) sajátértékeit alkalmazzuk. Minél nagyobb mértékben szóródnak a sajátértékek, annál nagyobb mértékű az adatállományban szereplő magyarázóváltozók együttmozgása.
9
A szóródás mértékét számszerűsíthetjük a sajátértékek relatív szórásával .
Különböző adatállományok redundanciájának összevethetősége végett a mutatót normálni kell értékkel. m = a magyarázó változók száma Az így kapott un. Red-mutatót a redundancia mértékének számszerűsítésére használjuk: A redundancia hiánya esetén a fenti mutató értéke nulla, illetve nulla százalék, míg maximális redundancia esetén egy, illetve száz százalék. a sajátértékek relatív szórása
10
Két vagy több különböző méretű adatállomány redundanciájának összevetésekor a Red-mutató alapján csak annyi állítható, hogy az egyes adatállományok mennyire redundánsak, de arra vonatkozó közvetlen kijelentés nem tehető, hogy ezek közül melyiknek van több hasznosítható adata.
11
A Red-mutató kiszámítható a sajátértékek ismerete nélkül is, ha az eredeti adatokat tartalmazó adatállományban a magyarázóváltozókat standardizáljuk. ahol: i = 1,2,…,n j = 1,2,…,m = a magyarázó változók a j-edik magyarázóváltozó tapasztalati szórását jelöli.
12
A Red-mutató előnye az, hogy segítségével mérni lehet az elemzés alapjául szolgáló adatállományon belül a hasznos tartalmat hordozó adatok arányát is. Ugyanis, egy adott méretű adatállományban a hasznos tartalmat hordozó adatok aránya az azonos méretű, minimális redundanciájú adatállományhoz viszonyítva 100·(1-Red) százalék, míg az adatok átlagos együttmozgásának a maximálishoz viszonyított mértéke 100·Red százalék.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.