Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Kvantitatív Módszerek
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Összetett kísérleti tervek és kiértékelésük
Kvantitatív módszerek
A többszörös összehasonlítás gondolatmenete. Több mint két statisztikai döntés egy vizsgálatban? Mi történik az elsõ fajú hibával, ha két teljesen független.
Gazdaságelemzési és Statisztikai Tanszék
Híranyagok tömörítése
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
Gazdaságelemzési és Statisztikai Tanszék
Közlekedésstatisztika
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Miért kell többváltozós modellekhez folyamodnunk (a túlélési analízis során)?
III. Sz. Belgyógyászati Klinika
SPSS többváltozós regresszió
Főkomponens és faktor analízis
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Készítette: Kosztyán Zsolt Tibor
Kvantitatív módszerek
Egytényezős variancia-analízis
STATISZTIKA II. 7. Előadás
3. előadás Heterogén sokaságok Szórásnégyzet-felbontás
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Petrovics Petra Doktorandusz
A szóráselemzés gondolatmenete
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Többdimenziós valószínűségi eloszlások
A számítógépes elemzés alapjai
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Lineáris regressziós modellek
Haladó Pénzügyek Vezetés szervezés MSC I. évfolyam I
Részekre bontott sokaság vizsgálata, gyakorló feladatok
Többváltozós lineáris regresszió
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
III. előadás.
Dr. Varga Beatrix egyetemi docens
Haladó Pénzügyek Vezetés szervezés MSC I. évfolyam I
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Mérési skálák, adatsorok típusai
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók lineáris transzformációjával olyan mesterséges (hipotetikus) változók állíthatók elő, amelyek függetlenek egymástól, ugyanakkor információtartalmuk azonos az eredeti változókéval. A főkomponensek az „xj” változók helyettesítését szolgáló, magukból a változókból lineáris transzformációval előállított mesterséges változók, melyek páronként korrelálatlan rendszert alkotnak, és hordozzák az eredeti változók információtartalmát.

A főkomponensek és az eredeti változók közötti összefüggés: ahol Y: a főkomponenseket tartalmazó mátrix, : a megfigyelt változók (X) standardizáltjait tartalmazó mátrix, B: a transzformáció mátrixa. Adott főkomponens statisztikai tartalmát a vele legszorosabban (akár pozitív, akár negatív) korreláló változók adják.

A főkomponenssúlyok a vizsgált változók és a főkomponensváltozók közötti lineáris korrelációs együtthatók. A kumulált főkomponenssúly-négyzetek azt tükrözik, hogy a főkomponenseknek milyen súlya van a megfigyelt változók varianciájában.

Variancia- és kovarianciaanalízis A szóráselemzés vagy varianciaanalízis segítségével egy vagy több csoportosító ismérv szerint részekre bontott sokaság mennyiségi ismérvének és a csoportosító ismérveknek a kapcsolatát vizsgáljuk. Arra keressük a választ, hogy a csoportok szignifikánsan különböznek-e a vizsgált mennyiségi ismérv értékét tekintve. A varianciaanalízis célja annak tesztelése, hogy az egyes csoportosító ismérvek (hatótényezők) lényegesen befolyásolják-e az adott mennyiségi ismérv értékét. Attól függően, hogy hány csoportosító ismérv hatását vizsgáljuk, beszélünk egyutas, kétutas, illetve többutas varianciaanalízisről.

Kétutas és többutas varianciaanalízis Két vagy több csoportosító ismérv esetén már számolnunk kell az azok közötti függőségi viszonnyal is, azaz azzal a hatással, amelyet a két vagy több változó közösen gyakorol a vizsgált eredmény változónkra. Ezt interakciós hatásnak nevezzük. A hatótényezők által külön-külön kifejtett hatást pedig főhatásoknak nevezzük. Az interakció két hatótényező esetén azt jelenti, hogy rögzítve az egyik hatótényező értékét a másik hatótényező különböző ismérv-változatai mentén az eredmény változó másként viselkedik, mint az egyik hatótényező más rögzített értékei mellett.

ANCOVA Ha modellünkben a nemmetrikus hatótényezők (minőségi ismérvek) mellett metrikus hatótényezőt (mennyiségi ismérvet) is szerepeltetünk, akkor ANCOVA módszert alkalmazunk. A nemmetrikus magyarázó változókat faktoroknak, a metrikus magyarázó változókat pedig kovariánsoknak nevezzük. Az eredmény változó és a kovariánsok között többszörös determinációs együttható számítható. Ezzel kiszámíthatjuk az eredmény változó szóródásának azt a részét, amit a kovariánsok magyaráznak. A szóródás (eltérés-négyzetösszeg) fennmaradó hányada magyarázható a faktorokkal. Itt is felléphetnek interakciós hatások pusztán faktorok között, pusztán kovariánsok között, valamint faktorok és kovariánsok között.

MANOVA A magyarázó változók (csoportosító ismérvek) mellett növelhetjük az eredmény változók számát is. Ezt többváltozós szórásnégyzetelemzésnek (MANOVA) hívjuk. Ekkor az eredmény változók egy p komponensű vektorváltozót képeznek. Hipotézisvizsgálatot végzünk, hogy az egyes csoportok különbözőnek tekinthetőek-e a várható értékek vektorai tekintetében. A MANOVA modellek bonyolultabbak az ANOVA modelleknél, mivel ilyenkor az eredmény változók közötti sztochasztikus kapcsolatot is kezelni kell.

A Petres-féle Red-mutató Ha egy regressziós modell magyarázóváltozói között nagy a multikollinearitás akkor a forrásául szolgáló adatállomány redundáns, nem mindegyik adat hordoz hasznos tartalmat a modell β paraméterének becsléséhez. Minél kisebb a hasznos tartalmat hordozó adatok aránya, annál nagyobb a redundancia mértéke. Ennek méréséhez a magyarázóváltozók R korrelációs mátrixának (j = 1,2,…,m) sajátértékeit alkalmazzuk. Minél nagyobb mértékben szóródnak a sajátértékek, annál nagyobb mértékű az adatállományban szereplő magyarázóváltozók együttmozgása.

A szóródás mértékét számszerűsíthetjük a sajátértékek relatív szórásával . Különböző adatállományok redundanciájának összevethetősége végett a mutatót normálni kell értékkel. m = a magyarázó változók száma Az így kapott un. Red-mutatót a redundancia mértékének számszerűsítésére használjuk: A redundancia hiánya esetén a fenti mutató értéke nulla, illetve nulla százalék, míg maximális redundancia esetén egy, illetve száz százalék. a sajátértékek relatív szórása

Két vagy több különböző méretű adatállomány redundanciájának összevetésekor a Red-mutató alapján csak annyi állítható, hogy az egyes adatállományok mennyire redundánsak, de arra vonatkozó közvetlen kijelentés nem tehető, hogy ezek közül melyiknek van több hasznosítható adata.

A Red-mutató kiszámítható a sajátértékek ismerete nélkül is, ha az eredeti adatokat tartalmazó adatállományban a magyarázóváltozókat standardizáljuk. ahol: i = 1,2,…,n j = 1,2,…,m = a magyarázó változók a j-edik magyarázóváltozó tapasztalati szórását jelöli.

A Red-mutató előnye az, hogy segítségével mérni lehet az elemzés alapjául szolgáló adatállományon belül a hasznos tartalmat hordozó adatok arányát is. Ugyanis, egy adott méretű adatállományban a hasznos tartalmat hordozó adatok aránya az azonos méretű, minimális redundanciájú adatállományhoz viszonyítva 100·(1-Red) százalék, míg az adatok átlagos együttmozgásának a maximálishoz viszonyított mértéke 100·Red százalék.