Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók lineáris transzformációjával olyan mesterséges (hipotetikus) változók állíthatók elő, amelyek függetlenek egymástól, ugyanakkor információtartalmuk azonos az eredeti változókéval. A főkomponensek az „xj” változók helyettesítését szolgáló, magukból a változókból lineáris transzformációval előállított mesterséges változók, melyek páronként korrelálatlan rendszert alkotnak, és hordozzák az eredeti változók információtartalmát.
A főkomponensek és az eredeti változók közötti összefüggés: ahol Y: a főkomponenseket tartalmazó mátrix, : a megfigyelt változók (X) standardizáltjait tartalmazó mátrix, B: a transzformáció mátrixa. Adott főkomponens statisztikai tartalmát a vele legszorosabban (akár pozitív, akár negatív) korreláló változók adják.
A főkomponenssúlyok a vizsgált változók és a főkomponensváltozók közötti lineáris korrelációs együtthatók. A kumulált főkomponenssúly-négyzetek azt tükrözik, hogy a főkomponenseknek milyen súlya van a megfigyelt változók varianciájában.
Variancia- és kovarianciaanalízis A szóráselemzés vagy varianciaanalízis segítségével egy vagy több csoportosító ismérv szerint részekre bontott sokaság mennyiségi ismérvének és a csoportosító ismérveknek a kapcsolatát vizsgáljuk. Arra keressük a választ, hogy a csoportok szignifikánsan különböznek-e a vizsgált mennyiségi ismérv értékét tekintve. A varianciaanalízis célja annak tesztelése, hogy az egyes csoportosító ismérvek (hatótényezők) lényegesen befolyásolják-e az adott mennyiségi ismérv értékét. Attól függően, hogy hány csoportosító ismérv hatását vizsgáljuk, beszélünk egyutas, kétutas, illetve többutas varianciaanalízisről.
Kétutas és többutas varianciaanalízis Két vagy több csoportosító ismérv esetén már számolnunk kell az azok közötti függőségi viszonnyal is, azaz azzal a hatással, amelyet a két vagy több változó közösen gyakorol a vizsgált eredmény változónkra. Ezt interakciós hatásnak nevezzük. A hatótényezők által külön-külön kifejtett hatást pedig főhatásoknak nevezzük. Az interakció két hatótényező esetén azt jelenti, hogy rögzítve az egyik hatótényező értékét a másik hatótényező különböző ismérv-változatai mentén az eredmény változó másként viselkedik, mint az egyik hatótényező más rögzített értékei mellett.
ANCOVA Ha modellünkben a nemmetrikus hatótényezők (minőségi ismérvek) mellett metrikus hatótényezőt (mennyiségi ismérvet) is szerepeltetünk, akkor ANCOVA módszert alkalmazunk. A nemmetrikus magyarázó változókat faktoroknak, a metrikus magyarázó változókat pedig kovariánsoknak nevezzük. Az eredmény változó és a kovariánsok között többszörös determinációs együttható számítható. Ezzel kiszámíthatjuk az eredmény változó szóródásának azt a részét, amit a kovariánsok magyaráznak. A szóródás (eltérés-négyzetösszeg) fennmaradó hányada magyarázható a faktorokkal. Itt is felléphetnek interakciós hatások pusztán faktorok között, pusztán kovariánsok között, valamint faktorok és kovariánsok között.
MANOVA A magyarázó változók (csoportosító ismérvek) mellett növelhetjük az eredmény változók számát is. Ezt többváltozós szórásnégyzetelemzésnek (MANOVA) hívjuk. Ekkor az eredmény változók egy p komponensű vektorváltozót képeznek. Hipotézisvizsgálatot végzünk, hogy az egyes csoportok különbözőnek tekinthetőek-e a várható értékek vektorai tekintetében. A MANOVA modellek bonyolultabbak az ANOVA modelleknél, mivel ilyenkor az eredmény változók közötti sztochasztikus kapcsolatot is kezelni kell.
A Petres-féle Red-mutató Ha egy regressziós modell magyarázóváltozói között nagy a multikollinearitás akkor a forrásául szolgáló adatállomány redundáns, nem mindegyik adat hordoz hasznos tartalmat a modell β paraméterének becsléséhez. Minél kisebb a hasznos tartalmat hordozó adatok aránya, annál nagyobb a redundancia mértéke. Ennek méréséhez a magyarázóváltozók R korrelációs mátrixának (j = 1,2,…,m) sajátértékeit alkalmazzuk. Minél nagyobb mértékben szóródnak a sajátértékek, annál nagyobb mértékű az adatállományban szereplő magyarázóváltozók együttmozgása.
A szóródás mértékét számszerűsíthetjük a sajátértékek relatív szórásával . Különböző adatállományok redundanciájának összevethetősége végett a mutatót normálni kell értékkel. m = a magyarázó változók száma Az így kapott un. Red-mutatót a redundancia mértékének számszerűsítésére használjuk: A redundancia hiánya esetén a fenti mutató értéke nulla, illetve nulla százalék, míg maximális redundancia esetén egy, illetve száz százalék. a sajátértékek relatív szórása
Két vagy több különböző méretű adatállomány redundanciájának összevetésekor a Red-mutató alapján csak annyi állítható, hogy az egyes adatállományok mennyire redundánsak, de arra vonatkozó közvetlen kijelentés nem tehető, hogy ezek közül melyiknek van több hasznosítható adata.
A Red-mutató kiszámítható a sajátértékek ismerete nélkül is, ha az eredeti adatokat tartalmazó adatállományban a magyarázóváltozókat standardizáljuk. ahol: i = 1,2,…,n j = 1,2,…,m = a magyarázó változók a j-edik magyarázóváltozó tapasztalati szórását jelöli.
A Red-mutató előnye az, hogy segítségével mérni lehet az elemzés alapjául szolgáló adatállományon belül a hasznos tartalmat hordozó adatok arányát is. Ugyanis, egy adott méretű adatállományban a hasznos tartalmat hordozó adatok aránya az azonos méretű, minimális redundanciájú adatállományhoz viszonyítva 100·(1-Red) százalék, míg az adatok átlagos együttmozgásának a maximálishoz viszonyított mértéke 100·Red százalék.