Rövid bevezetés a sokváltozós statisztikákba Összeállította: Elek Zoltán.

Slides:



Advertisements
Hasonló előadás
Koordináta transzformációk 2
Advertisements

Fejmozgás alapú gesztusok felismerése
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
3. Két független minta összehasonlítása
Rangszám statisztikák
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Koordináta transzformációk
Koordináta transzformációk
Geometriai transzformációk
Feladat Egy új kísérleti készítmény hatását szeretnék vizsgálni egereken. 5 féle dózist adnak be 5 vizsgált egérnek, de nem sikerült mindegyik egérnek.
Matematikai Statisztika VIK Doktori Iskola
Nemlinearitás: a bináris technika alapja
Dimenziócsökkentés, valamint jellemzőszelekciós eljárások
Virtuális méréstechnika
Virtuális méréstechnika Adatok elemzése, fájl I/O 1 Mingesz Róbert V
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Általános lineáris modellek
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p.,
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
Az élővilág kutatásának matematikai, statisztikai eszköztára
SPSS bevezetés.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
Többdimenziós skálázás (7. fejezet). Alapgondolat Feltáró elemzés A skálázással az adatok közötti különbségeket vizsgáljuk, illetve vetítjük le őket kevesebb.
Főkomponens és faktor analízis
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Kvantitatív módszerek
Kvantitatív módszerek
Matematikai alapok és valószínűségszámítás
Nemparaméteres próbák Statisztika II., 5. alkalom.
108 A kísérletek célja egy speciális anyag optimális előállítási körülményeinek meghatározása volt. A célfüggvény a kihozatal %. melynek maximális értékét.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Aszexuális, szimpatrikus speciáció
3. Vetületi ábrázolások számítási eljárásai
Közösségek: diverzitás, fajtelítődés
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Lokális optimalizáció Feladat: f(x) lokális minimumának meghatározása 0.Adott egy kezdeti pont: x 0 1.Jelöljünk ki egy új x i pontot, ahol (lehetőleg)
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Talajminták vizsgált paraméterei Durva homok ( 2,0 - 0,2 mm) Finom homok ( 0,2 –0,02 mm ) Por ( 0,02 – 0,002 mm ) Kolloid agyag ( 0,002 mm alatt ) Fizikai.
Képfeldolgozási módszerek alkalmazása kajszimagok morfológiai tulajdonságainak leírására Felföldi J. 1, Hermán R. 2, Pedryc A. 2, Firtha F. 1 1 Budapesti.
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Alapsokaság (populáció)
Lineáris regresszió.
Adatleírás.
További módszertani és ökológiai, erdődinamikai (!?) szempontok Horváth F.
Diszkrét változók vizsgálata
Torlódás (Jamming) Kritikus pont-e a J pont? Szilva Attila 5. éves mérnök-fizikus hallgató.
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
„Taxonok mintákban” típusú adatmátrix
Bevezetés Tethys déli pereme El Haria Formáció –Márga –Self, kontinentális lejtő, abisszikus síkság Folyamatos paleocén rétegsor P1a-P5-ig K OUWENHOVEN.
Paleobiológiai módszerek és modellek 4. hét
Parametrikus programozás
Kvantitatív módszerek
A szóráselemzés gondolatmenete
Vargha András KRE és ELTE, Pszichológiai Intézet
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Digitális képanalízis
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Adatelemzési gyakorlatok
non-profit szektor adatainak elemzése
Az Európai Unió tagországainak, a csatlakozásra váró országoknak
A leíró statisztikák alapelemei
Rangsoroláson és pontozáson alapuló komplex mutatók
Mérési skálák, adatsorok típusai
Előadás másolata:

Rövid bevezetés a sokváltozós statisztikákba Összeállította: Elek Zoltán

Sokváltozós módszerek Kiterjesztése az egyváltozós és kétváltozós módszereknek Egy idejű elemzés/kezelése a faj-minta- környezeti változó adatoknak

Sokváltozós adatok… Egyedek morfometriai adatai (pl.: hossz) Egyedek fiziológiai adatai (pl.: vérnyomás, pulzus) Környezeti adatok (pl.: légnyomás, hőmérséklet) Fajszám, egyedszám stb… Az adatok általános formulája → adatmátrix

Szimilaritás (S) a minták között % vagy S = 100%, teljes azonosság (identikus minták) S = 0, teljesen különböző minták (nincsenek közös fajok)

Bray-Curtis koefficiens (Bray & Curtis, 1957) Első terresztriális ökológiai rendszerekre kifejlesztett szimilaritás függvény ahol, y ij - „i”faj egyedszáma a „j” mintában, y ik - „i”faj egyedszáma a „k” mintában, n - teljes mintászám

S X2 X3 = 100 { } = 84 S X3 Y1 = 100 { } = 38

Faj szimilaritás mátrix

Transzformációk Megfelelő adatok paraméteres próbákhoz (pl.: variancia heterogenitás és ANOVA) Súlyozni a ritka és a gyakori fajok hozzájárulását nem-paraméteres sokváltozós elemzésekben

Miért? Súlyozni a ritka és a gyakori fajok hozzájárulását A transzformálatlan és transzformált adatok eltérő eredményeket adhatnak diszimilaritás számítása során (minták között) Hatás az nMDS-re.

Transzformáció sokváltozós statisztikákban négyzetgyök negyedikgyök / Log (1+y) Prezencia/Abszencia bizonytalanság Közepes gyakoriságú fajok Ritka fajok Nem túl gyakori

Faj szimilaritás mátrix - transzformált

Sokváltozós technikák A leggyakoribbak: Klaszter elemzés Ordináció Pl.: diszkriminancia elemzés

Klaszter elemzés A minták csoportokba helyezése (terület, fajok, vagy környezeti változók) a hasonlóságuk alapján. A minták a csoportokon belül jobban hasonlítanak, mint a csoportok között

Dendrogram Minták

Ordináció Grafikus technika Ordinációs ábra (általában két vagy három dimenziós) A pontok közötti relatív távolság arányos a minták között számított hasonlósággal

Az ordináció típusai Indirekt grádiens elemzés Csak biológiai adatok - faj/abundancia, minta mátrix A környezeti adatokat ez követően lehet korreláltani a tengelyekkel Direkt grádiens elemzés Környezeti és faj/abundancia adatok

Including: Principle Component Analysis (PCA) Correspondence Analysis (CA) Detrended Correspondence Analysis (DCA) Non-metric Multi-dimensional Scaling (nMDS) Indirekt grádiens elemzés Direct gradient analysis Including: Redundancy Analysis (RD) Canonical Correspondence Analysis (CCA) Detrended Canonical Correspondence Analysis (DCCA) Főkomponens analízis (PCA) Nem-metrikus skálázás (nMDS)

PCA Eredeti adatok Első tengely (PC1) Best-fit curve Source: Clarke, K. R. & Warwick, R. M. (1994) Change in Marine Communities: an Approach to Statistical Analysis and Interpretation. Plymouth Marine Laboratory, Plymouth: 144pp.

Második tengely (PC2) – merőleges a PC1 (i.e. korrelálatlan / ortogonális) forgatás

Harmadik tengely (PC3)

Eigenvalues PC Eigenvalues %Variation Cum.%Variation Eigenvectors (Coefficients in the linear combinations of variables making up PC's) Variable PC1 PC2 PC3 PC4 PC5 A B C D E Species

PCA feltételek Lineális összefüggés a változók között A változók normalitása Az ökológiai adatok ritkán felelnek meg ezeknek a feltételeknek…

Sokdimenziós skálázás (MDS) Sokváltozós adatelemzési technika, A minták közötti összefüggések vizualizálása, alacsony (két) dimenziós térben Két típus: metrikus és nem-metrikus

Metrikus MDS: - Adatok-intervallum vagy arányskála - kvantitatív nem-metrikus MDS (nMDS) - Rang-jellegű adatok - kvantitatív vagy kvalitatív

Előnyök - nMDS Az ordináció rang-jellegű szimilraritás/diszimilaritás adatokon alapszik a mintákra vonatkoztatva Ordinális skálás adatok is használhatók

Bray-Curtis similarity from Clarke & Warwick, 1994

Példa…. Urbanizáció és futóbogarak

Távolság mátrixok… dist… dist <- dist(dk, method=„…”)

dist(x, method= "euclidean",diag=FALSE, upper=FALSE, p=2) euclidean: Usual square distance between the two vectors (2 norm). maximum: Maximum distance between two components of x and y (supremum norm) manhattan: Absolute distance between the two vectors (1 norm). canberra: sum(|x_i - y_i| / |x_i + y_i|). Terms with zero numerator and denominator are omitted from the sum and treated as if the values were missing. binary: (aka asymmetric binary): The vectors are regarded as binary bits, so non-zero elements are ‘on’ and zero elements are ‘off’. The distance is the proportion of bits in which only one is on amongst those in which at least one is on. minkowski: The p norm, the pth root of the sum of the pth powers of the differences of the components.

Távolság mátrixok… vegdist… dk.dist <- vegdist(dk, method=„…”)

vegdist(x, method="bray„, binary=FALSE, diag=FALSE, upper=FALSE, na.rm=FALSE,...) euclidean d[jk] = sqrt(sum (x[ij]-x[ik])^2) manhattan d[jk] = sum(abs(x[ij] - x[ik])) gower d[jk] = (1/M) sum (abs(x[ij]-x[ik])/(max(x[i])-min(x[i])) where M is the number of columns (excluding missing values) canberra d[jk] = (1/NZ) sum ((x[ij]-x[ik])/(x[ij]+x[ik])) where NZ is the number of non-zero entries. bray d[jk] = (sum abs(x[ij]-x[ik])/(sum (x[ij]+x[ik])) kulczynski d[jk] *((sum min(x[ij],x[ik])/(sum x[ij]) + (sum min(x[ij],x[ik])/(sum x[ik])) morisita {d[jk] = 2*sum(x[ij]*x[ik])/((lambda[j]+lambda[k]) * sum(x[ij])*sum(x[ik])) } where lambda[j] = sum(x[ij]*(x[ij]-1))/sum(x[ij])*sum(x[ij]-1) horn Like morisita, but lambda[j] = sum(x[ij]^2)/(sum(x[ij])^2) binomial d[jk] = sum(x[ij]*log(x[ij]/n[i]) + x[ik]*log(x[ik]/n[i]) - n[i]*log(1/2))/n[i] where n[i] = x[ij] + x[ik]

Klaszter elemzés library(vegan) setwd("c:/!myR/anosim") dk<-read.table("dk-04.txt",header=T) attach(dk) names(dk) fix(dk) dk.env<-read.table("dk-env-04.txt",header=T) dk.env$Area<-factor(dk.env$Area) dk.env$sites<-factor(dk.env$sites) dk.env$traps<-factor(dk.env$traps) attach(dk.env) names(dk.env) fix(dk.env) str(dk) dk.dist <- vegdist(dk) x<-hclust(dk.dist, method = "ward") plot(x, hang=-1)

PCA require(graphics) (pc.cr <- princomp(dk)) princomp(dk, cor = TRUE) summary(pc.cr <- princomp(dk, cor = TRUE)) loadings(pc.cr) par(mfrow=c(1,2), pty="s") plot(pc.cr) biplot(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Standard deviation Proportion of Variance Cumulative Proportion

Metrikus-MDS require(graphics) dk.dist <- vegdist(dk) loc <- cmdscale(dk.dist) x <- loc[,1] y <- -loc[,2] plot(x, y, type="n", xlab="1st Axis", ylab="2nd Axis", main="cmdscale(dk.dist)", cex=1.8, family="serif") text(x, y, rownames(loc), cex=0.8, family="serif")

Nem-metrikus MDS library(MASS) dk.dist <- vegdist(dk) dk.mds <- isoMDS(dk.dist) plot(dk.mds$points, type = "n",cex=0.8, family="serif") text(dk.mds$points, labels = as.character(1:nrow(dk)),cex=0.8, family="serif")

Anosim – Analysis of Similarity Ha két minta fajösszetétele valóban különbözik, akkor a csoportok közötti disszimilaritás nagyobb mint a csoportok(on) belül. Az anosim R értéke a csoportok közötti rangok különbségén alapszik A módszer közvetlenül a távolságmátrixból számol. R = (r_B - r_W)/(N (N-1) / 4) Ahol, (r_B)- Csoportok között; (r_W)- csoporton belül R ( ), ahol 0 – teljesen random csoportosulás

Anosim… library(vegan) setwd("c:/!myR/anosim") dk<-read.table("dk-04.txt",header=T) attach(dk) names(dk) fix(dk) dk.env<-read.table("dk-env-04.txt",header=T) dk.env$Area<-factor(dk.env$Area) dk.env$sites<-factor(dk.env$sites) dk.env$traps<-factor(dk.env$traps) attach(dk.env) names(dk.env) fix(dk.env) str(dk) dk.dist <- vegdist(dk) attach(dk.env) dk.ano <- anosim(dk.dist, sites) summary(dk.ano) plot(dk.ano) savePlot(filename="dk-04a", type=c("emf"))

Anosim - results Call: anosim(dis = dk.dist, grouping = sites) Dissimilarity: bray ANOSIM statistic R: Significance: < Based on 1000 permutations Empirical upper confidence limits of R: 90% 95% 97.5% 99% Dissimilarity ranks between and within classes: 0% 25% 50% 75% 100% N Between forest suburban urban

Irodalom Podani János, Bevezetés a többváltozós biológiai adatfeldolgozás rejtelmeibe. Scientia Kiadó, Budapest Drs. Alan S.L. Leung and Kenneth M.Y. Leung, An Introduction to Multivariate Analysis. (lectures ) Dr. Michael R. Hyman, Brief introduction to mutlivariate statistics. (supplementary material)