Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
„Tatisztika… Ammeg mi?”
(békásmegyeri aluljáró járókelője)
2
Elméleti alapok I. – fogalmak, jelölések
Változó (variable): „bármi, amit mérni, vagy megfigyelni tudunk” Változó kimenetele (outcome): „a változó lehetséges értéke” Esemény (event): „a változó egy lehetséges értékét megfigyeljük/mérjük” Eset (case): „ahol/akin/amin… mérjük az értéket” Eseménytér (event field): „a megfigyelhetőségeket tartalmazó virtuális tér” Valószínűségi változó: ha egy eseménytér elemeihez számokat rendelünk, akkor az eseményeken egy függvényt értelmezhetünk. Ezt a függvényt nevezzük valószínűségi változónak. Általában: ez a változó eloszlása. Eloszlás, spektrum: „hány darab adott értékű elem van” típusok: sűrűség fv/kumulatív fv; illetve relatív/abszolút (Egyes tudományterületeken eltérő, hogy mit értenek eloszlás alatt!!!) Nagy számok törvénye
3
Elméleti alapok II. - események valószínűsége
Egyes elemi események: nagy betűkkel pl.: A. A esemény bekövetkezésének valószínűsége: P(A). P, hogy A vagy B esemény bekövetkezik: P(A+B) vagy P(AUB). P, hogy A és B is bekövetkezik: P(A*B), vagy P(AB) vagy p(A∩B). Események valószínűségének alaptörvényei (Kolmogorov-axiómák) 1. 0 ≤ P(A) ≤ 1. 2. P(biztos) = 1, P(lehetetlen) = 0. 3. Egymást kizáró eseményekre, P(A*B)=0 és ekkor ezek egyesítésének valószínűsége: P(A+B)=P(A)+P(B). [Alzheimeres (A), nem Alzheimeres (B) egér az állatházban] 3+. Egymástól független eseményekre: P(AB)=P(A)*P(B) [Alzheimeres (A), egér (B) az állatházban]
4
Elméleti alapok III. – kombinatorika (esetszám meghatározása)
1.A. Ismétlés nélküli permutáció: [hányféle sorrendben mérheti le Ildi SPECT/CT-n a 4 féle módon kezelt gilisztát] n! 1.B. Ismétléses permutáció: [hányféle sorrendben mérheti le Ildi a 3 kontroll és 4 beteg nyuszit – ha a kontroll, ill. betegek uolyanok] 2.A. Ismétlés nélküli kombináció: [hányféleképpen választhat ki Ildi 4 egeret a méréshez a 10 különböző közül] 2.B. Ismétléses kombináció: [hányféleképpen választhat ki Ildi 4 egeret a méréshez a 3 eltérő dobozban levő, összesen 10 közül] 3.A. Ismétlés nélküli variáció: [hányféleképpen választhat ki és mérhet le Ildi 4 egeret a méréshez a 10 különböző közül] 3.B. Ismétléses variáció: … nk Ismétlés nélküli: nincs egyforma elem
5
Na az eddigiek meg mire vótak jók….
Arra, hogy kiszámoljuk, hogy például: Irodalomból tudjuk, hogy az XY anyagot használva az állatok 20%-a hót meg. Mennyi annak a valószínűsége, hogy egy 20 fős csoportban legalább 14 túléli? (és 15 vagy 16?)… Hogy n-ből (20) pontosan k (14) túléli, annak a valószínűsége: (p=1-20%=80%) (Binomiális eloszlás) Ez kb. 0,11. Hogy legalább 14 túléli: 0,91. (15-re 80%; 16-ra 63%) Hasonlóan, okos emberek kiszámolták, hogy mi annak a valószínűsége, hogyha 2 egyforma normális eloszlású N1 és N2 elemű adathalmazból A illetve B számú elemet kiveszek, akkor az „A elemek” és „B elemek” átlagának különbsége egy adott érték. (t-eloszlás)
6
Különbség valószínűsége?!….
Biológiai rendszereink esetében kérdésünk általában: Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e? 1. lehetőség: ránézésre is látszik, hogy van/nincs!! Na akkor nézzünk rá az egészre – helyes ÁBRÁZOLÁS Nade ez igaz akkor is ha nem minden lehetőséget tudok, mintám van? 2. lehetőség: ránézésre gyanús… Ha az egyik adatpárt nézem van, ha másikat nincs…. Ráadásul az összes lehetőséget (populáció) nem ismerem, csak mintám van…. Hogyan jellemezzem: eloszlása – de probléma uúgy fennáll: melyik értékpárt nézzem? Na akkor keressünk jellemzőket….
7
Újabb fogalmak…. Eloszlás „közepe” (középértékek)
Populáció: várható érték Minta - becslés: átlag [mean]: számtani közép; általános jelölése: (átalgos négyzetes eltérés minimális) medián [median]: a „középső” elem; ha több középső van, akkor: elméletileg: a két középső közti összes elem gyakorlatilag: a két középső elem átlaga (abszolút eltérés minimális) módusz [modus; mode]: a leggyakrabban előforduló elem
8
Újabb fogalmak 2…. Eloszlás „szélessége” (szórásértékek)
Populáció: elméleti szórás Minta - becslés: szórásnégyzet [variancia]: átlagtól vett átlagos négyzetes eltérés (korrigált) (tapasztalati) szórás [standard deviation]: átlagtól vett (korrigált) átlagos négyzetes eltérés négyzetgyöke Interkvartilis távolság kvantilisek: Legyen p 0 és 1 közötti szám (0 < p < 1), az x1, x2, …, xn, adatrendszer p-kvantilisének nevezzük azt a számot, amelynél kisebb adatok darabszáma legfeljebb np és amelynél nagyobb adatok darabszáma legfeljebb n(1 – p) (v.ö. medián p = 1/2) p = 1/4 alsó, p = 3/4 felső kvartilis („negyedelő”)
9
Újabb fogalmak 3…. Populáció-Minta??? Várható érték becslésnek a „jóságát” becsli: az átlag szórása/hibája (standard hiba – ez azért jobb kifejezés, mert nem normál eloszlás esetén nem az átlaggal becslünk…) [standard error]; Szélességet a mintaszámmal súlyozza! Ennek számítása a tapasztalati szórásból történhet [Gauss eloszlásnál; nem normál eloszlásoknál a várható értéket inkább a mediánnal, módusszal becsüljük, így ott egy kicsit más a helyzet] A kiszámítás módjából látható, hogy a minta elemszámának (n) növelésével az átlag hibája csökkenthető!!! (azaz a várható érték pontosabban becsülhető)
10
Újabb fogalmak 4…. centrális momentumok: az adatok átlagától vett távolságának valamelyik hatványa, osztva a minta elemszámával. [A gyakorlatban az első négy momentumot használjuk] Általánosan: , ahol r mutatja, hogy hanyadik momentumról van szó. {vagyük észre, hogy az 1. centrális momentum =0, hiszen a zárójelet felbontva az első tag maga az átlag és ebből vonjuk ki az átlagot!; valamint látjuk, hogy a második momentum nem más, mint a nem korrigált (hiszen n-nel és nem n-1-gyel van osztva) – azaz torzított – szórásnégyzet!} ferdeség [skewness]: az eloszlás asszimetriáját mutatja: mennyire ferdül balra (+), vagy jobbra (-) a normál eloszláshoz képest (második és harmadik momentumból számolható) laposság (csúcsosság) [kurtosis]: csúcsosabb (+), vagy kevésbé csúcsos (-), mint a normál eloszlás (második és negyedik momentumból számolható) minimum, maximum a minta elemszáma [count, number]; általános jelölése: n; [a populáció elemszámát N-nel jelöljük; gyakran végtelennek tekintjük] tartomány [range]: legnagyobb érték-legkisebb érték tartománya
11
Kitérő…
12
Újabb fogalmak 5…. konfidencia-intervallum (szokták biztonsági tartománynak; megbízhatósági tartománynak is hívni): azt a tartományt (intervallumot) jelöli ki, amelyben a várható érték adott valószínűséggel (konfidencia valószínűség, konfidenciaszint) tartózkodik. Megj.: normál eloszlásnál (t:t-eloszlás értéke) Ehhez hasonlóan írhatunk le jellegzetes tartományokat: Az adatok adott százaléka található az adott tartományban. Kiemelendő a normál (refernecia) tartomány, ami a 95%-os tartomány. Megj.: normál eloszlásnál :
13
Különbség valószínűsége 2.
Biológiai rendszereink esetében kérdésünk általában: Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e? 1. lehetőség: ránézésre is látszik, hogy van/nincs!! helyes ÁBRÁZOLÁS 2. lehetőség: ránézésre gyanús… Hasonlítsunk össze jellemzőket – hogyan? A saját adatunk paraméteré(ei)t egy ismerthez viszonyítjuk Null-Hipotézis: nincs különbség közöttük Ehhez „átalakítjuk” a paramétereineket Milyen esetben, hogyan? – ezt is már megmondták… hipotézisvizsgálat - statisztikai tesztek (próbák) (favágás) Eredmény: DÖNTHETEK DE HIBA lehetőségével (mert mintám van csak és nem a teljesség)
14
A DÖNTÉS Amit számolhatok: az elsőfajú hiba – ez alapján döntök.
Megj.: Másodfajú hiba nem ismert, csak becsülhető! Szignifikancia szint: a maximálisan meghatározott elsőfajú hiba (maximálisan milyen valószínűséggel vagyok hajlandó elvetni a null-hipotézist) Gyakorlatban egy próba ereje: annak a valószínűsége, hogy a teszttel különbséget tudunk kimutatni, amikor ez a különbség valóban létezik. Elemszám és statisztikai teszt függő!
15
Favágás - általában 0. döntés szignifikancia szintjének meghatározása (szokásos: 5%, azaz 0,05) 1. megfelelő kérdés feltevése [pl.: hatásos-e ez a gyógyszer? – azaz csökkenti-e a vérnyomást?...] 2. H0 (null-hipotézis) megfogalmazása: az általunk vizsgált statisztikai (valószínűségi) változó eloszlásából származtatható paraméter csak a véletlen miatt (mintavételezés) tér el az általunk ismert eloszlás paraméterétől [A két csoportunkban mért vérnyomás nem különbözik egymástól – „különbségük” 0] 3. Halternatív (alternatív-hipotézis) megfogalmazása: null-hipotézis tagadása 4. Próba kiválasztása – a legjobb fejsze a körülményeknek megfelelően 5. Az eredményül kapott lehetséges elsőfajú hiba értékének és szignifikanciaszintnek az összevetése – döntés null-hipotézisről. 6. Válasz a kérdésre (dől a fa)
16
Favágás - körülmények
17
Favágás – vágjunk fát… Online egyszerű statisztika program: Hasznos link: Megj.: centrális határeloszlás tétele: ha egy valószínűségi változó sok egymástól független kis hatás összegződéseként áll elő, akkor az jó közelítéssel normális eloszlású. (biológiai rendszerekben ez általában igaz) Megj.: normál eloszlás esetében a paraméteres (t-próba, ANOVA…) próba a legerősebb Megj.: paraméteres próba átlag és szórás alapján számol – érzékeny a kiszóró adatokra Megj.: nem paraméteres próba medián, interkvartilis távolság alapján számol – kevésbé érzékeny a kiszóró adatokra Megj.: MWU próbánál kis elemszám esetében a különböző programok eltérő korrekciót használnak Megj.: adatfelvételkor törekedjünk a lehető legmagasabb mérési skálára
18
ANOVA, F-érték F=MSa/MSe , F-érték számos helyen előfordul, szinte mindig (kivéve Fisher F) szórások hányadosát jelenti
19
ANOVA, F-érték
20
OR, RR Eset-kontroll vizsgálat Követéses vizsgálat Mikor használjuk
Eset-kontroll vizsgálat Követéses vizsgálat Mikor használjuk ha a betegség ritka ha a rizikófaktor ritka Előny, hátrány olcsó, adott időben végezhető drága, hosszú ideig tarthat (évek) Hogyan csináljuk kiválasztunk egy beteg (eset) és egy nem beteg (kontroll) csoportot egy adott betegségre nézve majd megvizsgáljuk mindkét csoportban az egyes egyedeket, hogy rendelkeznek-e az adott rizikófaktorral kiválasztunk rizikófaktorral rendelkező és egy rizikófaktorral nem rendelkező emberek csoportját majd időben követve nézzük, hogy melyik csoportból hányan betegszenek meg ha valakinek megváltozik a „rizikófaktor-állapota” (abbahagyja a dohányzást), azt ki kell zárni a vizsgálatból Jól használható, ha ha két csoport (beteg-nem beteg) elemszáma közel azonos beteg-nem beteg csoportok egyebekben hasonlóak (életkoreloszlás, nem eloszlás…) ha két csoport (rizikófaktorral rendelkező – nem rendelkező) elemszáma közel azonos rizikófaktorral rendelkező – nem rendelkező egyedek egyebekben hasonlóak (életkoreloszlás, nem eloszlás…) Mit számolunk (mindkettő egy-egy relatív gyakoriság) esélyhányados (Odds Ratio) [OR] Megadja, hogy hányszor nagyobb az esélye a betegségnek a rizikófaktor megléte esetében. relatív kockázat (Relative Risk) [RR] Megadja, hogy hányszor nagyobb a kockázata a betegségnek a rizikófaktor megléte esetében. Hipotézisvizsgálatként H0:, OR=1 illetve RR=1; illetve csak a véletlen miatt tér el ettől (a betegség és a rizikófaktor között nincs kapcsolat) döntés alapja: tartalmazza-e az 1-et az OR (vagy RR) adott százalékos konfidencia-intervalluma* pl.: 5%-os szignifikancia szinten (95%-os konfidencia intervallumon) elvetem a null hipotézist, ha az OR-2* ; OR+2* nem tartalmazza 1-et (pl. [1,23 ; 3,32])
21
Fisher Fisher egzaktról:
A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában) kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget (pcutoff) a következő módon (N az összelemszámot jelöli): Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges elsőfajú hiba értékét.
22
Fisher Fisher egzaktról:
A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában) kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget (pcutoff) a következő módon (N az összelemszámot jelöli): Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges elsőfajú hiba értékét.
23
Tűk A=4,3 D=5,5 P=2A/(D*pi) Pi=(2A*összes)/(D*talált)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.