„Tatisztika… Ammeg mi?”

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Események formális leírása, műveletek
Hipotézis-ellenőrzés (Statisztikai próbák)
I. előadás.
Petrovics Petra Doktorandusz
II. előadás.
Valószínűségszámítás
Összetett kísérleti tervek és kiértékelésük
Rangszám statisztikák
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Gazdaságelemzési és Statisztikai Tanszék
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Két változó közötti összefüggés
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Közlekedésstatisztika
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
III. előadás.
A középérték mérőszámai
Hipotézisvizsgálat (1. rész) Kontingencia táblák
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Valószínűségszámítás
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Nemparaméteres próbák Statisztika II., 5. alkalom.
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Az F-próba szignifikáns
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
STATISZTIKA II. 6. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika.
Kvantitatív Módszerek
Kvantitatív módszerek
Valószínűségszámítás
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Hipotézis vizsgálat.
Alapfogalmak.
Lineáris regresszió.
Adatleírás.
t A kétoldalú statisztikai próba alapfogalmai
© Farkas György : Méréstechnika
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Statisztikai alapfogalmak
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Valószínűségszámítás II.
A számítógépes elemzés alapjai
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
A számítógépes elemzés alapjai
Kiváltott agyi jelek informatikai feldolgozása 2016
II. előadás.
Kvantitatív módszerek MBA és Számvitel mesterszak
Becsléselmélet - Konzultáció
I. Előadás bgk. uni-obuda
Gazdaságinformatikus MSc
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Előadás másolata:

„Tatisztika… Ammeg mi?” (békásmegyeri aluljáró járókelője)

Elméleti alapok I. – fogalmak, jelölések Változó (variable): „bármi, amit mérni, vagy megfigyelni tudunk” Változó kimenetele (outcome): „a változó lehetséges értéke” Esemény (event): „a változó egy lehetséges értékét megfigyeljük/mérjük” Eset (case): „ahol/akin/amin… mérjük az értéket” Eseménytér (event field): „a megfigyelhetőségeket tartalmazó virtuális tér” Valószínűségi változó: ha egy eseménytér elemeihez számokat rendelünk, akkor az eseményeken egy függvényt értelmezhetünk. Ezt a függvényt nevezzük valószínűségi változónak. Általában: ez a változó eloszlása. Eloszlás, spektrum: „hány darab adott értékű elem van” típusok: sűrűség fv/kumulatív fv; illetve relatív/abszolút (Egyes tudományterületeken eltérő, hogy mit értenek eloszlás alatt!!!) Nagy számok törvénye

Elméleti alapok II. - események valószínűsége Egyes elemi események: nagy betűkkel pl.: A. A esemény bekövetkezésének valószínűsége: P(A). P, hogy A vagy B esemény bekövetkezik: P(A+B) vagy P(AUB). P, hogy A és B is bekövetkezik: P(A*B), vagy P(AB) vagy p(A∩B). Események valószínűségének alaptörvényei (Kolmogorov-axiómák) 1. 0 ≤ P(A) ≤ 1. 2. P(biztos) = 1, P(lehetetlen) = 0. 3. Egymást kizáró eseményekre, P(A*B)=0 és ekkor ezek egyesítésének valószínűsége: P(A+B)=P(A)+P(B). [Alzheimeres (A), nem Alzheimeres (B) egér az állatházban]  3+. Egymástól független eseményekre: P(AB)=P(A)*P(B) [Alzheimeres (A), egér (B) az állatházban]

Elméleti alapok III. – kombinatorika (esetszám meghatározása) 1.A. Ismétlés nélküli permutáció: [hányféle sorrendben mérheti le Ildi SPECT/CT-n a 4 féle módon kezelt gilisztát] n! 1.B. Ismétléses permutáció: [hányféle sorrendben mérheti le Ildi a 3 kontroll és 4 beteg nyuszit – ha a kontroll, ill. betegek uolyanok] 2.A. Ismétlés nélküli kombináció: [hányféleképpen választhat ki Ildi 4 egeret a méréshez a 10 különböző közül] 2.B. Ismétléses kombináció: [hányféleképpen választhat ki Ildi 4 egeret a méréshez a 3 eltérő dobozban levő, összesen 10 közül] 3.A. Ismétlés nélküli variáció: [hányféleképpen választhat ki és mérhet le Ildi 4 egeret a méréshez a 10 különböző közül] 3.B. Ismétléses variáció: … nk Ismétlés nélküli: nincs egyforma elem

Na az eddigiek meg mire vótak jók…. Arra, hogy kiszámoljuk, hogy például: Irodalomból tudjuk, hogy az XY anyagot használva az állatok 20%-a hót meg. Mennyi annak a valószínűsége, hogy egy 20 fős csoportban legalább 14 túléli? (és 15 vagy 16?)… Hogy n-ből (20) pontosan k (14) túléli, annak a valószínűsége: (p=1-20%=80%) (Binomiális eloszlás) Ez kb. 0,11. Hogy legalább 14 túléli: 0,91. (15-re 80%; 16-ra 63%) Hasonlóan, okos emberek kiszámolták, hogy mi annak a valószínűsége, hogyha 2 egyforma normális eloszlású N1 és N2 elemű adathalmazból A illetve B számú elemet kiveszek, akkor az „A elemek” és „B elemek” átlagának különbsége egy adott érték. (t-eloszlás)

Különbség valószínűsége?!…. Biológiai rendszereink esetében kérdésünk általában: Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e? 1. lehetőség: ránézésre is látszik, hogy van/nincs!! Na akkor nézzünk rá az egészre – helyes ÁBRÁZOLÁS Nade ez igaz akkor is ha nem minden lehetőséget tudok, mintám van? 2. lehetőség: ránézésre gyanús… Ha az egyik adatpárt nézem van, ha másikat nincs…. Ráadásul az összes lehetőséget (populáció) nem ismerem, csak mintám van…. Hogyan jellemezzem: eloszlása – de probléma uúgy fennáll: melyik értékpárt nézzem? Na akkor keressünk jellemzőket….

Újabb fogalmak…. Eloszlás „közepe” (középértékek) Populáció: várható érték Minta - becslés: átlag [mean]: számtani közép; általános jelölése: (átalgos négyzetes eltérés minimális) medián [median]: a „középső” elem; ha több középső van, akkor: elméletileg: a két középső közti összes elem gyakorlatilag: a két középső elem átlaga (abszolút eltérés minimális) módusz [modus; mode]: a leggyakrabban előforduló elem

Újabb fogalmak 2…. Eloszlás „szélessége” (szórásértékek) Populáció: elméleti szórás Minta - becslés: szórásnégyzet [variancia]: átlagtól vett átlagos négyzetes eltérés (korrigált) (tapasztalati) szórás [standard deviation]: átlagtól vett (korrigált) átlagos négyzetes eltérés négyzetgyöke Interkvartilis távolság kvantilisek: Legyen p 0 és 1 közötti szám (0 < p < 1), az x1, x2, …, xn, adatrendszer p-kvantilisének nevezzük azt a számot, amelynél kisebb adatok darabszáma legfeljebb np és amelynél nagyobb adatok darabszáma legfeljebb n(1 – p) (v.ö. medián p = 1/2) p = 1/4 alsó, p = 3/4 felső kvartilis („negyedelő”)

Újabb fogalmak 3…. Populáció-Minta??? Várható érték becslésnek a „jóságát” becsli: az átlag szórása/hibája (standard hiba – ez azért jobb kifejezés, mert nem normál eloszlás esetén nem az átlaggal becslünk…) [standard error]; Szélességet a mintaszámmal súlyozza! Ennek számítása a tapasztalati szórásból történhet [Gauss eloszlásnál; nem normál eloszlásoknál a várható értéket inkább a mediánnal, módusszal becsüljük, így ott egy kicsit más a helyzet] A kiszámítás módjából látható, hogy a minta elemszámának (n) növelésével az átlag hibája csökkenthető!!! (azaz a várható érték pontosabban becsülhető)

Újabb fogalmak 4…. centrális momentumok: az adatok átlagától vett távolságának valamelyik hatványa, osztva a minta elemszámával. [A gyakorlatban az első négy momentumot használjuk] Általánosan: , ahol r mutatja, hogy hanyadik momentumról van szó. {vagyük észre, hogy az 1. centrális momentum =0, hiszen a zárójelet felbontva az első tag maga az átlag és ebből vonjuk ki az átlagot!; valamint látjuk, hogy a második momentum nem más, mint a nem korrigált (hiszen n-nel és nem n-1-gyel van osztva) – azaz torzított – szórásnégyzet!} ferdeség [skewness]: az eloszlás asszimetriáját mutatja: mennyire ferdül balra (+), vagy jobbra (-) a normál eloszláshoz képest (második és harmadik momentumból számolható) laposság (csúcsosság) [kurtosis]: csúcsosabb (+), vagy kevésbé csúcsos (-), mint a normál eloszlás (második és negyedik momentumból számolható) minimum, maximum a minta elemszáma [count, number]; általános jelölése: n; [a populáció elemszámát N-nel jelöljük; gyakran végtelennek tekintjük] tartomány [range]: legnagyobb érték-legkisebb érték tartománya

Kitérő…

Újabb fogalmak 5…. konfidencia-intervallum (szokták biztonsági tartománynak; megbízhatósági tartománynak is hívni): azt a tartományt (intervallumot) jelöli ki, amelyben a várható érték adott valószínűséggel (konfidencia valószínűség, konfidenciaszint) tartózkodik. Megj.: normál eloszlásnál (t:t-eloszlás értéke) Ehhez hasonlóan írhatunk le jellegzetes tartományokat: Az adatok adott százaléka található az adott tartományban. Kiemelendő a normál (refernecia) tartomány, ami a 95%-os tartomány. Megj.: normál eloszlásnál :

Különbség valószínűsége 2. Biológiai rendszereink esetében kérdésünk általában: Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e? 1. lehetőség: ránézésre is látszik, hogy van/nincs!! helyes ÁBRÁZOLÁS 2. lehetőség: ránézésre gyanús… Hasonlítsunk össze jellemzőket – hogyan? A saját adatunk paraméteré(ei)t egy ismerthez viszonyítjuk Null-Hipotézis: nincs különbség közöttük Ehhez „átalakítjuk” a paramétereineket Milyen esetben, hogyan? – ezt is már megmondták… hipotézisvizsgálat - statisztikai tesztek (próbák) (favágás) Eredmény: DÖNTHETEK DE HIBA lehetőségével (mert mintám van csak és nem a teljesség)

A DÖNTÉS Amit számolhatok: az elsőfajú hiba – ez alapján döntök. Megj.: Másodfajú hiba nem ismert, csak becsülhető! Szignifikancia szint: a maximálisan meghatározott elsőfajú hiba (maximálisan milyen valószínűséggel vagyok hajlandó elvetni a null-hipotézist) Gyakorlatban egy próba ereje: annak a valószínűsége, hogy a teszttel különbséget tudunk kimutatni, amikor ez a különbség valóban létezik. Elemszám és statisztikai teszt függő!

Favágás - általában 0. döntés szignifikancia szintjének meghatározása (szokásos: 5%, azaz 0,05) 1. megfelelő kérdés feltevése [pl.: hatásos-e ez a gyógyszer? – azaz csökkenti-e a vérnyomást?...] 2. H0 (null-hipotézis) megfogalmazása: az általunk vizsgált statisztikai (valószínűségi) változó eloszlásából származtatható paraméter csak a véletlen miatt (mintavételezés) tér el az általunk ismert eloszlás paraméterétől [A két csoportunkban mért vérnyomás nem különbözik egymástól – „különbségük” 0] 3. Halternatív (alternatív-hipotézis) megfogalmazása: null-hipotézis tagadása 4. Próba kiválasztása – a legjobb fejsze a körülményeknek megfelelően 5. Az eredményül kapott lehetséges elsőfajú hiba értékének és szignifikanciaszintnek az összevetése – döntés null-hipotézisről. 6. Válasz a kérdésre (dől a fa)

Favágás - körülmények

Favágás – vágjunk fát… Online egyszerű statisztika program: http://www.graphpad.com/quickcalcs/ Hasznos link: http://www.graphpad.com/guides/prism/6/statistics/ Megj.: centrális határeloszlás tétele: ha egy valószínűségi változó sok egymástól független kis hatás összegződéseként áll elő, akkor az jó közelítéssel normális eloszlású. (biológiai rendszerekben ez általában igaz) Megj.: normál eloszlás esetében a paraméteres (t-próba, ANOVA…) próba a legerősebb Megj.: paraméteres próba átlag és szórás alapján számol – érzékeny a kiszóró adatokra Megj.: nem paraméteres próba medián, interkvartilis távolság alapján számol – kevésbé érzékeny a kiszóró adatokra Megj.: MWU próbánál kis elemszám esetében a különböző programok eltérő korrekciót használnak Megj.: adatfelvételkor törekedjünk a lehető legmagasabb mérési skálára

ANOVA, F-érték F=MSa/MSe , F-érték számos helyen előfordul, szinte mindig (kivéve Fisher F) szórások hányadosát jelenti

ANOVA, F-érték

OR, RR Eset-kontroll vizsgálat Követéses vizsgálat Mikor használjuk   Eset-kontroll vizsgálat Követéses vizsgálat Mikor használjuk ha a betegség ritka ha a rizikófaktor ritka Előny, hátrány olcsó, adott időben végezhető drága, hosszú ideig tarthat (évek) Hogyan csináljuk kiválasztunk egy beteg (eset) és egy nem beteg (kontroll) csoportot egy adott betegségre nézve majd megvizsgáljuk mindkét csoportban az egyes egyedeket, hogy rendelkeznek-e az adott rizikófaktorral kiválasztunk rizikófaktorral rendelkező és egy rizikófaktorral nem rendelkező emberek csoportját majd időben követve nézzük, hogy melyik csoportból hányan betegszenek meg ha valakinek megváltozik a „rizikófaktor-állapota” (abbahagyja a dohányzást), azt ki kell zárni a vizsgálatból Jól használható, ha ha két csoport (beteg-nem beteg) elemszáma közel azonos beteg-nem beteg csoportok egyebekben hasonlóak (életkoreloszlás, nem eloszlás…) ha két csoport (rizikófaktorral rendelkező – nem rendelkező) elemszáma közel azonos rizikófaktorral rendelkező – nem rendelkező egyedek egyebekben hasonlóak (életkoreloszlás, nem eloszlás…) Mit számolunk (mindkettő egy-egy relatív gyakoriság) esélyhányados (Odds Ratio) [OR] Megadja, hogy hányszor nagyobb az esélye a betegségnek a rizikófaktor megléte esetében. relatív kockázat (Relative Risk) [RR] Megadja, hogy hányszor nagyobb a kockázata a betegségnek a rizikófaktor megléte esetében. Hipotézisvizsgálatként H0:, OR=1 illetve RR=1; illetve csak a véletlen miatt tér el ettől (a betegség és a rizikófaktor között nincs kapcsolat) döntés alapja: tartalmazza-e az 1-et az OR (vagy RR) adott százalékos konfidencia-intervalluma* pl.: 5%-os szignifikancia szinten (95%-os konfidencia intervallumon) elvetem a null hipotézist, ha az OR-2* ; OR+2* nem tartalmazza 1-et (pl. [1,23 ; 3,32])

Fisher Fisher egzaktról: A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában) kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget (pcutoff) a következő módon (N az összelemszámot jelöli): Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges elsőfajú hiba értékét.

Fisher Fisher egzaktról: A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában) kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget (pcutoff) a következő módon (N az összelemszámot jelöli): Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges elsőfajú hiba értékét.

Tűk A=4,3 D=5,5 P=2A/(D*pi) Pi=(2A*összes)/(D*talált)