Nevezetes eloszlások, normál eloszlás Biometria I. SANB_BI1019 Nevezetes eloszlások, normál eloszlás Molnár Péter Állattani Tanszék pmolnar@pminfonet.com
Eloszlások jellemzése: átlag, szórás, stb.
Eloszlások jellemzése
Nevezetes eloszlások: Diszkrét: Binomiális, Poisson Az X valószínűségi változó n és p paraméterű binomiális eloszlást követ – vagy rövidebben binomiális eloszlású – pontosan akkor, ha ahol 0 < p < 1. Az X valószínűségi változó λ paraméterű Poisson-eloszlást követ – vagy rövidebben: Poisson-eloszlású – pontosan akkor, ha
Példa: Vizsgáljuk meg a fiú és leány gyermekek születésének valószínűségi eloszlását egy családban, adott gyermekszámnál. A statisztikai adatok alapján a fiú születésének valószínűsége p = 0,515, és ebből adódóan, a leány születésének valószínűsége q = 1 - p összefüggés alapján, q = 0,485. (Ennek biológia magyarázata részben az Y kromoszómát hordozó spermiumok könnyebbségéből, nagyobb mozgékonyságából adódik.) Tekintsünk olyan családokat, amelyekben 6 gyermek van, azaz n = 6, és a binomiális eloszlás alapján számoljuk ki annak valószínűségeit, hogy a családban 0, 1, 2, 3, 4, 5, 6 fiú van. A számított valószínűségeket az 1. táblázat - 4.1. táblázatban tüntettük fel, a binomiális eloszlás hisztogramja pedig az
Vizsgáljuk meg, hogy a hemocitométer egyes négyzetrácsaiban megszámolható élesztő sejtek száma Poisson-eloszlást követ-e. A hemocitométerre kicseppentették az élesztő szuszpenziót és megszámolták azoknak a négyzeteknek a számát, amelyek 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 darab élesztőt tartalmazott. A 2. táblázat - Élesztő sejtek eloszlása a hemocitométerben. (Student adatai) 4.2. táblázatban tüntettük fel az élesztő sejtek eloszlását. (Az adatok Student adatai). A táblázat adataiból kiszámítható, hogy várható érték ? = 4,68, ezzel a paraméterrel meghatároztuk az egyes valószínűségi változó előfordulási valószínűségét, valamint kiszámoltuk, mennyi lenne a 0, 1, 2, 3, 4, stb. élesztőt tartalmazó négyzetek száma. A 2. táblázat - Élesztő sejtek eloszlása a hemocitométerben. (Student adatai) 4.2. táblázat ezeket az adatokat is tartalmazza, a valószínűségek eloszlását ugyanakkor a
Nevezetes eloszlások: Folytonos: Normál (Gauss) eloszlás Az X valószínűségi változó normális eloszlást követ – vagy rövidebben: normális eloszlású – pontosan akkor, ha sűrűségfüggvénye: ahol a két paraméter, m és σ valós szám, valamint σ > 0. A normális eloszlást szokták Gauss-eloszlásnak vagy néha normál eloszlásnak is nevezni. Egy mintaelem értékének megadása önmagában nem mond sokat arról, hogy az adott elem hol helyezkedik el az eloszlásban. Ha pl. azt halljuk, hogy valakinek a szisztolés vérnyomása 160 Hgmm, tudjuk, hogy ez az érték relatíve magas, hiszen a 160-at összehasonlítjuk a „normális” értékkel, illetve figyelembe vesszük azt is, hogy a normális értéktől való 40 Hgmm eltérés az sok. Matematikailag ezt a standardizálás vagy a „z” érték kiszámításával érhetjük el, ami megadja, hogy a mintaelem eltérése az átlagtól az SD hányszorosa: ahol xi a vizsgált mintaelem és a minta- vagy populációátlag. A standardizálás segítségével különböző mérési eredmények átlagtól való eltérése összehasonlíthatóvá válik.
2. példa. Bizonyos laboratóriumban a kísérleti patkányok testsúlyait normális eloszlásúnak találták µ = 42 dkg átlaggal és ? = 6 dkg szórással. Egy ilyen populációban mi annak a valószínűsége, hogy a patkányok testsúlya 30 és 45 dkg közé esik? Megoldás: A ? (0,5) = 0,6915 és ? (-2) = 0,0228. Kivonás után 0,6915-0,0228 = 0,6687. Tehát várhatóan a populáció 67%-ának a testsúlya fog 30 és 45 dkg közé esni.
A t-eloszlás Egy ismert várhatóértékű (µ) és szórású (?) normális eloszlásból vett véletlenszerű minta empirikus várható értékével számított u paraméter standard normális eloszlást követ. Mi történik akkor, ha a szórást nem ismerjük és a mintából becsüljük meg a korrigált empirikus szórás (s) segítségével. Az így számított statisztika milyen eloszlást követ? Ezt a problémát oldotta meg W. S. Gossett statisztikus és „Student” álnéven közölte az eredményeket 1908-ban. Az alábbi összefüggés alapján számolta ki a t paramétert. Ezt a valószínűségi változót Student t-eloszlásnak hívjuk. Gossett kimutatta, hogy a t-eloszlás hasonlít a standard normális eloszláshoz, de egy kissé szélesebb eloszlást mutat, azaz kevésbé „csúcsos”, és az eloszlás alakja függ a minta méretétől, egészen pontosan (n-1)-től, a minta szabadsági fokától. A t-eloszlás szimmetrikus és a szabadsági fok növelésével egyre inkább megközelíti a standard normális eloszlást. A t-eloszlás sűrűségfüggvénye f = (n-1) szabadságfok esetén:
10.1.e. ábra a változók közötti korrelálatlanságot mutatja, hiszen az egyik változó eloszlása teljesen független a másik eloszlásától. Az 10.1.f. ábra esetén a két változó közötti kapcsolatot nemlineárisnak nevezzük, mivel a pontpárok egy görbe vonal mentén helyezkednek el. A korreláció szimmetrikus fogalom, nincs értelme a kapcsolatban kiemelni az egyik vagy a másik változót, hiszen a fordítottja is igaz. Az a tény, hogy a változók korrelálatlanok még nem jelenti azt, hogy a változók függetlenek is egymástól. Korrelálatlan változók között is lehet kapcsolat csak ezt a kapcsolatot nem tudjuk számszerűsíteni. Fordítva azonban igaz, hogy a független változók egyben korrelálatlanok is, vagyis semmilyen kapcsolat nincs a két változó között. Az ilyen változók értékei egymástól függetlenül alakulnak. A korreláció számszerű értéke mellett érdemes a változók pontfelhő (scatter plot) diagramját is megnézni, mert a két információ együttesen ad teljes felvilágosítást a változók viselkedéséről. A lineáris korrelációs (vagy Pearson–féle) együttható értékét a következő módon határozzuk meg ahol az xi értékek, az yi értékek átlagait jelöli. Az r értéke dimenzió nélküli szám és a [–1, 1] zárt intervallumban helyezkedik el: –1 esetén (maximális) negatív, +1 érték esetén (maximális) pozitív korrelációról beszélünk. Ha az r = 0, akkor a vizsgált két változó kapcsolatát korrelálatlannak (de nem függetlennek) nevezzük
Leiró statisztika Többszörös mérések: Átlag, geometrikus átlag Statisztikus eloszlás . Frequencia hisztogram . Mi a valószinüsége az egyes értékeknek? Normál eloszlás (Gauss görbe) Átlagos eltérés Átlagos hiba (Az átlag eltérése)
Az egyes mérési adatok viszonya Korreláció Lineáris regresszió (egyenes illesztés)
Hipotézis tesztelés Van változás vagy nincs? Van különbség két mérés sorozat között? Null hipotézis: Nincs különbség Null hipotézis elvethetö, ha a valószinüsége kisebb, mint 5% (Szignifikáns különbség) Student’s t-test (Egy mintás vagy két mintás)
Mérési gyakorlat: Biostatisztika Feladat: Mérjétek meg mindenkinek a magasságát és pulzusszámát (név nélkül, de jelöljétek meg fiu/lány) Másoljátok le az adatokat és vigyétek haza Beadandó a következő kérdésekre a válasz: Átlagos magasság és pulzussszám a csoportban Ezeknek az adatoknak az átlagos eltérése Van-e korreláció magasság és pulzusszám között? Igaz-e, hogy a fiuk magasabbak, mint a lányok a csoportban?
Leiró statisztika Többszörös mérések: Átlag, geometrikus átlag Statisztikus eloszlás . Frequencia hisztogram . Mi a valószinüsége az egyes értékeknek? Normál eloszlás (Gauss görbe) Átlagos eltérés Átlagos hiba (Az átlag eltérése)
Az egyes mérési adatok viszonya Korreláció Lineáris regresszió (egyenes illesztés)
Hipotézis tesztelés Van változás vagy nincs? Van különbség két mérés sorozat között? Null hipotézis: Nincs különbség Null hipotézis elvethetö, ha a valószinüsége kisebb, mint 5% (Szignifikáns különbség) Student’s t-test (Egy mintás vagy két mintás)
Mérési gyakorlat: Biostatisztika Feladat: Mérjétek meg mindenkinek a magasságát és pulzusszámát (név nélkül, de jelöljétek meg fiu/lány) Másoljátok le az adatokat és vigyétek haza Beadandó a következő kérdésekre a válasz: Átlagos magasság és pulzussszám a csoportban Ezeknek az adatoknak az átlagos eltérése Van-e korreláció magasság és pulzusszám között? Igaz-e, hogy a fiuk magasabbak, mint a lányok a csoportban?