Alapfogalmak Adatelemzés
A matematikai statisztika alapfogalmai ADATBÁNYÁSZAT Valamely vizsgált populációra vonatkozólag nagymennyiségű, kontrollálatlan adathalmazból számítógépes adatkezelő technikákkal, algoritmusokkal a populációra vonatkozó hasznos információ, összefüggés kinyerése. Az adatok begyűjtése spontán, többnyire véletlen folyamatok eredményeképpen, nem tervezett módon történik. Megjelenése az informatikai világ kiteljesedése következtében történt meg. Modern tudományág. Az elméleti megalapozás napjainkban is folyik.
A matematikai statisztika alapfogalmai A vizsgált populációra vonatkozólag előre megtervezett módon, matematikai elvek figyelembe vételével beszerzett adatokkal, a minta feldolgozásával állítja elő a sokaságra vonatkozó hasznos következtetéseket. A statisztikai mintának reprezentatívnak kell lennie, különben a következtetések pontatlanok, megtévesztők lesznek! A valószínűségszámítással párhuzamosan fejlődött ki, erős matematikai elméleti háttérrel rendelkezik.
Statisztika alapfogalmai Sokaság, populáció, véletlen kísérlet Statisztikai minta, minta realizáció Statisztikai mintavétel Statisztika Paraméter Statisztikai becslés
Statisztikai sokaság, populáció A vizsgálat tárgyát képező nagyszámú de véges elemszámú egyedek halmaza. A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be. Magyarország állampolgárai - Egy egyetemi kar hallgatói - Az érvényes forgalmival rendelkező autók halmaza - Egy adott termék vásárlóinak halmaza - Egy TV csatorna nézőinek halmaza
Véletlen kísérlet A statisztikai elemzés tárgya lehet egy véletlen kísérlet is, ami időben változatlan körülmények között elvileg akárhányszor lejátszódhat. A valószínűségszámítás tárgyalásában ezt K–val jelöltük. A lottóhúzás Egy szerver működése Budapest januári átlaghőmérséklete Egy gyümölcsös terméshozama Egy új gyógyszer hatása Egy reklámkampány hatásossága Egy populáció egyedének véletlen kiválasztása
Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Egy felmérésbe bevont magyar állampolgárok halmaza - Egy adott előadásra belátogatott hallgatók halmaza - Adott biztosítóval szerződött autók halmaza - Egy adott napon megkérdezett vásárlók halmaza - Egy nézettségi felmérésbe bevont TV nézők halmaza - Budapest januári középhőmérséleteinek adatai
Statisztikai sokaság, populáció A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból.
Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára … csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino)
1936 USA elnökválasztás Franklin D. Roosevelt Alf Landon Literary Digest: Kiküldtek 10 millió kérdőívet, visszakaptak 2 millió 400 ezret Gallup Intézet: 50 ezres reprezentatív minta A Gallup eltalálta a nyertest, a Literary Digest nagyon mellé lőtt… A vizsgálatokat csak tudományosan megtervezett ún. reprezentatív mintákon szabad elvégezni.
A Literary Digest című lap több mint kétmillió visszaküldött olvasói kérdőív alapján „jósolta” meg az elnökválasztás győztesét: tévesen. George Gallup ugyanakkor egy 50 ezer fős mintából tette ugyanezt – és a megfelelő mintavételnek köszönhetően helyesen nevezte meg a választás győztesét (Rooswelt). Gallup egy keresztmetszetet adó lakossági mintával dolgozott: kevesebb embert, de férfiakat és nőket arányosan "szondáztak" meg, interjúkat készítettek, valamint figyelembe vették az iskolázottságot és az anyagi körülményeket is. Mindez jól mutat rá, hogy ha hasonló közegből érkezik sok válasz, s ha bizonyos társadalmi csoportok kimaradnak a kutatásból, az eredmény hibás lesz. Az újság olvasói között nyilván voltak férfiak és nők, fiatalok és idősek, alacsony és magas végzettségűek is, de a teljes amerikai társadalmat biztosan nem reprezentálták – hiszen például a válaszolók között nem volt olyan, aki nem olvasója a lapnak. George Horace Gallup, 1901-1984
Mintavételezési eljárások A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetők lehessenek a populációra is. Rétegzett mintavételezés: A populációt adott szempontok szerint csoportokba osztjuk, és a csoportok arányait a mintában is megtartjuk Véletlen mintavételezés: A mintába kerülő egyedeket sorsolással választjuk ki. Cenzus: népszámlálás
Alapfogalmak Eset A minta egy eleme, az adatmátrix egy sora. Mintaelemszám Az adott minta elemeinek száma. Egy adatmátrix sorainak száma. Adatmátrix n db eset és p db változó adatainak mátrixba rendezett alakzata Változó A populáció egy mérhető jellemzője. Az adatmátrix egy oszlopa.
Példák változókra - Magyarország állampolgárai: fizetés; kor; nem; párt stb. - Egy egyetemi kar hallgatói: gönygyölt tanulmányi átlag; neptun-kód; nem; szak; teljesített kreditek száma stb. - Az autók halmaza: gyorsulás; fogyasztás; lóerő; típus;... - Egy adott termék vásárlóinak halmaza: vélemény az árról; minőségről;... - Egy TV csatorna nézőinek halmaza: kor; nem; tetszési index; iskolázottság; stb.
Statisztika A minta realizáció adataiból adott képlettel számolt adat a statisztika számított értéke. átlag, standard szórás, medián, kvartilis, ferdeség, lapultság, módusz, gyakoriság, próbastatisztikák, stb.
A matematikai statisztika alapmodellje a véletlen kísérlet a lehetséges kimenetelek halmaza A a megfigyelhető események halmaza a lehetséges valószínűségi mértékek halmaza P Az elemzésünk célja, hogy ebből a halmazból kiválasszuk a tényleges valószínűséget! Legalább is egy jó helyettesítő egyedet.
A változó matematikai fogalma X: R a vizsgált valószínűségi változó X-nek minden PP esetén megadható az eloszlásfüggvénye! FX ( t ) = P( X< t ) minden PP –re! F = {FX ( t ) : FX ( t ) = P( X< t ) minden PP –re} Feladatunk tehát, ebből a halmazból kiválasztani a valóságot legjobban leíró eloszlásfüggvényt!
A statisztikai minta fogalma Az X valószínűségi változóval azonos eloszlású, egymással teljesen független X1, X2,…, X n valószínűségi változók együttesét statisztikai mintának nevezzük. A matematikai modellben a minta tehát teljesen független, azonos eloszlású valószínűségi változók sorozata… A gyakorlati alkalmazásokban pedig n db szám! X eloszlásfüggvénye a minta eloszlásfüggvénye is. n a mintaelemszám. Xi a minta i-edik eleme. Egy mintavételezéskor tulajdonképpen megfigyeljük a K véletlen kísérletet, azaz megállapítjuk melyik kimenetele realizálódott. Az X1() = x1, X2() = x2,…, X n() = xn szám n-est nevezzük a minta realizációjának.
A statisztika matematikai fogalma Legyen tn egy n-változós valós függvény. Akkor a statisztikai minta Tn=tn(X1,X2,…,Xn) függvényét nevezzük statisztikának. A statisztika egy valószínűségi változó, aminek eloszlásfüggvényét a minta eloszlásfüggvényéből lehet kiszámolni. A Tn=tn(X1,X2,…,Xn) szám (amikor az argumentumba a mintarealizáció értékeit helyettesítjük, a statisztika számolt értéke.
Az adatcentrum statisztikái ÁTLAG (mean) MEDIÁN (median) A leggyakrabban előforduló érték a mintában MÓDUSZ (mode)
A szóródást jellemző statisztikák STANDARD SZÓRÁS (deviation) VARIÁCIÓ (variance) TERJEDELEM (range)
Az eloszlást jellemző statisztikák FERDESÉG (skewness)
Az eloszlást jellemző statisztikák LAPULTSÁG (curtosis)
A paraméter F = {FX ( t, ) : } Tegyük fel, hogy a minta eloszlásfüggvénye képletét egy paraméter konkretizálja. Ha ismerjük az értékét, meg tudjuk pontosan adni az eloszlásfüggvényt: F = {FX ( t, ) : } Egy adott statisztikai minta segítségével a paraméter megbecslése a célunk!
(a -át) egy valószínűségi változóval becsüljük! A paraméter becslése A paraméter becsléséhez valamilyen alkalmas Tn statisztikát használunk: Tn . Egy ismeretlen számot (a -át) egy valószínűségi változóval becsüljük! Mikor jó egy ilyen becslés???
A paraméter becslése I. Torzítatlanság Valószínűségszámításból tanultuk, hogy egy valószínűségi változó az összes szám közül éppen a várható értéke körül ingadozik a legkisebb mértékben. A Tn statisztika a paraméter torzítatlan becslése, ha ETn = . A torzítatlanság azt jelenti, hogy a becslő statisztika éppen a becsülendő paraméterérték körül fogja felvenni az értékeit. Lövészhasonlattal: „a találathoz a célkereszt jól van beállítva, nem hord félre a fegyver.”
A paraméter becslése II. A becsülendő paraméter, . Egy nem torzítatlan becslő statisztika realizáltjai. Ilyen statisztika torzított. Egy torzítatlan becslő statisztika realizáltjai a minta elemszám függvényében.
A paraméter becslése III. Aszimptotikus torzítatlanság Ha a torzítatlansági feltétel csak n esetben igaz:
A paraméter becslése IV. Konzisztencia Ha garancia van arra, hogy a minta elemszám növekedtével növekszik a becslés pontosságának valószínűsége, konzisztens becslésről beszélünk: A statisztika, mint valószínűségi változó sorozat, sztochasztikusan konvergál a konstanshoz!
A paraméter becslése V. Erős konzisztencia Csak a konstansnak lehet 0 a varianciája. Tehát, ha n elég nagy, a becslés gyakorlatilag a paramétert adja! Erős konzisztencia Azok a torzítatlan becslések, melyeknél a variancia a minta elemszám növekedtével 0-hoz tart: A Csebisev-egyenlőtlenségből következik, hogy az erősen konzisztens statisztikai becslések egyben konzisztensek is lesznek. A megfordítás általában nem igaz!
A paraméter becslése VI. Konzisztencia, erős konzisztencia A becslés és a paraméter eltérése az n növekedtével csökkenni fog!
A paraméter becslése VII. Hatásosság Két torzítatlan becslés közül nyilván a kisebb varianciájú a jobb, hiszen kisebb mértékben ingadozik a paraméter körül! Azaz, a Vn statisztika hatásosabb Wn-nél, ha Egy torzítatlan becslés akkor lesz hatásos, ha varianciája minden más torzítatlan becslés varianciájánál kisebb! Csak egyetlen hatásos becslés van! (Ezt kell megkeresni egy adott paraméter-becslési problémához!)
A paraméter becslése VIII. Hatásosság A torzítatlan becslések közül azt kell alkalmaznunk, amelyiknek a legkisebb a varianciája. Ez fog a legkisebb mértékben ingadozni a paraméter körül, ilyenkor kevesebb megfigyeléssel is jó becslés kapható.
A maximum likelihood becslés A módszer alapgondolatai a következők: A mintánk eloszlásfüggvénye a paramétertől függ. Ha egy kísérletnél több esemény is bekövetkezhet, legtöbbször a legnagyobb valószínűségű eseményt fogjuk megfigyelni. 3. A sokaságra vett mintavételezés során kaptunk egy realizációt. Feltételezzük, hogy azért éppen ezt a realizációt kaptuk, és nem mást, mert az összes realizációk közül ennek volt a legnagyobb a bekövetkezési valószínűsége. 4. Vegyük tehát, az összes lehetséges paraméter közül azt, amelynél éppen kapott realizáció bekövetkezése a maximális.
A maximum likelihood becslés,diszkrét eset
A maximum likelihood becslés,diszkrét eset
A maximum likelihood becslés, Poisson-eloszlás
A maximum likelihood becslés, folytonos eset
A maximum likelihood becslés, normális eloszlás, ismert szórás esetén
A maximum likelihood becslés, normális eloszlás, ismert szórás esetén
A maximum likelihood becslés, normális eloszlás, két paraméteres eset
A maximum likelihood becslés, normális eloszlás, két paraméteres eset
A maximum likelihood becslés, normális eloszlás, két paraméteres eset
A maximum likelihood becslés Általános feltételek mellett megmutatható, hogy a maximum-likelihood becslés konzisztens, aszimptotikusan normális eloszlású, és ha van elégséges statisztika, akkor a maximum likelihood statisztika éppen azt adja meg!
A momentumok módszere
A momentumok módszere A normális eloszlás paramétereinek becslése a momentumok módszerével:
A momentumok módszere A Poisson eloszlás paraméterék becslése a momentumok módszerével:
1. feladat Bizonyítandó, hogy:
Megoldás azaz
2. feladat Tekintsük az alábbi statisztikákat: Igazoljuk, hogy torzítatlan statisztikák! Melyik a leghatásosabb közöttük?
Megoldás
Megoldás
Megoldás
Megoldás (Ez az együttes eloszlásfüggvényük.)
Megoldás
Megoldás
Megoldás
3. feladat Igazoljuk az alábbi állítást!
Megoldás =0 0<=
4. feladat
Megoldás
Megoldás
Megoldás
Megoldás
Megoldás
Megoldás
5. feladat Mutassuk meg, hogy az átlagstatisztika normális esetben nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Feltételek: Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál!
Megoldás Ha akkor t biztosan hatásos statisztika! Ez teljesül, ha a Fisher-féle információ mennyiség A minta együttes sűrűségfüggvénye, a likelihood függvény most:
Megoldás Mivel teljesült a feltétel, az átlagstatisztika tényleg hatásos!
6. feladat Mutassuk meg, hogy az átlagstatisztika exponenciális esetben is nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Feltételek: Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál! A bizonyítást az előző példánál megmutatott módon végezzük.
Megoldás
7. feladat Mutassuk meg, hogy az átlagstatisztika Poisson esetben is nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Ebben a példában az alapsokaság eloszlása diszkrét! Feltételek:
Megoldás A log-likelihood függvény most: