Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Alapfogalmak Adatelemzés.

Hasonló előadás


Az előadások a következő témára: "Alapfogalmak Adatelemzés."— Előadás másolata:

1 Alapfogalmak Adatelemzés

2 A matematikai statisztika alapfogalmai
ADATBÁNYÁSZAT Valamely vizsgált populációra vonatkozólag nagymennyiségű, kontrollálatlan adathalmazból számítógépes adatkezelő technikákkal, algoritmusokkal a populációra vonatkozó hasznos információ, összefüggés kinyerése. Az adatok begyűjtése spontán, többnyire véletlen folyamatok eredményeképpen, nem tervezett módon történik. Megjelenése az informatikai világ kiteljesedése következtében történt meg. Modern tudományág. Az elméleti megalapozás napjainkban is folyik.

3 A matematikai statisztika alapfogalmai
A vizsgált populációra vonatkozólag előre megtervezett módon, matematikai elvek figyelembe vételével beszerzett adatokkal, a minta feldolgozásával állítja elő a sokaságra vonatkozó hasznos következtetéseket. A statisztikai mintának reprezentatívnak kell lennie, különben a következtetések pontatlanok, megtévesztők lesznek! A valószínűségszámítással párhuzamosan fejlődött ki, erős matematikai elméleti háttérrel rendelkezik.

4 Statisztika alapfogalmai
Sokaság, populáció, véletlen kísérlet Statisztikai minta, minta realizáció Statisztikai mintavétel Statisztika Paraméter Statisztikai becslés

5 Statisztikai sokaság, populáció
A vizsgálat tárgyát képező nagyszámú de véges elemszámú egyedek halmaza. A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be. Magyarország állampolgárai - Egy egyetemi kar hallgatói - Az érvényes forgalmival rendelkező autók halmaza - Egy adott termék vásárlóinak halmaza - Egy TV csatorna nézőinek halmaza

6 Véletlen kísérlet A statisztikai elemzés tárgya lehet egy véletlen kísérlet is, ami időben változatlan körülmények között elvileg akárhányszor lejátszódhat. A valószínűségszámítás tárgyalásában ezt K–val jelöltük. A lottóhúzás Egy szerver működése Budapest januári átlaghőmérséklete Egy gyümölcsös terméshozama Egy új gyógyszer hatása Egy reklámkampány hatásossága Egy populáció egyedének véletlen kiválasztása

7 Statisztikai minta realizáltja
A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Egy felmérésbe bevont magyar állampolgárok halmaza - Egy adott előadásra belátogatott hallgatók halmaza - Adott biztosítóval szerződött autók halmaza - Egy adott napon megkérdezett vásárlók halmaza - Egy nézettségi felmérésbe bevont TV nézők halmaza - Budapest januári középhőmérséleteinek adatai

8 Statisztikai sokaság, populáció
A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból.

9 Statisztikai minta realizáltja
A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára … csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino)

10 1936 USA elnökválasztás Franklin D. Roosevelt Alf Landon Literary Digest: Kiküldtek 10 millió kérdőívet, visszakaptak 2 millió 400 ezret Gallup Intézet: 50 ezres reprezentatív minta A Gallup eltalálta a nyertest, a Literary Digest nagyon mellé lőtt… A vizsgálatokat csak tudományosan megtervezett ún. reprezentatív mintákon szabad elvégezni.

11 A Literary Digest című lap több mint kétmillió visszaküldött olvasói kérdőív alapján „jósolta” meg az elnökválasztás győztesét: tévesen. George Gallup ugyanakkor egy 50 ezer fős mintából tette ugyanezt – és a megfelelő mintavételnek köszönhetően helyesen nevezte meg a választás győztesét (Rooswelt). Gallup egy keresztmetszetet adó lakossági mintával dolgozott: kevesebb embert, de férfiakat és nőket arányosan "szondáztak" meg, interjúkat készítettek, valamint figyelembe vették az iskolázottságot és az anyagi körülményeket is. Mindez jól mutat rá, hogy ha hasonló közegből érkezik sok válasz, s ha bizonyos társadalmi csoportok kimaradnak a kutatásból, az eredmény hibás lesz. Az újság olvasói között nyilván voltak férfiak és nők, fiatalok és idősek, alacsony és magas végzettségűek is, de a teljes amerikai társadalmat biztosan nem reprezentálták – hiszen például a válaszolók között nem volt olyan, aki nem olvasója a lapnak. George Horace Gallup,

12 Mintavételezési eljárások
A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetők lehessenek a populációra is. Rétegzett mintavételezés: A populációt adott szempontok szerint csoportokba osztjuk, és a csoportok arányait a mintában is megtartjuk Véletlen mintavételezés: A mintába kerülő egyedeket sorsolással választjuk ki. Cenzus: népszámlálás

13 Alapfogalmak Eset A minta egy eleme, az adatmátrix egy sora.
Mintaelemszám Az adott minta elemeinek száma. Egy adatmátrix sorainak száma. Adatmátrix n db eset és p db változó adatainak mátrixba rendezett alakzata Változó A populáció egy mérhető jellemzője. Az adatmátrix egy oszlopa.

14 Példák változókra - Magyarország állampolgárai: fizetés; kor; nem; párt stb. - Egy egyetemi kar hallgatói: gönygyölt tanulmányi átlag; neptun-kód; nem; szak; teljesített kreditek száma stb. - Az autók halmaza: gyorsulás; fogyasztás; lóerő; típus;... - Egy adott termék vásárlóinak halmaza: vélemény az árról; minőségről;... - Egy TV csatorna nézőinek halmaza: kor; nem; tetszési index; iskolázottság; stb.

15 Statisztika A minta realizáció adataiból adott képlettel számolt adat a statisztika számított értéke. átlag, standard szórás, medián, kvartilis, ferdeség, lapultság, módusz, gyakoriság, próbastatisztikák, stb.

16 A matematikai statisztika alapmodellje
a véletlen kísérlet a lehetséges kimenetelek halmaza A a megfigyelhető események halmaza a lehetséges valószínűségi mértékek halmaza P Az elemzésünk célja, hogy ebből a halmazból kiválasszuk a tényleges valószínűséget! Legalább is egy jó helyettesítő egyedet.

17 A változó matematikai fogalma
X:   R a vizsgált valószínűségi változó X-nek minden PP esetén megadható az eloszlásfüggvénye! FX ( t ) = P( X< t ) minden PP –re! F = {FX ( t ) : FX ( t ) = P( X< t ) minden PP –re} Feladatunk tehát, ebből a halmazból kiválasztani a valóságot legjobban leíró eloszlásfüggvényt!

18 A statisztikai minta fogalma
Az X valószínűségi változóval azonos eloszlású, egymással teljesen független X1, X2,…, X n valószínűségi változók együttesét statisztikai mintának nevezzük. A matematikai modellben a minta tehát teljesen független, azonos eloszlású valószínűségi változók sorozata… A gyakorlati alkalmazásokban pedig n db szám! X eloszlásfüggvénye a minta eloszlásfüggvénye is. n a mintaelemszám. Xi a minta i-edik eleme. Egy mintavételezéskor tulajdonképpen megfigyeljük a K véletlen kísérletet, azaz megállapítjuk melyik   kimenetele realizálódott. Az X1() = x1, X2() = x2,…, X n() = xn szám n-est nevezzük a minta realizációjának.

19 A statisztika matematikai fogalma
Legyen tn egy n-változós valós függvény. Akkor a statisztikai minta Tn=tn(X1,X2,…,Xn) függvényét nevezzük statisztikának. A statisztika egy valószínűségi változó, aminek eloszlásfüggvényét a minta eloszlásfüggvényéből lehet kiszámolni. A Tn=tn(X1,X2,…,Xn) szám (amikor az argumentumba a mintarealizáció értékeit helyettesítjük, a statisztika számolt értéke.

20 Az adatcentrum statisztikái
ÁTLAG (mean) MEDIÁN (median) A leggyakrabban előforduló érték a mintában MÓDUSZ (mode)

21 A szóródást jellemző statisztikák
STANDARD SZÓRÁS (deviation) VARIÁCIÓ (variance) TERJEDELEM (range)

22 Az eloszlást jellemző statisztikák
FERDESÉG (skewness)

23 Az eloszlást jellemző statisztikák
LAPULTSÁG (curtosis)

24 A paraméter F = {FX ( t, ) :   }
Tegyük fel, hogy a minta eloszlásfüggvénye képletét egy  paraméter konkretizálja. Ha ismerjük az értékét, meg tudjuk pontosan adni az eloszlásfüggvényt: F = {FX ( t, ) :   } Egy adott statisztikai minta segítségével a  paraméter megbecslése a célunk!

25 (a -át) egy valószínűségi változóval becsüljük!
A paraméter becslése A  paraméter becsléséhez valamilyen alkalmas Tn statisztikát használunk: Tn  . Egy ismeretlen számot (a -át) egy valószínűségi változóval becsüljük! Mikor jó egy ilyen becslés???

26 A paraméter becslése I. Torzítatlanság
Valószínűségszámításból tanultuk, hogy egy valószínűségi változó az összes szám közül éppen a várható értéke körül ingadozik a legkisebb mértékben. A Tn statisztika a  paraméter torzítatlan becslése, ha ETn = . A torzítatlanság azt jelenti, hogy a becslő statisztika éppen a becsülendő paraméterérték körül fogja felvenni az értékeit. Lövészhasonlattal: „a találathoz a célkereszt jól van beállítva, nem hord félre a fegyver.”

27 A paraméter becslése II.
A becsülendő paraméter, . Egy nem torzítatlan becslő statisztika realizáltjai. Ilyen statisztika torzított. Egy torzítatlan becslő statisztika realizáltjai a minta elemszám függvényében.

28 A paraméter becslése III.
Aszimptotikus torzítatlanság Ha a torzítatlansági feltétel csak n esetben igaz:

29 A paraméter becslése IV.
Konzisztencia Ha garancia van arra, hogy a minta elemszám növekedtével növekszik a becslés pontosságának valószínűsége, konzisztens becslésről beszélünk: A statisztika, mint valószínűségi változó sorozat, sztochasztikusan konvergál a  konstanshoz!

30 A paraméter becslése V. Erős konzisztencia
Csak a konstansnak lehet 0 a varianciája. Tehát, ha n elég nagy, a becslés gyakorlatilag a paramétert adja! Erős konzisztencia Azok a torzítatlan becslések, melyeknél a variancia a minta elemszám növekedtével 0-hoz tart: A Csebisev-egyenlőtlenségből következik, hogy az erősen konzisztens statisztikai becslések egyben konzisztensek is lesznek. A megfordítás általában nem igaz!

31 A paraméter becslése VI.
Konzisztencia, erős konzisztencia A becslés és a paraméter eltérése az n növekedtével csökkenni fog!

32 A paraméter becslése VII.
Hatásosság Két torzítatlan becslés közül nyilván a kisebb varianciájú a jobb, hiszen kisebb mértékben ingadozik a paraméter körül! Azaz, a Vn statisztika hatásosabb Wn-nél, ha Egy torzítatlan becslés akkor lesz hatásos, ha varianciája minden más torzítatlan becslés varianciájánál kisebb! Csak egyetlen hatásos becslés van! (Ezt kell megkeresni egy adott paraméter-becslési problémához!)

33 A paraméter becslése VIII.
Hatásosság A torzítatlan becslések közül azt kell alkalmaznunk, amelyiknek a legkisebb a varianciája. Ez fog a legkisebb mértékben ingadozni a paraméter körül, ilyenkor kevesebb megfigyeléssel is jó becslés kapható.

34 1. feladat Bizonyítandó, hogy:

35 Megoldás azaz

36 2. feladat Tekintsük az alábbi statisztikákat:
Igazoljuk, hogy torzítatlan statisztikák! Melyik a leghatásosabb közöttük?

37 Megoldás

38 Megoldás

39 Megoldás

40 Megoldás (Ez az együttes eloszlásfüggvényük.)

41 Megoldás

42 Megoldás

43 Megoldás

44 3. feladat Igazoljuk az alábbi állítást!

45 Megoldás =0 0<=

46 4. feladat

47 Megoldás

48 Megoldás

49 Megoldás

50 Megoldás

51 Megoldás

52 Megoldás

53 5. feladat Mutassuk meg, hogy az átlagstatisztika normális esetben nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Feltételek: Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál!

54 Megoldás Ha akkor t biztosan hatásos statisztika! Ez teljesül, ha
a Fisher-féle információ mennyiség A minta együttes sűrűségfüggvénye, a likelihood függvény most:

55 Megoldás Mivel teljesült a feltétel, az átlagstatisztika tényleg hatásos!

56 6. feladat Mutassuk meg, hogy az átlagstatisztika exponenciális esetben is nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Feltételek: Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál! A bizonyítást az előző példánál megmutatott módon végezzük.

57 Megoldás

58 7. feladat Mutassuk meg, hogy az átlagstatisztika Poisson esetben is nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Ebben a példában az alapsokaság eloszlása diszkrét! Feltételek:

59 Megoldás A log-likelihood függvény most:


Letölteni ppt "Alapfogalmak Adatelemzés."

Hasonló előadás


Google Hirdetések