Alapfogalmak Adatelemzés.

Slides:



Advertisements
Hasonló előadás
NRC Omnibusz – november. Okostelefon használat  A éves internetezők 64%-a használ okostelefont (saját/céges okostelefont, vagy más készülékét).
Advertisements

„ Tágas városom kis lakásra cserélem” Hajléktalanok önálló lakhatásának elősegítése, munkaerő-piaci integrációjának megalapozása TÁMOP /
Vetésforgó tervezése és kivitelezése. Vetésforgó Vetésterv növényi sorrend kialakításához őszi búza250 ha őszi árpa50 ha lucerna ebből új telepítés 300.
„Internetes kommunikáció” pótkurzus Készítette: Tóth Tímea Szak: Tantárgykódja: Tanár neve:
Oktatói elvárások, oktatói vélemények a hallgatókról Cserné dr. Adermann Gizella egyetemi docens DUE.
Kvantitatív módszerek Becsléselmélet október 7. és 9.
Kockázat és megbízhatóság
tananyag =előadások és gyakorlatok anyaga (írott és elmondott is)
Valószínűségi kísérletek
Bevezetés Biometria I. Molnár Péter Állattani Tanszék
Muraközy Balázs: Mely vállalatok válnak gazellává?
1Transzplantációs Alapítvány
2. előadás Viszonyszámok
Leíró statisztika Becslés
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
A FELÜGYELŐBIZOTTSÁG BESZÁMOLÓJA A VSZT
A közigazgatással foglalkozó tudományok

Egy üzemben sok gyártósoron gyártanak egy bizonyos elektronikai alkatrészt. Az alkatrészek ellenállását időnként ellenőrzik úgy, hogy egy munkás odamegy.
Kockázat és megbízhatóság
Szigorlati felkészítő Kvantitatív módszerek
Mintavétel és becslés október 27. és 29.
Becsléselmélet - Konzultáció
Kockázat és megbízhatóság
Alapfogalmak Adatelemzés.
Mintavételes eljárások
Kockázat és megbízhatóság
Kvantitatív módszerek
Hipotézisvizsgálat.
Kvantitatív módszerek
Tájékoztató a évi OSAP teljesüléséről
Mintavételes eljárások
V. Optimális portfóliók
Gazdaságstatisztika Korreláció- és regressziószámítás II.
A Nemzeti Szakképzési és Felnőttképzési Intézet Konferenciája
INFOÉRA 2006 Véletlenszámok
MINTAVÉTEL, LEÍRÓ STATISZTIKAI MUTATÓSZÁMOK
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Innovációs képesség és jólét összefüggései
dr. Jeney László egyetemi adjunktus Európa regionális földrajza
Kvantitatív módszerek
Közigazgatási alapvizsga a Probono rendszerben
Kvantitatív módszerek
Érték-, ár-, volumenindexek
Regressziós modellek Regressziószámítás.
Sztochasztikus kapcsolatok I. Asszociáció
A matematikai statisztika alapfogalmai
Informatikai gyakorlatok 11. évfolyam
Szabványok, normák, ami az ÉMI minősítési rendszerei mögött van
A csoportok tanulása, mint a szervezeti tanulás alapja
3. előadás.
Statisztika Érettségi feladatok
Tájékoztatás a évi Országos Statisztikai Adatfelvételi Program (OSAP) teljesüléséről az Országos Statisztikai Tanács és a Nemzeti Statisztikai Koordinációs.
Alkalmazott statisztikai alapok
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
Dr. Varga Beatrix egyetemi docens
Binomiális fák elmélete
Paraméteres próbák Adatelemzés.
Rappai Gábor, szeptember 25.
Lorenz-görbe dr. Jeney László egyetemi adjunktus
Kísérlettervezés 2018/19.
3. előadás.
Áramlástan mérés beszámoló előadás
Hipotéziselmélet Adatelemzés.
KOHÉZIÓS POLITIKA A POLGÁROK SZOLGÁLATÁBAN
Mintavételes eljárások
Vargha András KRE és ELTE, Pszichológiai Intézet
Üzlezi információelemző specializió
A statisztikus elemző specializió
Előadás másolata:

Alapfogalmak Adatelemzés

A matematikai statisztika alapfogalmai ADATBÁNYÁSZAT Valamely vizsgált populációra vonatkozólag nagymennyiségű, kontrollálatlan adathalmazból számítógépes adatkezelő technikákkal, algoritmusokkal a populációra vonatkozó hasznos információ, összefüggés kinyerése. Az adatok begyűjtése spontán, többnyire véletlen folyamatok eredményeképpen, nem tervezett módon történik. Megjelenése az informatikai világ kiteljesedése következtében történt meg. Modern tudományág. Az elméleti megalapozás napjainkban is folyik.

A matematikai statisztika alapfogalmai A vizsgált populációra vonatkozólag előre megtervezett módon, matematikai elvek figyelembe vételével beszerzett adatokkal, a minta feldolgozásával állítja elő a sokaságra vonatkozó hasznos következtetéseket. A statisztikai mintának reprezentatívnak kell lennie, különben a következtetések pontatlanok, megtévesztők lesznek! A valószínűségszámítással párhuzamosan fejlődött ki, erős matematikai elméleti háttérrel rendelkezik.

Statisztika alapfogalmai Sokaság, populáció, véletlen kísérlet Statisztikai minta, minta realizáció Statisztikai mintavétel Statisztika Paraméter Statisztikai becslés

Statisztikai sokaság, populáció A vizsgálat tárgyát képező nagyszámú de véges elemszámú egyedek halmaza. A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be. Magyarország állampolgárai - Egy egyetemi kar hallgatói - Az érvényes forgalmival rendelkező autók halmaza - Egy adott termék vásárlóinak halmaza - Egy TV csatorna nézőinek halmaza

Véletlen kísérlet A statisztikai elemzés tárgya lehet egy véletlen kísérlet is, ami időben változatlan körülmények között elvileg akárhányszor lejátszódhat. A valószínűségszámítás tárgyalásában ezt K–val jelöltük. A lottóhúzás Egy szerver működése Budapest januári átlaghőmérséklete Egy gyümölcsös terméshozama Egy új gyógyszer hatása Egy reklámkampány hatásossága Egy populáció egyedének véletlen kiválasztása

Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Egy felmérésbe bevont magyar állampolgárok halmaza - Egy adott előadásra belátogatott hallgatók halmaza - Adott biztosítóval szerződött autók halmaza - Egy adott napon megkérdezett vásárlók halmaza - Egy nézettségi felmérésbe bevont TV nézők halmaza - Budapest januári középhőmérséleteinek adatai

Statisztikai sokaság, populáció A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból.

Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára … csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino)

1936 USA elnökválasztás Franklin D. Roosevelt Alf Landon Literary Digest: Kiküldtek 10 millió kérdőívet, visszakaptak 2 millió 400 ezret Gallup Intézet: 50 ezres reprezentatív minta A Gallup eltalálta a nyertest, a Literary Digest nagyon mellé lőtt… A vizsgálatokat csak tudományosan megtervezett ún. reprezentatív mintákon szabad elvégezni.

A Literary Digest című lap több mint kétmillió visszaküldött olvasói kérdőív alapján „jósolta” meg az elnökválasztás győztesét: tévesen. George Gallup ugyanakkor egy 50 ezer fős mintából tette ugyanezt – és a megfelelő mintavételnek köszönhetően helyesen nevezte meg a választás győztesét (Rooswelt). Gallup egy keresztmetszetet adó lakossági mintával dolgozott: kevesebb embert, de férfiakat és nőket arányosan "szondáztak" meg, interjúkat készítettek, valamint figyelembe vették az iskolázottságot és az anyagi körülményeket is. Mindez jól mutat rá, hogy ha hasonló közegből érkezik sok válasz, s ha bizonyos társadalmi csoportok kimaradnak a kutatásból, az eredmény hibás lesz. Az újság olvasói között nyilván voltak férfiak és nők, fiatalok és idősek, alacsony és magas végzettségűek is, de a teljes amerikai társadalmat biztosan nem reprezentálták – hiszen például a válaszolók között nem volt olyan, aki nem olvasója a lapnak. George Horace Gallup, 1901-1984

Mintavételezési eljárások A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetők lehessenek a populációra is. Rétegzett mintavételezés: A populációt adott szempontok szerint csoportokba osztjuk, és a csoportok arányait a mintában is megtartjuk Véletlen mintavételezés: A mintába kerülő egyedeket sorsolással választjuk ki. Cenzus: népszámlálás

Alapfogalmak Eset A minta egy eleme, az adatmátrix egy sora. Mintaelemszám Az adott minta elemeinek száma. Egy adatmátrix sorainak száma. Adatmátrix n db eset és p db változó adatainak mátrixba rendezett alakzata Változó A populáció egy mérhető jellemzője. Az adatmátrix egy oszlopa.

Példák változókra - Magyarország állampolgárai: fizetés; kor; nem; párt stb. - Egy egyetemi kar hallgatói: gönygyölt tanulmányi átlag; neptun-kód; nem; szak; teljesített kreditek száma stb. - Az autók halmaza: gyorsulás; fogyasztás; lóerő; típus;... - Egy adott termék vásárlóinak halmaza: vélemény az árról; minőségről;... - Egy TV csatorna nézőinek halmaza: kor; nem; tetszési index; iskolázottság; stb.

Statisztika A minta realizáció adataiból adott képlettel számolt adat a statisztika számított értéke. átlag, standard szórás, medián, kvartilis, ferdeség, lapultság, módusz, gyakoriság, próbastatisztikák, stb.

A matematikai statisztika alapmodellje a véletlen kísérlet  a lehetséges kimenetelek halmaza A a megfigyelhető események halmaza a lehetséges valószínűségi mértékek halmaza P Az elemzésünk célja, hogy ebből a halmazból kiválasszuk a tényleges valószínűséget! Legalább is egy jó helyettesítő egyedet.

A változó matematikai fogalma X:   R a vizsgált valószínűségi változó X-nek minden PP esetén megadható az eloszlásfüggvénye! FX ( t ) = P( X< t ) minden PP –re! F = {FX ( t ) : FX ( t ) = P( X< t ) minden PP –re} Feladatunk tehát, ebből a halmazból kiválasztani a valóságot legjobban leíró eloszlásfüggvényt!

A statisztikai minta fogalma Az X valószínűségi változóval azonos eloszlású, egymással teljesen független X1, X2,…, X n valószínűségi változók együttesét statisztikai mintának nevezzük. A matematikai modellben a minta tehát teljesen független, azonos eloszlású valószínűségi változók sorozata… A gyakorlati alkalmazásokban pedig n db szám! X eloszlásfüggvénye a minta eloszlásfüggvénye is. n a mintaelemszám. Xi a minta i-edik eleme. Egy mintavételezéskor tulajdonképpen megfigyeljük a K véletlen kísérletet, azaz megállapítjuk melyik   kimenetele realizálódott. Az X1() = x1, X2() = x2,…, X n() = xn szám n-est nevezzük a minta realizációjának.

A statisztika matematikai fogalma Legyen tn egy n-változós valós függvény. Akkor a statisztikai minta Tn=tn(X1,X2,…,Xn) függvényét nevezzük statisztikának. A statisztika egy valószínűségi változó, aminek eloszlásfüggvényét a minta eloszlásfüggvényéből lehet kiszámolni. A Tn=tn(X1,X2,…,Xn) szám (amikor az argumentumba a mintarealizáció értékeit helyettesítjük, a statisztika számolt értéke.

Az adatcentrum statisztikái ÁTLAG (mean) MEDIÁN (median) A leggyakrabban előforduló érték a mintában MÓDUSZ (mode)

A szóródást jellemző statisztikák STANDARD SZÓRÁS (deviation) VARIÁCIÓ (variance) TERJEDELEM (range)

Az eloszlást jellemző statisztikák FERDESÉG (skewness)

Az eloszlást jellemző statisztikák LAPULTSÁG (curtosis)

A paraméter F = {FX ( t, ) :   } Tegyük fel, hogy a minta eloszlásfüggvénye képletét egy  paraméter konkretizálja. Ha ismerjük az értékét, meg tudjuk pontosan adni az eloszlásfüggvényt: F = {FX ( t, ) :   } Egy adott statisztikai minta segítségével a  paraméter megbecslése a célunk!

(a -át) egy valószínűségi változóval becsüljük! A paraméter becslése A  paraméter becsléséhez valamilyen alkalmas Tn statisztikát használunk: Tn  . Egy ismeretlen számot (a -át) egy valószínűségi változóval becsüljük! Mikor jó egy ilyen becslés???

A paraméter becslése I. Torzítatlanság Valószínűségszámításból tanultuk, hogy egy valószínűségi változó az összes szám közül éppen a várható értéke körül ingadozik a legkisebb mértékben. A Tn statisztika a  paraméter torzítatlan becslése, ha ETn = . A torzítatlanság azt jelenti, hogy a becslő statisztika éppen a becsülendő paraméterérték körül fogja felvenni az értékeit. Lövészhasonlattal: „a találathoz a célkereszt jól van beállítva, nem hord félre a fegyver.”

A paraméter becslése II. A becsülendő paraméter, . Egy nem torzítatlan becslő statisztika realizáltjai. Ilyen statisztika torzított. Egy torzítatlan becslő statisztika realizáltjai a minta elemszám függvényében.

A paraméter becslése III. Aszimptotikus torzítatlanság Ha a torzítatlansági feltétel csak n esetben igaz:

A paraméter becslése IV. Konzisztencia Ha garancia van arra, hogy a minta elemszám növekedtével növekszik a becslés pontosságának valószínűsége, konzisztens becslésről beszélünk: A statisztika, mint valószínűségi változó sorozat, sztochasztikusan konvergál a  konstanshoz!

A paraméter becslése V. Erős konzisztencia Csak a konstansnak lehet 0 a varianciája. Tehát, ha n elég nagy, a becslés gyakorlatilag a paramétert adja! Erős konzisztencia Azok a torzítatlan becslések, melyeknél a variancia a minta elemszám növekedtével 0-hoz tart: A Csebisev-egyenlőtlenségből következik, hogy az erősen konzisztens statisztikai becslések egyben konzisztensek is lesznek. A megfordítás általában nem igaz!

A paraméter becslése VI. Konzisztencia, erős konzisztencia A becslés és a paraméter eltérése az n növekedtével csökkenni fog!

A paraméter becslése VII. Hatásosság Két torzítatlan becslés közül nyilván a kisebb varianciájú a jobb, hiszen kisebb mértékben ingadozik a paraméter körül! Azaz, a Vn statisztika hatásosabb Wn-nél, ha Egy torzítatlan becslés akkor lesz hatásos, ha varianciája minden más torzítatlan becslés varianciájánál kisebb! Csak egyetlen hatásos becslés van! (Ezt kell megkeresni egy adott paraméter-becslési problémához!)

A paraméter becslése VIII. Hatásosság A torzítatlan becslések közül azt kell alkalmaznunk, amelyiknek a legkisebb a varianciája. Ez fog a legkisebb mértékben ingadozni a paraméter körül, ilyenkor kevesebb megfigyeléssel is jó becslés kapható.

A maximum likelihood becslés A módszer alapgondolatai a következők: A mintánk eloszlásfüggvénye a  paramétertől függ. Ha egy kísérletnél több esemény is bekövetkezhet, legtöbbször a legnagyobb valószínűségű eseményt fogjuk megfigyelni. 3. A sokaságra vett mintavételezés során kaptunk egy realizációt. Feltételezzük, hogy azért éppen ezt a realizációt kaptuk, és nem mást, mert az összes realizációk közül ennek volt a legnagyobb a bekövetkezési valószínűsége. 4. Vegyük tehát, az összes lehetséges  paraméter közül azt, amelynél éppen kapott realizáció bekövetkezése a maximális.

A maximum likelihood becslés,diszkrét eset

A maximum likelihood becslés,diszkrét eset

A maximum likelihood becslés, Poisson-eloszlás

A maximum likelihood becslés, folytonos eset

A maximum likelihood becslés, normális eloszlás, ismert szórás esetén

A maximum likelihood becslés, normális eloszlás, ismert szórás esetén

A maximum likelihood becslés, normális eloszlás, két paraméteres eset

A maximum likelihood becslés, normális eloszlás, két paraméteres eset

A maximum likelihood becslés, normális eloszlás, két paraméteres eset

A maximum likelihood becslés Általános feltételek mellett megmutatható, hogy a maximum-likelihood becslés konzisztens, aszimptotikusan normális eloszlású, és ha van elégséges statisztika, akkor a maximum likelihood statisztika éppen azt adja meg!

A momentumok módszere

A momentumok módszere A normális eloszlás paramétereinek becslése a momentumok módszerével:

A momentumok módszere A Poisson eloszlás paraméterék becslése a momentumok módszerével:

1. feladat Bizonyítandó, hogy:

Megoldás azaz

2. feladat Tekintsük az alábbi statisztikákat: Igazoljuk, hogy torzítatlan statisztikák! Melyik a leghatásosabb közöttük?

Megoldás

Megoldás

Megoldás

Megoldás (Ez az együttes eloszlásfüggvényük.)

Megoldás

Megoldás

Megoldás

3. feladat Igazoljuk az alábbi állítást!

Megoldás =0 0<=

4. feladat

Megoldás

Megoldás

Megoldás

Megoldás

Megoldás

Megoldás

5. feladat Mutassuk meg, hogy az átlagstatisztika normális esetben nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Feltételek: Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál!

Megoldás Ha akkor t biztosan hatásos statisztika! Ez teljesül, ha a Fisher-féle információ mennyiség A minta együttes sűrűségfüggvénye, a likelihood függvény most:

Megoldás Mivel teljesült a feltétel, az átlagstatisztika tényleg hatásos!

6. feladat Mutassuk meg, hogy az átlagstatisztika exponenciális esetben is nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Feltételek: Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál! A bizonyítást az előző példánál megmutatott módon végezzük.

Megoldás

7. feladat Mutassuk meg, hogy az átlagstatisztika Poisson esetben is nem csak torzítatlan, erősen konzisztens becslés, hanem hatásos is! Ebben a példában az alapsokaság eloszlása diszkrét! Feltételek:

Megoldás A log-likelihood függvény most: