bináris (előnyei-hátrányai) - borításbecslés

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

I. előadás.
II. előadás.
3. Két független minta összehasonlítása
Rangszám statisztikák
Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Közlekedésstatisztika
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
III. előadás.
A középérték mérőszámai
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Hipotézisvizsgálat (1. rész) Kontingencia táblák
Nem-paraméteres eljárások, több csoport összehasonlítása
Kvantitatív módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Nemparaméteres próbák Statisztika II., 5. alkalom.
Nemparaméteres próbák
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Statisztika.
Készítette: Horváth Zoltán (2012)
Kvantitatív Módszerek
Valószínűségszámítás
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 18. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 13. előadás.
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Alapfogalmak.
Lineáris regresszió.
Adatleírás.
Folytonos eloszlások.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Dr Gunther Tibor PhD II/2.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Valószínűségszámítás III.
Vargha András KRE és ELTE, Pszichológiai Intézet
Valószínűségszámítás II.
A számítógépes elemzés alapjai
A számítógépes elemzés alapjai
II. előadás.
Kvantitatív módszerek MBA és Számvitel mesterszak
I. Előadás bgk. uni-obuda
Nemparaméteres próbák
Adatfeldolgozási ismeretek műszeres analitikus technikusok számára
Gazdaságinformatikus MSc
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Statisztika segédlet a Statistica programhoz Új verzióknál érdemes a View menüsor alatt a Classic menu-s verziót választani – ehhez készült a segédlet.
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
1.3. Hipotézisvizsgálat, statisztikai próbák
3. Varianciaanalízis (ANOVA)
Előadás másolata:

bináris (előnyei-hátrányai) - borításbecslés Változótípusok Skála Definíció Példák Nominális kvalitatív, nevekből áll nincs rangsor ivar, betegség, fajnév, cselekvési típus, prezencia-abszencia adatok Ordinális kvalitatív, rangsor lehetséges értékek közti távolság tetszőleges agresszivitás: erős, közepes, gyenge, borítás skálák, W-értékek, rangok Intervallum kvantitatív, rangsor, értékek közti különbség mutatja a távolságot önkényes nulla pont arányok nem értelmezhetők C hőmérséklet, IQ Arány/ hányados kvantitatív, rangsor, értékek közti intervallum mutatja a távolságot valódi nullapont arányok értelmezhetőek testsúly, magasság, életkor, mért értékek A megkülönböztetés fontos: kváziátlagok a statisztikában általában mérhető és megállapítható változókat különböztetnek meg. Közöttük egyirányú konverzió lehetséges folytonos vagy diszkrét közöttük átmenet: Simon Levin statisztikus véleménye (termésszám-terméssúly) bináris (előnyei-hátrányai) - borításbecslés

Fajszámok alapján borítások alapján

Hipotézisvizsgálatok Populáció, minta. Elméleti és tapasztalati középértékek és szóródási mutatók. Szabadsági fok. Konfidenciaintervallumok Azt az intervallumot, amelyik egy ismeretlen értéket (középérték, medián, szórás, variációs együttható, relatív gyakoriság, stb.) egy meghatározott valószínűséggel tartalmaz, megbízhatósági tartománynak vagy konfidenciaintervallumnak nevezzük. Szignifikanciaszint, első- és másodfajú hiba. Egyoldalú és kétoldalú próbák. A próbák ereje. Egymintás t-próba Kétmintás t-próba F-próba Maximális F, vagy Bartlett-próba Egyszempontos varianaciaanalízis elve Statisztikai próba-határozó Szignifikáns különbségek?

STATISZTIKAI ALAPFOGALMAK: Átlag, szórás Legyenek valamely n elemű populáció egy x változójának mért vagy számított értékei: Számtani átlag szórás

Középérték további mutatói: Módusz A leggyakrabban előforduló érték. Medián A sorba rendezett adatok középső értéke. Ha n páratlan, akkor az értékek közül a nagyság szerint rendezett sorban a középső, ha n páros, akkor a két középső érték számtani közepe. Mértani átlag Az alapadatok szorzatának annyiadik gyöke, ahány adat van. Harmonikus átlag A reciprok adatok átlagának reciproka. Kváziátlag: ordinális változókból számolt átlag

Szóródási tendencia további mutatói: Terjedelem A legnagyobb és a legkisebb érték közötti különbség. Szórás A várható értéktől való eltérés várható értéke – dimenziója az eredeti Variancia A szórás négyzete. - számításokhoz Variációs együttható – dimenzió nélküli Megadás: az alapadatoknál eggyel több értékes jegyre

Valószínűségek megadása Egyszerű esetek: Pénz, kocka Bonyolult esetek: más A priori a posteriori A nagy számok törvénye A nagy számok törvénye a valószínűségszámítás egyik alapvető tétele. A törvény azt mondja ki, hogy egy kísérletet sokszor elvégezve az eredmények átlaga egyre közelebb lesz a várható értékhez. Nem jelenti ugyanakkor azt, hogy az esélyek kiegyenlítődnek Kapcsolata a mintavételi elemszámmal

Valószínűségek megadása számításokkal Binomiális eloszlás 2 lehetséges kimenetel, egyik bekövetkezési valószínűsége p, a másiké q, p+q=1. Annak valószínűsége, hogy n db kiválasztáskor éppen k esetben következik be a p valószínűségű esemény: pk*(1-p)n-k a lehetséges sorozatok száma (ismétléses permutáció) n!/((k!*(n-k)!) Az eloszlásnak két paramétere van, n és p. Ez végtelen mintákra vonatkozik, egy egyszerűbb véges urnamodell analóg kérdése 

Egy urnában levő M darab golyó közül s piros, és visszatevés nélkül kiválasztunk n darabot, mi a valószínűsége annak, hogy a mintában éppen k darab piros golyó lesz (M≥n, k≤n)? Az eloszlás hipergeometrikus, ha n és s elég nagy, az eloszlás jól közelíthető a binomiálissal.

Tételezzük fel, hogy p nagyon kicsi, de n tart a végtelenhez úgy, hogy szorzatuk konstans: n*p= Poisson eloszlás: annak a valószínűsége, hogy éppen k-szor következik be az esemény: P(k)=(k)/k!*e- Az eloszlásnak egy paramétere van, , ami egyben az eloszlás várható értékét és varianciáját is adja. Annak a valószínűsége, hogy egy t-vel jellemezhető intervallumra (pl. szakasz, terület, térfogat, idő) éppen k darab eset jut: P(kt)=(kt)/k!*e-t A mintavételezés egyik referencia-eloszlása, ezzel lehet leírni a térbeli és az időbeli véletlen folyamatokat.

Gyakorlati vonatkozások - helyi feladat Síkbeli pontmintázat elemzése: 1. legyenek A faj egyedei pontszerűek, random diszperziójúak, sűrűségük 10 db/m2. Mi az esélye annak, hogy egy negyed négyzetméteres kvadrátban: a.) ne legyen egy se? b.) 2 legyen? c.) 10-nél több legyen? (skálázási vonatkozások) 2. Legyenek A és B faj egyedei pontszerűek, random diszperziójúak, függetlenek, sűrűségük 10 db/m2 és 20 db/m2.   B van B nincs A van P(a) P(b) A nincs P(c) P(d) a.) mik az egyes P(i) valószínűségek negyed négyzetméteres kvadrát esetében? b.) ha a mintavételi egység területe 0-tól 4 négyzetméterig növekszik, hogyan változnak ez egyes valószínűség értékek? c.) előző térfolyamat során hogyan változnak az alábbi hasonlósági indexek értékei: c/1.) a/(a+b+c) ? c/2.) (a+d)/(a+b+c+d)?

kísérleti elrendezések Randomizáció Véletlen számok és mintázatok problematikája - cél: a statisztikai populáció tagjai egyenlő eséllyel kerülhessenek a mintába - használható zavaró tényezők, tendenciák hatásának kiszűrésére - a reprezentativitás legfőbb biztosítéka - torz minta: - bizonyos egyedek nagyobb valószínűséggel kerülnek a mintába - bizonyos egyedek bekerülése befolyásolja más egyedek bekerülését A véletlenszerűség igen gyakran statisztikai követelmény Haphazard (találomra, vaktában) mintavétel Problémái, szisztematikus és szemiszisztematikus mintavétel Helyi feladat: véletlen pontmintázat előállítása

Kísérleti elrendezések a véletlenszerűség biztosítására véletlen blokkelrendezés: az ismétlések blokkokba vannak osztva úgy, hogy a blokkok minél homogénebbek legyenek előny: egyszerű hátrány: tízféle vagy több kezelésnél nehezen biztosítható a blokkon belüli homogenitás ekkor jobb a tökéletlen, azaz a blokkon belüli homogenitás érdekében lemondanak arról, hogy minden blokkban minden kezelés benne legyen példa 1. parcellakísérlet gradiens mentén példa 2. laborkísérlet időben: pl. vérszérum elemzés box: Ali fotoszintézis vizsgálatai: napi és évi ciklus

Helyi feladat: 4x4-es négyzet készítése Latin-négyzet ha a kezelések száma egyenlő az ismétlésszámmal, soronként és oszloponként 1-1 lehet. mágikus és szupermágikus latin négyzet Helyi feladat: 4x4-es négyzet készítése latin tégla a kezelésszám az ismétlésszám többszöröse kell legyen 5 8 6 3 4 7 1 2 6 7 8 2 5 1 3 4 2 4 1 7 3 8 5 6 1 3 5 4 2 6 7 8

A várható érték (m) és a szórás (σ) Normális eloszlás 2 paraméter: A várható érték (m) és a szórás (σ) A görbék magasságai azért különbözőek, hogy a görbe alatti terület 1 legyen (teljes valószínűség). Centrális határeloszlás tétel: Független valószínűségi változók összege aszimptotikusan normális eloszlású, ha az összeghez képest kicsik. Galton deszka

A t-eloszlás táblázata és az egymintás t-próba próbastatisztikája

Kétmintás t-próba Ha a minták függetlenek, normális eloszlásúak és szórásaik nem különböznek szignifikánsan, tekinthetjük egyetlen minta két részének. A kapott próbastatisztika n1+n2-2 szabadsági fokú t-eloszlású

A t-próba feltételei: Egymintás esetben: a valószínűségi változók normális eloszlásúak a mintaelemek függetlenek Kétmintás esetben ezeken felül: a két valószínűségi változó szórása azonos

Nem paraméteres: Mann-Whitney próba Welsch-próba Ha a két minta varianciája nem azonos, a próbastatisztika: d= Ha a null-hipotézis igaz a próbastatisztika közelítőleg t-eloszlású a szabadsági fok függ a varianciák közötti különbségtől is Nem paraméteres: Mann-Whitney próba

F-próba Két variancia összehasonlítása a mintából kapott becslések alapján Követelmény: normális eloszlás. F= Mindig a nagyobbat kell a kisebbel osztani. Maximális F, Bartlett

Egyszempontos varianciaanalízis Alapja egyetlen F-próba, ami az átlagok eltérésére karakterisztikus ”csoportok közötti” varianciát veti össze a random ingadozást leíró ”csoportokon belüli” varianciával. Kezeléstípusok Alapadatok varianciák a b c d e f g Nem paraméteres: Kruskal-Wallis próba

Khi-négyzet próbával végezhető szignifikanciavizsgálatok: Homogenitásvizsgálat Összefüggésvizsgálat Illeszkedésvizsgálat

A Khi2 eloszlás táblázata Egyoldalú és kétoldalú próba Aggregációs index a helyi feladathoz.

Lineáris korreláció és regresszió Korreláltság, korrelálatlanság Legkisebb négyzetek módszere r = Cov(xy)/SQRT(var(x)*var(y))

A becslésre fordított idő érdemben nem befolyásolta az elért pontosságot (r~0.2)

Interpoláció és extrapoláció Konfidenciaintervallumok

Oksági összefüggést takar-e? függő és független változó: MINDIG!!! utánagondolni A vagyonosabb embereknek drágább autója van. példa 1. sajtó: a sokat TV-ző gyerekek nehezebben olvasnak példa 2. talajnedvesség: a nedvesebb talajban több a gyökér, és a több gyökér jobban kiszárítja a talajt Pszeudokorreláció - látszatösszefüggés búza-rozs termésmennyiség gólyafészek - születésszám kökény – megcsípte a dér Helyi feladat: lehetséges szakmai pszeudokorrelációt írni vagy elmondani, lehetőleg saját munkából.

Megadandó az alkalmazandó statisztikai próba neve, elvégzésének feltétele vagy feltételei, továbbá, ha a kérdés eldöntésére többféle eljárás is alkalmas, akkor ezeknek mi a rangsora. Utóbbi alatt azt értem, hogy melyik lenne a legjobb, de ha az nem végezhető valami miatt, akkor mi lenne a következő, stb. 1. A Szerencsejáték Rt. Honlapjáról letölthetők az eddigi lottóhúzások néhány statisztikája, pl. az, hogy melyik számot hányszor húzták ki eddig összesen. Hogyan lehetne megvizsgálni, nem volt-e esetleg csalás, azaz nem szerepeltek-e egyes számok az elvárhatónál szignifikánsan többször vagy kevesebbszer?   2. Egy cég új reagenst kínál, amelyről azt állítja, hogy az eddig forgalmazottnál hatékonyabban növeli egy oldat vezetőképességét (teljesen mindegy, hogy miért és hogyan, ). Milyen módszerrel (vagy módszerekkel!!!) lehet eldönteni, hogy igaz-e az állítás? 3. Egy vállalkozó olyan segédanyagot forgalmaz, mely (állítása szerint) növeli a búza terméseredményét. Milyen módszerrel (vagy módszerekkel!!!) lehet eldönteni, hogy igaz-e az állítás? 4. Kutyafajták termetét akarjuk összehasonlítani. Tételezzük fel, hogy létezik egy szempontrendszer, melynek segítségével 0-től 4-ig osztályozni lehet a megvizsgált állatokat: 0 - mini, 1 - kicsi, 2 - közepes - 3 nagy, 4 - hatalmas. Nyolc kiválasztott fajta 366 példányának eredményéből milyen statisztikai próbával lehet a fajták között meglevő méretkülönbség meglétét kimutatni avagy elvetni?