Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008.

Slides:



Advertisements
Hasonló előadás
Hipotézis-ellenőrzés (Statisztikai próbák)
Advertisements

4. Két összetartozó minta összehasonlítása
I. előadás.
II. előadás.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
3. Két független minta összehasonlítása
Rangszám statisztikák
A többszörös összehasonlítás gondolatmenete. Több mint két statisztikai döntés egy vizsgálatban? Mi történik az elsõ fajú hibával, ha két teljesen független.
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Általános lineáris modellek
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Kísérlettervezés DR. HUZSVAI LÁSZLÓ SELYE
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
A középérték mérőszámai
Varianciaanalízis 12. gyakorlat.
Hipotézisvizsgálat (1. rész) Kontingencia táblák
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Kvantitatív módszerek
Matematikai alapok és valószínűségszámítás
Nemparaméteres próbák Statisztika II., 5. alkalom.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
INFORMATIKA Terület- és Településfejlesztési szak
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Az F-próba szignifikáns
Statisztika, kutatásmódszertan I.
A normális eloszlás mint modell
Kvantitatív Módszerek
Valószínűségszámítás
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 18. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 14. előadás.
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Hipotézis vizsgálat.
Alapfogalmak.
t A kétoldalú statisztikai próba alapfogalmai
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Vargha András KRE és ELTE, Pszichológiai Intézet
Valószínűségszámítás II.
A számítógépes elemzés alapjai
A számítógépes elemzés alapjai
Kvantitatív módszerek
Konzultáció november 19. Nemparaméteres próbák, egymintás próbák
Paraméteres próbák- gyakorlat
Nemparaméteres próbák
II. előadás.
Kvantitatív módszerek MBA és Számvitel mesterszak
Gazdaságstatisztika konzultáció
Kvantitatív módszerek
I. Előadás bgk. uni-obuda
Hipotézisvizsgálatok Paraméteres próbák
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
1.3. Hipotézisvizsgálat, statisztikai próbák
Előadás másolata:

Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008

Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.

Mi az adatbázis Egy témakör vagy cél köré csoportosuló információ. Egy témakör vagy cél köré csoportosuló információ. Jó tervezés = hatékony adattárolás és kinyerés Jó tervezés = hatékony adattárolás és kinyerés Célorientált adatbázisok Célorientált adatbázisok

Adatbázis tervezés Milyen információt akarunk kinyerni? Milyen információt akarunk kinyerni? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Hogyan kapcsolódnak ezek egymáshoz? Hogyan kapcsolódnak ezek egymáshoz? Az egyes területeken belül milyen adatokat kell tárolni? Az egyes területeken belül milyen adatokat kell tárolni?

Adatbázis felépítése Tábla (table) Tábla (table) Mező (field) Mező (field) Rekord (record) Rekord (record) Űrlap (form)  adatbevitel Űrlap (form)  adatbevitel Adatmegjelenítés: Adatmegjelenítés:  kigyűjtés (find)  sorba rendezés (sort)  lekérdezés (query) Jelentések (report)  nyomtatás Jelentések (report)  nyomtatás

Tábla

Űrlap

Jelentések

A relációs adatbázis feltételei nem lehet két egyforma sora nem lehet két egyforma sora minden mezőnek egyedi neve van minden mezőnek egyedi neve van a sorok és oszlopok sorrendje tetszőleges a sorok és oszlopok sorrendje tetszőleges ne tartalmazzon származtatott, kiszámított adatot (redundancia) ne tartalmazzon származtatott, kiszámított adatot (redundancia) egy mező megváltoztatása nem hathat ki más mezőkre egy mező megváltoztatása nem hathat ki más mezőkre a mezők elemi információt tartalmazzanak a mezők elemi információt tartalmazzanak minden szükséges adatot tartalmaz minden szükséges adatot tartalmaz van elsődleges kulcsa van elsődleges kulcsa

Normalizálás Az adatok ésszerű csoportosítása Az adatok ésszerű csoportosítása 1NF... 3NF... 5NF 1NF... 3NF... 5NF Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. 3NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ 3NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ

Kapcsolatok egy az egyhez egy az egyhez egy a többhöz egy a többhöz több a többhöz (kapcsoló tábla) több a többhöz (kapcsoló tábla)

Relációs adatbázis- kezelők Oracle Oracle MS Access MS Access dBase dBase SQL SQL Excel Excel stb. stb.

A statisztika feladata Mennyire hihetők a kísérletek, megfigyelések megállapításai? Mennyire hihetők a kísérletek, megfigyelések megállapításai? Mennyiben játszik szerepet a véletlen? Mennyiben játszik szerepet a véletlen? Minta alapján becslés, válasz valószínűségi állítás formájában Minta alapján becslés, válasz valószínűségi állítás formájában Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés) Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés)

Statisztikai módszerek Sztochasztika Sztochasztika Valószínűségszámítás Valószínűségszámítás Megfigyelések értékelése Megfigyelések értékelése Bizonytalanság okainak felderítése Bizonytalanság okainak felderítése Döntéshozatal Döntéshozatal

Valószínűségek Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) P(E) bekövetkezési valószínűség (0,00-1,00) P(E) bekövetkezési valószínűség (0,00-1,00) Relatív gyakoriság (%) Relatív gyakoriság (%)

Függetlenség Komplementer (kiegészítő) esemény Komplementer (kiegészítő) esemény Feltételes valószínűség Feltételes valószínűség Sztochasztikus függetlenség Sztochasztikus függetlenség

Ismérv, alapsokaság, minta Kvantitatív és kvalitatív ismérvek Kvantitatív és kvalitatív ismérvek Összes lehetséges előfordulás = alapsokaság Összes lehetséges előfordulás = alapsokaság Mintavétel: olcsó, gyors, egzakt Mintavétel: olcsó, gyors, egzakt

Véletlen mintavétel, szisztematikus hiba Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Szelekció Szelekció Reprezentativitás Reprezentativitás

Paraméter Minta adataiból az alapsokaság adataira következtetünk Minta adataiból az alapsokaság adataira következtetünk Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) A minta középértékéből az alapsokaság középértékére következtetünk A minta középértékéből az alapsokaság középértékére következtetünk Megbízhatósági intervallum Megbízhatósági intervallum Statisztikai próba Statisztikai próba

Véletlen minta előállítása Véletlen szám generátor Véletlen szám generátor Pszeudó véletlen szám generátor Pszeudó véletlen szám generátor Rnd() függvény Rnd() függvény Excel Vél() függvénye Excel Vél() függvénye VÉL()*(b-a)+a VÉL()*(b-a)+a

Mintavételi eljárások N=1 500 és között N=1 500 és között Egynemű (homogén) alapsokaság mintái Egynemű (homogén) alapsokaság mintái Nem egynemű (heterogén) alapsokaság mintái Nem egynemű (heterogén) alapsokaság mintái –Csoportba rendezett (csomók) –Nem rendezett csoportba (rétegképzés) Blokk képzés (homogén csoportok kialakítása Blokk képzés (homogén csoportok kialakítása

Statisztikai becslés Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai

A jó becslés kritériumai Torzítatlanság (várható érték) Torzítatlanság (várható érték) Pontosság (szórás) Pontosság (szórás) Konzisztencia Konzisztencia

Torzítatlan és konzisztens becslés Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan becslés, amely a minta n elemszámának növekedésével (n   ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel) Olyan becslés, amely a minta n elemszámának növekedésével (n   ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel)

Pontos és torzítatlan becslés

Pontos és torzított becslés

Pontatlan és torzítatlan becslés

Pontatlan és torzított becslés

Centrális mutatók Átlag (várható érték) Átlag (várható érték) Medián (középső adat, gyakran helyettesíti a számtani közepet) Medián (középső adat, gyakran helyettesíti a számtani közepet) Módusz (leggyakrabban előforduló elem) Módusz (leggyakrabban előforduló elem)

Szóródási mutatók Helyzeti: Helyzeti: –Maximum (standardizált értéke) –Minimum (standardizált értéke) –Terjedelem (max.-min.) –Kvartilisek (negyedelők) –Interkvartilis (Q 3 -Q 1 )/2 Számított: Számított: –Szórás –Variancia –Az átlag standard hibája –A medián standard hibája

Nem paraméteres eljárások Eloszlás egyezése egy adott eloszlással (egymintás próba)? Medián egyezése adott értékkel? CHI-NÉGYZET PRÓBA (RELATÍV GYAKORISÁGOK ÖSSZEHASONLÍTÁSA) ELŐJEL-PRÓBA Két eloszlás egyezése, homogenitás vizsgálat? Két várható érték egyezése? CHI-NÉGYZET PRÓBAELŐJEL-PRÓBA, MANN-WHITNEY, WILCOXON- PRÓBA Két esemény függetlenségének tesztje?Két összetartozó minta egyezése? FÜGGETLENSÉG VIZSGÁLAT, CHI- NÉGYZET PRÓBÁVAL WILCOXON-TESZT, ELŐJEL-PRÓBA Több várható érték egyezése? A mintavétel egy szempont alapján történik? KRUSKAL-WALLIS-PRÓBA (paraméteres: egytényezős variancia-analízis) Több várható érték egyezése? A mintavétel egy szempont alapján történik? Minta elemszámok azonosak? FRIEDMAN-TESZT (paraméteres: kéttényezős variancia-analízis)

Paraméteres eljárások 1. Várható érték? Várható érték egyezése adott értékkel? Szórás ismert? IgenNem EGYMINTÁS U-PRÓBAEGYMINTÁS T-PRÓBA Két várható érték egyezése? Az elméleti szórások ismertek? IgenNem KÉTMINTÁS U-PRÓBAKÉTMINTÁS T-PRÓBA Összetartozó adatpárok különbségének tesztelése? Az elméleti szórások ismertek? IgenNem PÁRONKÉNTI T-TESZT Több várható érték egyezése? A mintavétel egy szempont szerint történik? Szórások egyenlők? EGYTÉNYEZŐS VARIANCIA-ANALÍZIS WELCH, BROWN-FORSYTHE-PRÓBA

Paraméteres eljárások 2. Több várható érték egyezése? A mintavétel két szempont szerint történik? Szórások egyenlők? KÉTTÉNYEZŐS VARIANCIA-ANALÍZIS BROWN-FORSYTHE-PRÓBA Több várható érték egyezése? A mintavétel több szempont szerint történik? Szórások egyenlők? TÖBBTÉNYEZŐS VARIANCIA-ANALÍZIS SZÓRÁS Két szórás egyezése? Több szórás egyezése? Minták elemszáma egyenlő? F-PRÓBA LEVENE-TESZT LEVENE-TESZT, MAX. F-PRÓBA COCHRAN-PRÓBA BARTLETT-PRÓBA, LEVENE-TESZT

A normális eloszlás mint modell Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1) Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1)

Standardizálás

Standard normáleloszlás eloszlásfüggvénye

Standard normáleloszlás sűrűségfüggvénye

A normál eloszlás értékei α%μ ± σ 51,96 12,58 0,13,29

Standard normáleloszlás 95%-os valószínűségei

A statisztikai próba 1. A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 Ellenhipotézis, null hipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 A munka-hipotézist indirekt módon bizonyítjuk A munka-hipotézist indirekt módon bizonyítjuk A minta a nullhipotézist alátámasztja-e? A minta a nullhipotézist alátámasztja-e? Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Próbafüggvény előállítása Próbafüggvény előállítása

A statisztikai próba 2. A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2 A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2

Két középérték különbségének tesztelése Feltételek: Független minták Független minták Normális eloszlásúak Normális eloszlásúak Azonos szórás Azonos szórás

Két normál eloszlású, független minta különbségének szórása

A döntés és az elkövethető hibák

Elsőfajú hiba (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 igaz (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 igaz A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg Mi ennek a valószínűsége? Mi ennek a valószínűsége? α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani Szokásos értékei: 10; 5; 1; ritkán 0,1% Szokásos értékei: 10; 5; 1; ritkán 0,1%

Másodfajú hiba (H a ): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz (H a ): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg Mi ennek a valószínűsége? Mi ennek a valószínűsége? β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni

A statisztikai próba ereje A valódi különbség kimutatásának valószínűsége A valódi különbség kimutatásának valószínűsége P=1- β P=1- β Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba) Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba)

Az első- és másodfajú hiba csökkentése Minta elemszámának növelése Minta elemszámának növelése Pontosabb mintavételezés (szórás csökken) Pontosabb mintavételezés (szórás csökken) Lehet-e az első- és másodfajú hibát nullára csökkenteni? Lehet-e az első- és másodfajú hibát nullára csökkenteni? NEM NEM A véletlen hatásokat nem tudjuk kiiktatni A véletlen hatásokat nem tudjuk kiiktatni

% 1,96 29,5%6,2% Alfa és béta hiba

Nincs különbség

Meglévő  különbség

A várható érték 1 500kg/ha, a szórás  552kg/ha

Megfigyelések száma középérték különbségek becslésére ahol n 1 = n 2 = n z  = az elsőfajú hiba kritikus értéke az adott  szignifikancia-szinten (kétoldali szimmetrikus) z  = a másodfajú hiba kritikus értéke az adott  szignifikancia-szinten (egyoldali) s 2 = a minták varianciája h 2 = a tényleges különbség négyzete LOTHAR SACHS, 1985

Megfigyelések száma középérték különbségek becslésére Excelben

Egymintás t-teszt Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. H 0 :  1 =  0 H 0 :  1 =  0 Feltétel: Feltétel: –Normális eloszlású populáció, szigma ismeretlen és n>30. Próbastatisztika: (DF = n-1 ) Próbastatisztika: (DF = n-1 )

Kétmintás t-teszt (szórás azonos) Származhat-e a két független megfigyelés, minta azonos középértékű populációból? Származhat-e a két független megfigyelés, minta azonos középértékű populációból? H 0 :  1 =  2 H 0 :  1 =  2 Próbastatisztika: (DF = n 1 + n 2 – 2) Próbastatisztika: (DF = n 1 + n 2 – 2)

Kétmintás t-teszt (nem azonos szórás) Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: A próba valószínűségi változója ebben az esetben nem t- eloszlású, ezért nem a t-táblázatot, hanem a Bonferroni- módosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor A próba valószínűségi változója ebben az esetben nem t- eloszlású, ezért nem a t-táblázatot, hanem a Bonferroni- módosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor

Párosított t-próba Két összefüggő minta középértékének összehasonlítására szolgál Két összefüggő minta középértékének összehasonlítására szolgál H 0 : d átlag = 0 H 0 : d átlag = 0 Próbastatisztika: (DF = n 1 – 1) Próbastatisztika: (DF = n 1 – 1) s d a párosított minták különbségének szórása, becslése a minta alapján s d a párosított minták különbségének szórása, becslése a minta alapján

Párosított t-próba eredmény táblázatai