Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008
Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell. szám szöveg dátum hang kép, stb.
Mi az adatbázis Egy témakör vagy cél köré csoportosuló információ. Egy témakör vagy cél köré csoportosuló információ. Jó tervezés = hatékony adattárolás és kinyerés Jó tervezés = hatékony adattárolás és kinyerés Célorientált adatbázisok Célorientált adatbázisok
Adatbázis tervezés Milyen információt akarunk kinyerni? Milyen információt akarunk kinyerni? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Hogyan kapcsolódnak ezek egymáshoz? Hogyan kapcsolódnak ezek egymáshoz? Az egyes területeken belül milyen adatokat kell tárolni? Az egyes területeken belül milyen adatokat kell tárolni?
Adatbázis felépítése Tábla (table) Tábla (table) Mező (field) Mező (field) Rekord (record) Rekord (record) Űrlap (form) adatbevitel Űrlap (form) adatbevitel Adatmegjelenítés: Adatmegjelenítés: kigyűjtés (find) sorba rendezés (sort) lekérdezés (query) Jelentések (report) nyomtatás Jelentések (report) nyomtatás
Tábla
Űrlap
Jelentések
A relációs adatbázis feltételei nem lehet két egyforma sora nem lehet két egyforma sora minden mezőnek egyedi neve van minden mezőnek egyedi neve van a sorok és oszlopok sorrendje tetszőleges a sorok és oszlopok sorrendje tetszőleges ne tartalmazzon származtatott, kiszámított adatot (redundancia) ne tartalmazzon származtatott, kiszámított adatot (redundancia) egy mező megváltoztatása nem hathat ki más mezőkre egy mező megváltoztatása nem hathat ki más mezőkre a mezők elemi információt tartalmazzanak a mezők elemi információt tartalmazzanak minden szükséges adatot tartalmaz minden szükséges adatot tartalmaz van elsődleges kulcsa van elsődleges kulcsa
Normalizálás Az adatok ésszerű csoportosítása Az adatok ésszerű csoportosítása 1NF... 3NF... 5NF 1NF... 3NF... 5NF Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. 3NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ 3NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ
Kapcsolatok egy az egyhez egy az egyhez egy a többhöz egy a többhöz több a többhöz (kapcsoló tábla) több a többhöz (kapcsoló tábla)
Relációs adatbázis- kezelők Oracle Oracle MS Access MS Access dBase dBase SQL SQL Excel Excel stb. stb.
A statisztika feladata Mennyire hihetők a kísérletek, megfigyelések megállapításai? Mennyire hihetők a kísérletek, megfigyelések megállapításai? Mennyiben játszik szerepet a véletlen? Mennyiben játszik szerepet a véletlen? Minta alapján becslés, válasz valószínűségi állítás formájában Minta alapján becslés, válasz valószínűségi állítás formájában Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés) Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés)
Statisztikai módszerek Sztochasztika Sztochasztika Valószínűségszámítás Valószínűségszámítás Megfigyelések értékelése Megfigyelések értékelése Bizonytalanság okainak felderítése Bizonytalanság okainak felderítése Döntéshozatal Döntéshozatal
Valószínűségek Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) P(E) bekövetkezési valószínűség (0,00-1,00) P(E) bekövetkezési valószínűség (0,00-1,00) Relatív gyakoriság (%) Relatív gyakoriság (%)
Függetlenség Komplementer (kiegészítő) esemény Komplementer (kiegészítő) esemény Feltételes valószínűség Feltételes valószínűség Sztochasztikus függetlenség Sztochasztikus függetlenség
Ismérv, alapsokaság, minta Kvantitatív és kvalitatív ismérvek Kvantitatív és kvalitatív ismérvek Összes lehetséges előfordulás = alapsokaság Összes lehetséges előfordulás = alapsokaság Mintavétel: olcsó, gyors, egzakt Mintavétel: olcsó, gyors, egzakt
Véletlen mintavétel, szisztematikus hiba Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Szelekció Szelekció Reprezentativitás Reprezentativitás
Paraméter Minta adataiból az alapsokaság adataira következtetünk Minta adataiból az alapsokaság adataira következtetünk Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) A minta középértékéből az alapsokaság középértékére következtetünk A minta középértékéből az alapsokaság középértékére következtetünk Megbízhatósági intervallum Megbízhatósági intervallum Statisztikai próba Statisztikai próba
Véletlen minta előállítása Véletlen szám generátor Véletlen szám generátor Pszeudó véletlen szám generátor Pszeudó véletlen szám generátor Rnd() függvény Rnd() függvény Excel Vél() függvénye Excel Vél() függvénye VÉL()*(b-a)+a VÉL()*(b-a)+a
Mintavételi eljárások N=1 500 és között N=1 500 és között Egynemű (homogén) alapsokaság mintái Egynemű (homogén) alapsokaság mintái Nem egynemű (heterogén) alapsokaság mintái Nem egynemű (heterogén) alapsokaság mintái –Csoportba rendezett (csomók) –Nem rendezett csoportba (rétegképzés) Blokk képzés (homogén csoportok kialakítása Blokk képzés (homogén csoportok kialakítása
Statisztikai becslés Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai
A jó becslés kritériumai Torzítatlanság (várható érték) Torzítatlanság (várható érték) Pontosság (szórás) Pontosság (szórás) Konzisztencia Konzisztencia
Torzítatlan és konzisztens becslés Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan becslés, amely a minta n elemszámának növekedésével (n ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel) Olyan becslés, amely a minta n elemszámának növekedésével (n ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel)
Pontos és torzítatlan becslés
Pontos és torzított becslés
Pontatlan és torzítatlan becslés
Pontatlan és torzított becslés
Centrális mutatók Átlag (várható érték) Átlag (várható érték) Medián (középső adat, gyakran helyettesíti a számtani közepet) Medián (középső adat, gyakran helyettesíti a számtani közepet) Módusz (leggyakrabban előforduló elem) Módusz (leggyakrabban előforduló elem)
Szóródási mutatók Helyzeti: Helyzeti: –Maximum (standardizált értéke) –Minimum (standardizált értéke) –Terjedelem (max.-min.) –Kvartilisek (negyedelők) –Interkvartilis (Q 3 -Q 1 )/2 Számított: Számított: –Szórás –Variancia –Az átlag standard hibája –A medián standard hibája
Nem paraméteres eljárások Eloszlás egyezése egy adott eloszlással (egymintás próba)? Medián egyezése adott értékkel? CHI-NÉGYZET PRÓBA (RELATÍV GYAKORISÁGOK ÖSSZEHASONLÍTÁSA) ELŐJEL-PRÓBA Két eloszlás egyezése, homogenitás vizsgálat? Két várható érték egyezése? CHI-NÉGYZET PRÓBAELŐJEL-PRÓBA, MANN-WHITNEY, WILCOXON- PRÓBA Két esemény függetlenségének tesztje?Két összetartozó minta egyezése? FÜGGETLENSÉG VIZSGÁLAT, CHI- NÉGYZET PRÓBÁVAL WILCOXON-TESZT, ELŐJEL-PRÓBA Több várható érték egyezése? A mintavétel egy szempont alapján történik? KRUSKAL-WALLIS-PRÓBA (paraméteres: egytényezős variancia-analízis) Több várható érték egyezése? A mintavétel egy szempont alapján történik? Minta elemszámok azonosak? FRIEDMAN-TESZT (paraméteres: kéttényezős variancia-analízis)
Paraméteres eljárások 1. Várható érték? Várható érték egyezése adott értékkel? Szórás ismert? IgenNem EGYMINTÁS U-PRÓBAEGYMINTÁS T-PRÓBA Két várható érték egyezése? Az elméleti szórások ismertek? IgenNem KÉTMINTÁS U-PRÓBAKÉTMINTÁS T-PRÓBA Összetartozó adatpárok különbségének tesztelése? Az elméleti szórások ismertek? IgenNem PÁRONKÉNTI T-TESZT Több várható érték egyezése? A mintavétel egy szempont szerint történik? Szórások egyenlők? EGYTÉNYEZŐS VARIANCIA-ANALÍZIS WELCH, BROWN-FORSYTHE-PRÓBA
Paraméteres eljárások 2. Több várható érték egyezése? A mintavétel két szempont szerint történik? Szórások egyenlők? KÉTTÉNYEZŐS VARIANCIA-ANALÍZIS BROWN-FORSYTHE-PRÓBA Több várható érték egyezése? A mintavétel több szempont szerint történik? Szórások egyenlők? TÖBBTÉNYEZŐS VARIANCIA-ANALÍZIS SZÓRÁS Két szórás egyezése? Több szórás egyezése? Minták elemszáma egyenlő? F-PRÓBA LEVENE-TESZT LEVENE-TESZT, MAX. F-PRÓBA COCHRAN-PRÓBA BARTLETT-PRÓBA, LEVENE-TESZT
A normális eloszlás mint modell Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1) Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1)
Standardizálás
Standard normáleloszlás eloszlásfüggvénye
Standard normáleloszlás sűrűségfüggvénye
A normál eloszlás értékei α%μ ± σ 51,96 12,58 0,13,29
Standard normáleloszlás 95%-os valószínűségei
A statisztikai próba 1. A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 Ellenhipotézis, null hipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 A munka-hipotézist indirekt módon bizonyítjuk A munka-hipotézist indirekt módon bizonyítjuk A minta a nullhipotézist alátámasztja-e? A minta a nullhipotézist alátámasztja-e? Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Próbafüggvény előállítása Próbafüggvény előállítása
A statisztikai próba 2. A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2 A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2
Két középérték különbségének tesztelése Feltételek: Független minták Független minták Normális eloszlásúak Normális eloszlásúak Azonos szórás Azonos szórás
Két normál eloszlású, független minta különbségének szórása
A döntés és az elkövethető hibák
Elsőfajú hiba (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 igaz (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 igaz A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg Mi ennek a valószínűsége? Mi ennek a valószínűsége? α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani Szokásos értékei: 10; 5; 1; ritkán 0,1% Szokásos értékei: 10; 5; 1; ritkán 0,1%
Másodfajú hiba (H a ): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz (H a ): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg Mi ennek a valószínűsége? Mi ennek a valószínűsége? β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni
A statisztikai próba ereje A valódi különbség kimutatásának valószínűsége A valódi különbség kimutatásának valószínűsége P=1- β P=1- β Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba) Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba)
Az első- és másodfajú hiba csökkentése Minta elemszámának növelése Minta elemszámának növelése Pontosabb mintavételezés (szórás csökken) Pontosabb mintavételezés (szórás csökken) Lehet-e az első- és másodfajú hibát nullára csökkenteni? Lehet-e az első- és másodfajú hibát nullára csökkenteni? NEM NEM A véletlen hatásokat nem tudjuk kiiktatni A véletlen hatásokat nem tudjuk kiiktatni
% 1,96 29,5%6,2% Alfa és béta hiba
Nincs különbség
Meglévő különbség
A várható érték 1 500kg/ha, a szórás 552kg/ha
Megfigyelések száma középérték különbségek becslésére ahol n 1 = n 2 = n z = az elsőfajú hiba kritikus értéke az adott szignifikancia-szinten (kétoldali szimmetrikus) z = a másodfajú hiba kritikus értéke az adott szignifikancia-szinten (egyoldali) s 2 = a minták varianciája h 2 = a tényleges különbség négyzete LOTHAR SACHS, 1985
Megfigyelések száma középérték különbségek becslésére Excelben
Egymintás t-teszt Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. H 0 : 1 = 0 H 0 : 1 = 0 Feltétel: Feltétel: –Normális eloszlású populáció, szigma ismeretlen és n>30. Próbastatisztika: (DF = n-1 ) Próbastatisztika: (DF = n-1 )
Kétmintás t-teszt (szórás azonos) Származhat-e a két független megfigyelés, minta azonos középértékű populációból? Származhat-e a két független megfigyelés, minta azonos középértékű populációból? H 0 : 1 = 2 H 0 : 1 = 2 Próbastatisztika: (DF = n 1 + n 2 – 2) Próbastatisztika: (DF = n 1 + n 2 – 2)
Kétmintás t-teszt (nem azonos szórás) Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: A próba valószínűségi változója ebben az esetben nem t- eloszlású, ezért nem a t-táblázatot, hanem a Bonferroni- módosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor A próba valószínűségi változója ebben az esetben nem t- eloszlású, ezért nem a t-táblázatot, hanem a Bonferroni- módosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor
Párosított t-próba Két összefüggő minta középértékének összehasonlítására szolgál Két összefüggő minta középértékének összehasonlítására szolgál H 0 : d átlag = 0 H 0 : d átlag = 0 Próbastatisztika: (DF = n 1 – 1) Próbastatisztika: (DF = n 1 – 1) s d a párosított minták különbségének szórása, becslése a minta alapján s d a párosított minták különbségének szórása, becslése a minta alapján
Párosított t-próba eredmény táblázatai