Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008.

Hasonló előadás


Az előadások a következő témára: "Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008."— Előadás másolata:

1 Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008

2 Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.

3 Mi az adatbázis Egy témakör vagy cél köré csoportosuló információ. Egy témakör vagy cél köré csoportosuló információ. Jó tervezés = hatékony adattárolás és kinyerés Jó tervezés = hatékony adattárolás és kinyerés Célorientált adatbázisok Célorientált adatbázisok

4 Adatbázis tervezés Milyen információt akarunk kinyerni? Milyen információt akarunk kinyerni? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Hogyan kapcsolódnak ezek egymáshoz? Hogyan kapcsolódnak ezek egymáshoz? Az egyes területeken belül milyen adatokat kell tárolni? Az egyes területeken belül milyen adatokat kell tárolni?

5 Adatbázis felépítése Tábla (table) Tábla (table) Mező (field) Mező (field) Rekord (record) Rekord (record) Űrlap (form)  adatbevitel Űrlap (form)  adatbevitel Adatmegjelenítés: Adatmegjelenítés:  kigyűjtés (find)  sorba rendezés (sort)  lekérdezés (query) Jelentések (report)  nyomtatás Jelentések (report)  nyomtatás

6 Tábla

7 Űrlap

8 Jelentések

9 A relációs adatbázis feltételei nem lehet két egyforma sora nem lehet két egyforma sora minden mezőnek egyedi neve van minden mezőnek egyedi neve van a sorok és oszlopok sorrendje tetszőleges a sorok és oszlopok sorrendje tetszőleges ne tartalmazzon származtatott, kiszámított adatot (redundancia) ne tartalmazzon származtatott, kiszámított adatot (redundancia) egy mező megváltoztatása nem hathat ki más mezőkre egy mező megváltoztatása nem hathat ki más mezőkre a mezők elemi információt tartalmazzanak a mezők elemi információt tartalmazzanak minden szükséges adatot tartalmaz minden szükséges adatot tartalmaz van elsődleges kulcsa van elsődleges kulcsa

10 Normalizálás Az adatok ésszerű csoportosítása Az adatok ésszerű csoportosítása 1NF... 3NF... 5NF 1NF... 3NF... 5NF Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. 3NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ 3NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ

11 Kapcsolatok egy az egyhez egy az egyhez egy a többhöz egy a többhöz több a többhöz (kapcsoló tábla) több a többhöz (kapcsoló tábla)

12 Relációs adatbázis- kezelők Oracle Oracle MS Access MS Access dBase dBase SQL SQL Excel Excel stb. stb.

13 A statisztika feladata Mennyire hihetők a kísérletek, megfigyelések megállapításai? Mennyire hihetők a kísérletek, megfigyelések megállapításai? Mennyiben játszik szerepet a véletlen? Mennyiben játszik szerepet a véletlen? Minta alapján becslés, válasz valószínűségi állítás formájában Minta alapján becslés, válasz valószínűségi állítás formájában Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés) Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés)

14 Statisztikai módszerek Sztochasztika Sztochasztika Valószínűségszámítás Valószínűségszámítás Megfigyelések értékelése Megfigyelések értékelése Bizonytalanság okainak felderítése Bizonytalanság okainak felderítése Döntéshozatal Döntéshozatal

15 Valószínűségek Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) P(E) bekövetkezési valószínűség (0,00-1,00) P(E) bekövetkezési valószínűség (0,00-1,00) Relatív gyakoriság (%) Relatív gyakoriság (%)

16 Függetlenség Komplementer (kiegészítő) esemény Komplementer (kiegészítő) esemény Feltételes valószínűség Feltételes valószínűség Sztochasztikus függetlenség Sztochasztikus függetlenség

17 Ismérv, alapsokaság, minta Kvantitatív és kvalitatív ismérvek Kvantitatív és kvalitatív ismérvek Összes lehetséges előfordulás = alapsokaság Összes lehetséges előfordulás = alapsokaság Mintavétel: olcsó, gyors, egzakt Mintavétel: olcsó, gyors, egzakt

18 Véletlen mintavétel, szisztematikus hiba Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Szelekció Szelekció Reprezentativitás Reprezentativitás

19 Paraméter Minta adataiból az alapsokaság adataira következtetünk Minta adataiból az alapsokaság adataira következtetünk Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) A minta középértékéből az alapsokaság középértékére következtetünk A minta középértékéből az alapsokaság középértékére következtetünk Megbízhatósági intervallum Megbízhatósági intervallum Statisztikai próba Statisztikai próba

20 Véletlen minta előállítása Véletlen szám generátor Véletlen szám generátor Pszeudó véletlen szám generátor Pszeudó véletlen szám generátor Rnd() függvény Rnd() függvény Excel Vél() függvénye Excel Vél() függvénye VÉL()*(b-a)+a VÉL()*(b-a)+a

21 Mintavételi eljárások N=1 500 és 3 000 között N=1 500 és 3 000 között Egynemű (homogén) alapsokaság mintái Egynemű (homogén) alapsokaság mintái Nem egynemű (heterogén) alapsokaság mintái Nem egynemű (heterogén) alapsokaság mintái –Csoportba rendezett (csomók) –Nem rendezett csoportba (rétegképzés) Blokk képzés (homogén csoportok kialakítása Blokk képzés (homogén csoportok kialakítása

22 Statisztikai becslés Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai

23 A jó becslés kritériumai Torzítatlanság (várható érték) Torzítatlanság (várható érték) Pontosság (szórás) Pontosság (szórás) Konzisztencia Konzisztencia

24 Torzítatlan és konzisztens becslés Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan becslés, amely a minta n elemszámának növekedésével (n   ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel) Olyan becslés, amely a minta n elemszámának növekedésével (n   ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel)

25 Pontos és torzítatlan becslés

26 Pontos és torzított becslés

27 Pontatlan és torzítatlan becslés

28 Pontatlan és torzított becslés

29 Centrális mutatók Átlag (várható érték) Átlag (várható érték) Medián (középső adat, gyakran helyettesíti a számtani közepet) Medián (középső adat, gyakran helyettesíti a számtani közepet) Módusz (leggyakrabban előforduló elem) Módusz (leggyakrabban előforduló elem)

30 Szóródási mutatók Helyzeti: Helyzeti: –Maximum (standardizált értéke) –Minimum (standardizált értéke) –Terjedelem (max.-min.) –Kvartilisek (negyedelők) –Interkvartilis (Q 3 -Q 1 )/2 Számított: Számított: –Szórás –Variancia –Az átlag standard hibája –A medián standard hibája

31 Nem paraméteres eljárások Eloszlás egyezése egy adott eloszlással (egymintás próba)? Medián egyezése adott értékkel? CHI-NÉGYZET PRÓBA (RELATÍV GYAKORISÁGOK ÖSSZEHASONLÍTÁSA) ELŐJEL-PRÓBA Két eloszlás egyezése, homogenitás vizsgálat? Két várható érték egyezése? CHI-NÉGYZET PRÓBAELŐJEL-PRÓBA, MANN-WHITNEY, WILCOXON- PRÓBA Két esemény függetlenségének tesztje?Két összetartozó minta egyezése? FÜGGETLENSÉG VIZSGÁLAT, CHI- NÉGYZET PRÓBÁVAL WILCOXON-TESZT, ELŐJEL-PRÓBA Több várható érték egyezése? A mintavétel egy szempont alapján történik? KRUSKAL-WALLIS-PRÓBA (paraméteres: egytényezős variancia-analízis) Több várható érték egyezése? A mintavétel egy szempont alapján történik? Minta elemszámok azonosak? FRIEDMAN-TESZT (paraméteres: kéttényezős variancia-analízis)

32 Paraméteres eljárások 1. Várható érték? Várható érték egyezése adott értékkel? Szórás ismert? IgenNem EGYMINTÁS U-PRÓBAEGYMINTÁS T-PRÓBA Két várható érték egyezése? Az elméleti szórások ismertek? IgenNem KÉTMINTÁS U-PRÓBAKÉTMINTÁS T-PRÓBA Összetartozó adatpárok különbségének tesztelése? Az elméleti szórások ismertek? IgenNem PÁRONKÉNTI T-TESZT Több várható érték egyezése? A mintavétel egy szempont szerint történik? Szórások egyenlők? EGYTÉNYEZŐS VARIANCIA-ANALÍZIS WELCH, BROWN-FORSYTHE-PRÓBA

33 Paraméteres eljárások 2. Több várható érték egyezése? A mintavétel két szempont szerint történik? Szórások egyenlők? KÉTTÉNYEZŐS VARIANCIA-ANALÍZIS BROWN-FORSYTHE-PRÓBA Több várható érték egyezése? A mintavétel több szempont szerint történik? Szórások egyenlők? TÖBBTÉNYEZŐS VARIANCIA-ANALÍZIS SZÓRÁS Két szórás egyezése? Több szórás egyezése? Minták elemszáma egyenlő? F-PRÓBA LEVENE-TESZT LEVENE-TESZT, MAX. F-PRÓBA COCHRAN-PRÓBA BARTLETT-PRÓBA, LEVENE-TESZT

34 A normális eloszlás mint modell Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1) Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1)

35 Standardizálás

36 Standard normáleloszlás eloszlásfüggvénye

37 Standard normáleloszlás sűrűségfüggvénye

38 A normál eloszlás értékei α%μ ± σ 51,96 12,58 0,13,29

39 Standard normáleloszlás 95%-os valószínűségei

40 A statisztikai próba 1. A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 Ellenhipotézis, null hipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 A munka-hipotézist indirekt módon bizonyítjuk A munka-hipotézist indirekt módon bizonyítjuk A minta a nullhipotézist alátámasztja-e? A minta a nullhipotézist alátámasztja-e? Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Próbafüggvény előállítása Próbafüggvény előállítása

41 A statisztikai próba 2. A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2 A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2

42 Két középérték különbségének tesztelése Feltételek: Független minták Független minták Normális eloszlásúak Normális eloszlásúak Azonos szórás Azonos szórás

43 Két normál eloszlású, független minta különbségének szórása

44 A döntés és az elkövethető hibák

45 Elsőfajú hiba (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 igaz (H 0 ): μ 1 = μ 2, vagy μ 1 - μ 2 =0 igaz A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg Mi ennek a valószínűsége? Mi ennek a valószínűsége? α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani Szokásos értékei: 10; 5; 1; ritkán 0,1% Szokásos értékei: 10; 5; 1; ritkán 0,1%

46 Másodfajú hiba (H a ): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz (H a ): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg Mi ennek a valószínűsége? Mi ennek a valószínűsége? β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni

47 A statisztikai próba ereje A valódi különbség kimutatásának valószínűsége A valódi különbség kimutatásának valószínűsége P=1- β P=1- β Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba) Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba)

48 Az első- és másodfajú hiba csökkentése Minta elemszámának növelése Minta elemszámának növelése Pontosabb mintavételezés (szórás csökken) Pontosabb mintavételezés (szórás csökken) Lehet-e az első- és másodfajú hibát nullára csökkenteni? Lehet-e az első- és másodfajú hibát nullára csökkenteni? NEM NEM A véletlen hatásokat nem tudjuk kiiktatni A véletlen hatásokat nem tudjuk kiiktatni

49 -4-20246810 95% 1,96 29,5%6,2% Alfa és béta hiba

50 Nincs különbség

51 Meglévő  különbség

52 A várható érték 1 500kg/ha, a szórás  552kg/ha

53 Megfigyelések száma középérték különbségek becslésére ahol n 1 = n 2 = n z  = az elsőfajú hiba kritikus értéke az adott  szignifikancia-szinten (kétoldali szimmetrikus) z  = a másodfajú hiba kritikus értéke az adott  szignifikancia-szinten (egyoldali) s 2 = a minták varianciája h 2 = a tényleges különbség négyzete LOTHAR SACHS, 1985

54 Megfigyelések száma középérték különbségek becslésére Excelben

55 Egymintás t-teszt Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. H 0 :  1 =  0 H 0 :  1 =  0 Feltétel: Feltétel: –Normális eloszlású populáció, szigma ismeretlen és n>30. Próbastatisztika: (DF = n-1 ) Próbastatisztika: (DF = n-1 )

56 Kétmintás t-teszt (szórás azonos) Származhat-e a két független megfigyelés, minta azonos középértékű populációból? Származhat-e a két független megfigyelés, minta azonos középértékű populációból? H 0 :  1 =  2 H 0 :  1 =  2 Próbastatisztika: (DF = n 1 + n 2 – 2) Próbastatisztika: (DF = n 1 + n 2 – 2)

57 Kétmintás t-teszt (nem azonos szórás) Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: A próba valószínűségi változója ebben az esetben nem t- eloszlású, ezért nem a t-táblázatot, hanem a Bonferroni- módosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor A próba valószínűségi változója ebben az esetben nem t- eloszlású, ezért nem a t-táblázatot, hanem a Bonferroni- módosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor

58 Párosított t-próba Két összefüggő minta középértékének összehasonlítására szolgál Két összefüggő minta középértékének összehasonlítására szolgál H 0 : d átlag = 0 H 0 : d átlag = 0 Próbastatisztika: (DF = n 1 – 1) Próbastatisztika: (DF = n 1 – 1) s d a párosított minták különbségének szórása, becslése a minta alapján s d a párosított minták különbségének szórása, becslése a minta alapján

59 Párosított t-próba eredmény táblázatai


Letölteni ppt "Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen2008."

Hasonló előadás


Google Hirdetések