E-mail: geresdi@gamma.ttk.pte.hu Geostatisztika prof. Geresdi István e-mail: geresdi@gamma.ttk.pte.hu szoba szám: E537.

Slides:



Advertisements
Hasonló előadás
Gazdaságstatisztika, 2015 RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA Gazdaságstatisztika október 20.
Advertisements

Hullámmozgás. Hullámmozgás  A lazán felfüggesztett gumiszalagra merőlegesen ráütünk, akkor a gumiszalag megütött része rezgőmozgást végez.
Paraméteres próbák- konzultáció október 21..
Kockázat és megbízhatóság
Gazdasági informatika - bevezető
tananyag =előadások és gyakorlatok anyaga (írott és elmondott is)
Valószínűségi kísérletek
Bevezetés Biometria I. Molnár Péter Állattani Tanszék
Muraközy Balázs: Mely vállalatok válnak gazellává?
2. előadás Viszonyszámok
Adatbázis normalizálás
Leíró statisztika Becslés
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
Komplex természettudomány 9.évfolyam
Lineáris regresszió Adatelemzés.
A szórás típusú egyenlőtlenségi mutatók
Egy üzemben sok gyártósoron gyártanak egy bizonyos elektronikai alkatrészt. Az alkatrészek ellenállását időnként ellenőrzik úgy, hogy egy munkás odamegy.
Kockázat és megbízhatóság
Szigorlati felkészítő Kvantitatív módszerek
Becsléselmélet - Konzultáció
Kockázat és megbízhatóság
Kockázat és megbízhatóság
Végeselemes modellezés matematikai alapjai
Kockázat és megbízhatóság
Kvantitatív módszerek
Eloszlásjellemzők I.: Középértékek
Hipotézisvizsgálat.
Kvantitatív módszerek
A naptevékenységi ciklus vizsgálata a zöld koronavonal alapján
Mintavételes eljárások
Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák
Gazdaságstatisztika Korreláció- és regressziószámítás II.
FÜGGVÉNYEK Legyen adott A és B két nem üres (szám)halmaz. Az A halmaz minden eleméhez rendeljük hozzá a B halmaz pontosan egy elemét. Ezt az egyértelmű.
INFOÉRA 2006 Véletlenszámok
MINTAVÉTEL, LEÍRÓ STATISZTIKAI MUTATÓSZÁMOK
Összefüggés vizsgálatok
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Földrajzi összefüggések elemzése: sztochasztikus módszerek
Kvantitatív módszerek
? A modell illesztése a kísérleti adatokhoz
Kvantitatív módszerek
Standardizálás.
Turbulencia hatása a tartózkodási zóna légtechnikai komfortjára
Regressziós modellek Regressziószámítás.
STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság
Sztochasztikus kapcsolatok I. Asszociáció
Munkanélküliség.
AVL fák.
3, u-próba, t-próba Kemometria 2016/2017 3, u-próba, t-próba
Dr. Varga Beatrix egy. docens
Gazdaságinformatikus MSc
3. előadás.
Alkalmazott statisztikai alapok
Matematikai Analízis elemei
Földrajzi összefüggések elemzése: sztochasztikus módszerek
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
Járműtelepi rendszermodell 2.
Dr. Varga Beatrix egyetemi docens
A területi koncentráció mérése: Hirschman–Herfindahl index
Paraméteres próbák Adatelemzés.
Lorenz-görbe dr. Jeney László egyetemi adjunktus
Kísérlettervezés 2018/19.
3. előadás.
A geometriai transzformációk
Várhatóérték, szórás
Hagyományos megjelenítés
FÜGGVÉNYEK ÉS GRAFIKONJUK
Hipotéziselmélet Adatelemzés.
Vargha András KRE és ELTE, Pszichológiai Intézet
Előadás másolata:

e-mail: geresdi@gamma.ttk.pte.hu Geostatisztika prof. Geresdi István e-mail: geresdi@gamma.ttk.pte.hu szoba szám: E537

Véletlen esemény fogalma: Amikor az általunk megfigyelt jelenség kimenetelét a figyelembe vett, vagy figyelembe nem vett hatások nem határozzák meg egyértelműen. pl. mérési eredmények , gazdasági, szociológiai adatok Minden véletlen eseménynek több, esetleg végtelen sok kimenetele lehetséges: pl. kocka dobás, hőmérséklet mérés

Relatív gyakoriság: Egy esemény relatív gyakorisága az a szám, amely megmutatja, hogy az összes megfigyelt esemény mekkora hányadában következik be az esemény Az a számérték, amely körül valamely – azonos körülmények között vizsgált – véletlen esemény relatív gyakorisága ingadozik az illető esemény valószínűsége

Észlelési sorok matematikai statisztikai jellemszámai: a) Várható érték: b) Szórás:

Nem súlyozott átlag: 533,3 mm Súlyozott átlag: 467,9 mm c) Súlyozott átlag: a1 = 50 km2 I1 = 800 mm a3 = 120 km2 I3 = 300 mm a2 = 110 km2 I2 = 500 mm Nem súlyozott átlag: 533,3 mm Súlyozott átlag: 467,9 mm

d) Köppen-féle aszimmetria: n az összes esetek száma, na az M várható értéknél kisebb értékhez tartozó esetek száma év éves átlag hőm. 2000 12,2 2001 11,1 2002 13,3 2003 14,5 2004 12,1 2005 11,9 2006 10,8 2007 12,9 2008 11,0 2009 12,4 M = 12,2 na = 6 KA = -0.2

Az adatok nagyság szerinti sorba rendezése után e) Medián: Az adatok nagyság szerinti sorba rendezése után év éves átlag hőm. 2000 12,2 2001 11,1 2002 13,3 2003 14,5 2004 12,1 2005 11,9 2006 10,8 2007 12,9 2008 11,0 2009 12,4 10,8 11 11,1 11,9 12,1 12,2 12,4 12,9 13,3 14,5 me = 12,15

f) Módusz: leggyakoribb érték A módusz nem feltétlen egyezik meg a várható értékkel.

Empirikus eloszlás- és sűrűségfüggvények előállítása megfigyelési adatokból Eloszlásfüggvény készítése: - Megfigyelési adatok sorba rendezése nagyság szerint. - Relatív gyakoriság meghatározása egy adott xa értéknél: azon esetek száma, ahol x < xa teljes esetszám év éves átlag hőm. 2000 12,2 2001 11,1 2002 13,3 2003 14,5 2004 12,1 2005 11,9 2006 10,8 2007 12,9 2008 11,0 2009 12,4 10,8 11 11,1 11,9 12,1 12,2 12,4 12,9 13,3 14,5 k F(xa) 10 11 1 0,1 12 4 0,4 13 8 0,8 14 9 0,9 15 1,0

Jellemzők: a) Monoton növekvő függvény. b) Értékkészlet 0 és 1 között. me (medián) ≈ 12,15 Megadja, hogy milyen valószínűséggel fordulnak elő adott xa értéknél kisebb értékek. Pl. a hőmérséklet 25%-os valószínűséggel kisebb mint 11.5 C. Az empirikus eloszlás függvény értelmezése:

me ≈ 27,5 Maximum hőmérséklet Budapesten július 1-én év tmax 1901 27,2 1921 28,3 1941 24,7 1902 32 1922 22,5 1942 1903 25,5 1923 1943 17,8 1904 27,3 1924 30,2 1944 25 1905 32,1 1925 22,6 1945 25,4 1906 1926 18,2 1946 32,8 1907 32,5 1927 33,7 1947 34,1 1908 26,5 1928 31 1948 17 1909 19,2 1929 25,9 1949 21,8 1910 29,9 1930 1950 38,3 1911 24,1 1931 30,8 1951 23,1 1912 28,9 1932 31,8 1952 32,4 1913 14,4 1933 22,9 1953 28,6 1914 21,3 1934 25,1 1954 31,4 1915 20,8 1935 30,3 1955 25,3 1916 28 1936 1956 1917 31,3 1937 1957 33 1918 21,2 1938 32,9 1958 26,7 1919 1939 1959 1920 31,1 1940 27,8 1960 17,3 me ≈ 27,5

b) Empirikus sűrűségfüggvény (hisztogram) készítése: - Megfigyelési adatok sorba rendezése nagyság szerint. - Intervallum beosztás meghatározása. - Egy intervallumba eső esetek számának meghatározása. - Függvény értékének meghatározása: i-ik intervallumba eső esetek száma intervallum szélessége teljes esetszám

év éves átlag hőm. 2000 12,2 2001 11,1 2002 13,3 2003 14,5 2004 12,1 2005 11,9 2006 10,8 2007 12,9 2008 11,0 2009 12,4 10,8 11 11,1 11,9 12,1 12,2 12,4 12,9 13,3 14,5 k f(xi) 10-10,9 1 0,1 11-11,9 3 0,3 12-12,9 4 0,4 13-13,9 14-14,9 10 1,0

b) görbe alatti terület egységnyi. k f(xi) 10-10,9 1 0,1 11-11,9 3 0,3 12-12,9 4 0,4 13-13,9 14-14,9 10 Fontosabb jellemzők: a) f(x) ≥ 0, b) görbe alatti terület egységnyi. Terület= milyen valószínűséggel fordulnak elő az adatok az [x1,x2] intervallumban x1 x2 0,4 f(x) módusz: 12 – 13 közötti értékek (leggyakoribb értékek) 0,3 0,2 0,1 10 11 12 13 14 15 x

Maximum hőmérséklet Budapesten július 1-én év tmax 1901 27,2 1921 28,3 1941 24,7 1902 32 1922 22,5 1942 1903 25,5 1923 1943 17,8 1904 27,3 1924 30,2 1944 25 1905 32,1 1925 22,6 1945 25,4 1906 1926 18,2 1946 32,8 1907 32,5 1927 33,7 1947 34,1 1908 26,5 1928 31 1948 17 1909 19,2 1929 25,9 1949 21,8 1910 29,9 1930 1950 38,3 1911 24,1 1931 30,8 1951 23,1 1912 28,9 1932 31,8 1952 32,4 1913 14,4 1933 22,9 1953 28,6 1914 21,3 1934 25,1 1954 31,4 1915 20,8 1935 30,3 1955 25,3 1916 28 1936 1956 1917 31,3 1937 1957 33 1918 21,2 1938 32,9 1958 26,7 1919 1939 1959 1920 31,1 1940 27,8 1960 17,3 intervallum ki f(xi) 14-15 1 0.017 15-16 0.000 16-17 17-18 3 0.050 18-19 19-20 20-21 21-22 6 0.100 22-23 23-24 24-25 25-26 26-27 2 0.033 27-28 4 0.067 28-29 5 0.083 29-30 30-31 31-32 32-33 8 0.133 33-34 34-35 35-36 36-37 37-38 38-39   60

Maximum hőmérséklet Budapesten július 1-én év tmax 1901 27,2 1921 28,3 1941 24,7 1902 32 1922 22,5 1942 1903 25,5 1923 1943 17,8 1904 27,3 1924 30,2 1944 25 1905 32,1 1925 22,6 1945 25,4 1906 1926 18,2 1946 32,8 1907 32,5 1927 33,7 1947 34,1 1908 26,5 1928 31 1948 17 1909 19,2 1929 25,9 1949 21,8 1910 29,9 1930 1950 38,3 1911 24,1 1931 30,8 1951 23,1 1912 28,9 1932 31,8 1952 32,4 1913 14,4 1933 22,9 1953 28,6 1914 21,3 1934 25,1 1954 31,4 1915 20,8 1935 30,3 1955 25,3 1916 28 1936 1956 1917 31,3 1937 1957 33 1918 21,2 1938 32,9 1958 26,7 1919 1939 1959 1920 31,1 1940 27,8 1960 17,3 intervallum ki f(xi) 14-16 1 0.0083 16-18 4 0.0333 18-20 2 0.0167 20-22 7 0.0583 22-24 24-26 9 0.0750 26-28 6 0.0500 28-30 30-32 10 0.0833 32-34 34-36 36-38   60

átlag hőmérséklet: 26,7 C módusz: 30 – 32 C közötti értékek

Maximum hőmérséklet Budapesten július 1-én év tmax 1901 27,2 1921 28,3 1941 24,7 1902 32 1922 22,5 1942 1903 25,5 1923 1943 17,8 1904 27,3 1924 30,2 1944 25 1905 32,1 1925 22,6 1945 25,4 1906 1926 18,2 1946 32,8 1907 32,5 1927 33,7 1947 34,1 1908 26,5 1928 31 1948 17 1909 19,2 1929 25,9 1949 21,8 1910 29,9 1930 1950 38,3 1911 24,1 1931 30,8 1951 23,1 1912 28,9 1932 31,8 1952 32,4 1913 14,4 1933 22,9 1953 28,6 1914 21,3 1934 25,1 1954 31,4 1915 20,8 1935 30,3 1955 25,3 1916 28 1936 1956 1917 31,3 1937 1957 33 1918 21,2 1938 32,9 1958 26,7 1919 1939 1959 1920 31,1 1940 27,8 1960 17,3 intervallum ki f(xi) 10-14 0.000 14-18 5 0.021 18-22 9 0.038 22-26 13 0.054 26-30 12 0.050 30-34 19 0.079 34-38 1 0.004 38-42   60

Folytonos sűrűségfüggvények a) Normális, vagy Gauss-féle eloszlás M = 0  = 1  = 2

b) Exponenciális eloszlás a = 1 a = 0,5

Normális eloszlás illesztése empirikus sűrűségfüggvényre 2000 12,2 2001 11,1 2002 13,3 2003 14,5 2004 12,1 2005 11,9 2006 10,8 2007 12,9 2008 11,0 2009 12,4 M = 12,2  = 1,14

k h (xi) f(xi) 10-10,9 1 0,1 0,11 11-11,9 3 0,3 0,29 12-12,9 4 0,4 0,34 13-13,9 0,19 14-14,9 0,05 10

Összefüggés vizsgálat átlag hőm. hótakaró v. 2000 -5 10 2001 1.9 0.8 2002 0.2 0.1 2003 0.5 2004 -8.2 12.5 2005 -2.2 4.5 2006 1.5 2007 -3.2 5.9 2008 5.4 2009 -0.6 2.2 2010 -2.5 4.2 y = a x + b

Korrelációs együttható kiszámítása: állomás magasság hótakrós napok Gyöngyös 160 31 Eger 170 36 Terény 200 43 Rudabánya 280 55 Mátrafüred 340 56 Mátraháza 670 88 Kékestető 990 113 x y x-Mx y-My (x-Mx)(y-My) (x-Mx)2 (y-My)2 160 31 -241.4 -29.3 7073.02 58273.96 858.49 170 36 -231.4 -24.3 5623.02 53545.96 590.49 200 43 -201.4 -17.3 3484.22 40561.96 299.29 280 55 -121.4 -5.3 643.42 14737.96 28.09 340 56 -61.4 -4.3 264.02 3769.96 18.49 670 88 268.6 27.7 7440.22 72145.96 767.29 990 113 588.6 52.7 31019.22 346450 2777.29 Mx= 401.4 My=60.3 55547.14 589485.7 5339.43

? y= 0.094 x + 22.2 0.094  500 + 22.2 =69

Hipotézis vizsgálat n, M,  n2, M2, 2 n1, M1, 1 Valamilyen statisztikai sokaság eloszlásaival kapcsolatos hipotézisek ellenőrzése. Leggyakrabban vizsgált hipotézisek: Valamilyen statisztikai sokaságból kiválasztott részsokaság jellemzői (pl. várhatóérték, szórás) eltérnek-e egymástól. n, M,  n2, M2, 2 n1, M1, 1

- Valamilyen módon mért sokaság eltér-e egy ideális sokaságtól.

- Különböző sokaságok jellemzőinek összehasonlítása. n2, M2, 2 n1, M1, 1

Null-hipotézis: a különböző csoportba tartozó események, mérések matematikai statisztikai jellemzői között nincs eltérés. Ha a null-hipotézis teljesülési valószínűsége kicsi, akkor a null-hipotézist elvetjük, és az eltérést szignifikánsnak nevezzük. Azt a valószínűséget, amelynél kisebb valószínűséget kapva a hipotézist elvetjük szignifikancia szintnek nevezzük. Értéke tetszőleges lehet, de általában a 0,1; 0,05 vagy 0,01-et szokás választani. Első- és másodfajú hiba Elsőfajú hiba: elutasítjuk a null-hipotézist holott igaz. A szignifikancia szint az elsőfajú hiba valószínűsége. Másodfajú hiba: Elfogadjuk a null-hipotézist holott nem igaz. Minél alacsonyabb a szignifikancia szint annál nagyobb a hiba valószínűsége.

t-próba Két mintás t-próba. Két különböző sokaság várható értékeinek összehasonlítására szolgál. n2, M2, 2 n1, M1, 1

1. Feladat t-próbára A B Hatvanéves adatsor alapján: átlag tA = 13,6 A = 2,81 átlag tB = 12,1 B = 2,72 nA = nB = 60 Kérdés: Van-e a domborzatnak hatása az átlaghőmérsékletre? Null-hipotézis: a két pontban mért várható értékek nem térnek el egymástól.

1. Az alábbi formulát felhasználva számoljuk ki a „t” értékét! n1 = n2 = 60 t = 2,9 (S = 2,8) Szabadsági fokok száma , fsz = n1 + n2 – 2 =118

A null-hipotézis teljesülésének valószínűsége kisebb mint 0,01, tehát a null-hipotézist elvethetjük. A domb lábánál és a tetején mért hőmérsékletek átlaga szignifikánsan különbözik. fsz = 118 120 1,658 1,980 2,617 t = 2,9

Lineáris regresszió szignifikancia szintjének vizsgálata

Klaszter analízis C1 C3 C2

Klaszteranalízis három- (vagy több) dimenzióban x y

Dinamikus klaszter előállítás elvi sémája C1 C1 C2 C3 C3 C2

Hierarchikus klaszter előállítás elvi sémája Először minden egyes elemet külön clusternek tekintünk. Az egyes klaszterek összevonásával egyre nagyobb klasztereket kapunk Az eljárást addig folytatjuk, amíg minden elem egy klaszterhez tartozik P1 P2 P3 P4 P5 P6 P7

P1 P2 P3 P4 P5 P6 P7

Alkalmazások Műholdas mérések alapján a különböző felszínhasználat típusok elkülönítése Fogyasztói csoportok elkülönítése piackutatási adatok alapján (nagyobb emberi közösségeket osztunk kisebb csoportokra).

 = 0,63 µm (vörös)  = 0,90 µm (közeli infra)

A térbeli interpolálással megoldandó problémák

Krigelés: Ismert attribútumú pontok súlyozott átlaga alapján A Kirgelés menete, ha valakit érdekel Krigelés: Ismert attribútumú pontok súlyozott átlaga alapján határozzuk meg az ismeretlen attribútumú pont attribútumának értékét. P7 P4 P3 P1 P2 P6 P5 P0 Z (g/tonna) P1 1.0 P2 2.1 P3 3.0 P4 2.9 P5 2.5 P6 1.8 P7 1.9

Variogram készítése: C = maximális (telítési) érték ‘nugget’ érték H= hatástávolság

Variogram típusok lineáris modell szférikus modell exponenciális modell

Szférikus modell Becslés súlytényezőinek meghatározása: A becslés szórásnégyzetének a lehető legkisebbnek kell lennie.