LEÍRÓ STATISZTIKA, HETEROGÉN SOKASÁG, BECSLÉSELMÉLET Összefoglalás

Slides:



Advertisements
Hasonló előadás
Szimmetriák szerepe a szilárdtestfizikában
Advertisements

Kauzális modellek Randall Munroe.
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
2.1Jelátalakítás - kódolás
Az úttervezési előírások változásai
Fizika II..
Számítógépes Hálózatok
Profitmaximalizálás  = TR – TC
A járműfenntartás valószínűségi alapjai
Szenzorok Bevezetés és alapfogalmak
Végeselemes modellezés matematikai alapjai
A magas baleseti kockázatú útszakaszok rangsorolása
Szerkezetek Dinamikája
MÉZHAMISÍTÁS.
Hőtan BMegeenatmh 5. Többfázisú rendszerek
BMEGEENATMH Hőátadás.
AUTOMATIKAI ÉPÍTŐELEMEK Széchenyi István Egyetem
Skandináv dizájn Hisnyay – Heinzelmann Luca FG58PY.
VÁLLALATI Pénzügyek 2 – MM
Hőtan BMEGEENATMH 4. Gázkörfolyamatok.
Szerkezetek Dinamikája
Összeállította: Polák József
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
Csáfordi, Zsolt – Kiss, Károly Miklós – Lengyel, Balázs
Tisztelt Hallgatók! Az alábbi példamegoldások segítségével felkészülhetnek a 15 pontos zárthelyi dolgozatra, ahol azt kell majd bizonyítaniuk, hogy a vállalati.
J. Caesar hatalomra jutása atl. 16d
Anyagforgalom a vizekben
Kováts András MTA TK KI Menedék Egyesület
Az eljárás megindítása; eljárási döntések az eljárás megindítása után
Melanóma Hakkel Tamás PPKE-ITK
Az új közbeszerzési szabályozás – jó és rossz gyakorlatok
Képzőművészet Zene Tánc
Penicillin származékok szabadgyökös reakciói
Boros Sándor, Batta Gyula
Bevezetés az alvás-és álomkutatásba
Kalandozások az álomkutatás területén
TANKERÜLETI (JÁRÁSI) SZAKÉRTŐI BIZOTTSÁG
Nemzetközi tapasztalatok kihűléssel kapcsolatban
Gajdácsi József Főigazgató-helyettes
Követelmények Szorgalmi időszakban:
Brachmann Krisztina Országos Epidemiológiai Központ
A nyelvtechnológia eszközei és nyersanyagai 2016/ félév
Járványügyi teendők meningococcus betegség esetén
Kezdetek októberében a könyvtár TÁMOP (3.2.4/08/01) pályázatának keretében vette kezdetét a Mentori szolgálat.
Poszt transzlációs módosulások
Vitaminok.
A sebész fő ellensége: a vérzés
Pharmanex ® Bone Formula
Data Mining Machine Learning a gyakorlatban - eszközök és technikák
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
Pontos, precíz és hatékony elméleti módszerek az anion-pi kölcsönhatási energiák számítására modell szerkezetekben előadó: Mezei Pál Dániel Ph. D. hallgató.
Bevezetés a pszichológiába
MOSZKVA ZENE: KALINKA –HELMUT LOTTI AUTOMATA.
Bőrimpedancia A bőr fajlagos ellenállásának és kapacitásának meghatározása Impedancia (Z): Ohmos ellenállást, frekvenciafüggő elemeket (kondenzátort, tekercset)
Poimenika SRTA –
Végeselemes modellezés matematikai alapjai
Összefoglalás.
Az energiarendszerek jellemzői, hatékonysága
Varga Júlia MTA KRTK KTI Szirák,
Konzerváló fogászat Dr. Szabó Balázs
Outlier detektálás nagyméretű adathalmazokon
További MapReduce szemelvények: gráfproblémák
Ráhagyások, Mérés, adatgyűjtés
Járműcsarnokok technológiai méretezése
Grafikai művészet Victor Vasarely Maurits Cornelis Escher.
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Az anyagok fejlesztésével a méretek csökkennek [Feynman, 1959].
Bevezetés a színek elméletébe és a fényképezéssel kapcsolatos fogalmak
Minőségmenedzsment alapjai
Előadás másolata:

LEÍRÓ STATISZTIKA, HETEROGÉN SOKASÁG, BECSLÉSELMÉLET Összefoglalás Gazdaságstatisztika LEÍRÓ STATISZTIKA, HETEROGÉN SOKASÁG, BECSLÉSELMÉLET Összefoglalás 2017. október 31.

Valószínűségszámítás - Matematikai statisztika Valószínűségszámítás: a véletlen tömegjelenségekben rejlő statisztikai törvényszerűségek vizsgálata Valószínűségelmélet: ismert az eloszlásfüggvény és annak paraméterei Valóság: nem ismert az eloszlásfüggvény és/vagy annak paraméterei A matematikai statisztika célja: következtetés tapasztalati (megfigyelési, mérési) adatokból események ismeretlen valószínűségeire, valószínűségi változók ismeretlen eloszlásfüggvényére vagy azok paramétereire. mintavétel, adatfeldolgozás, leíró statisztika, következtető statisztika

Sokaság: a vizsgálat tárgyát képező egységek összessége Matematikai statisztika lényege Sokaság: a vizsgálat tárgyát képező egységek összessége Következtetés A megfigyelési eredmények a minta elemei, a megfigyelések száma a minta nagysága vagy elemszáma. A minta elemei az alapsokaság eloszlásával megegyező eloszlású valószínűségi változók. Minta: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye Mintavétel Mintavétel: a statisztikai sokaságból információszerzés céljából véletlenszerűen egyedi elemeket emelünk ki

Statisztikai módszertan ágai LEÍRÓ vagy DESKRIPTÍV statisztika Tömör, számszerű jellemzés: a megfigyelt adatok legjobb megértésére, bemutatására, összefoglalására törekszik. KÖVETKEZTETŐ statisztika Fő célja a mintából való következtetés, általánosítás a teljes sokaságra vonatkozóan.

Mintavétel – részleges megfigyelés Cél: következtetéseket vonjunk le a teljes sokaságra vonatkozóan a sokaság részleges megismerése által A MINTA CSAK ESZKÖZ A SOKASÁG TELJES MEGISMERÉSÉHEZ! A statisztikai mintavételek és az ebből származó adatokat felhasználó elemzések mindig tartalmaznak hibákat! a statisztika szükségszerű velejárója, mintavételi hiba meghatározása

Mintavételi és nem mintavételi hiba Adatgyűjtéshez kapcsolódó hibák: pl. definíciós hibák, nemválaszolási hibák, végrehajtási hibák – NEM MINTAVÉTELI HIBA Védekezési mechanizmus: alkalmazott technikák, technológiák fejlesztése A teljes sokaság megismeréséről való lemondás ára – MINTAVÉTELI HIBA Védekezési mechanizmus: olyan mintavételi eljárásokat keresünk, hogy ez a lehető legkisebb legyen A mintavételi hiba annál kisebb, minél nagyobb a minta.

Mintavételi hiba A mintából számított bármely mutató értéke mintáról mintára változik. A mintából számított értékek a megfelelő sokasági jellemző körül szóródnak. Ez a szóródás kisebb minták esetében nagyobb, nagyobb minták esetében kisebb. A mintavételi hiba a vizsgált mutató lehetséges mintákból számított értékeinek átlagos eltérését mutatja a megfelelő sokasági értéktől.

Véletlen mintavétel Olyan kiválasztási eljárás, melynek során ismert vagy meghatározható a sokaság egyes elemeinek mintába kerülési esélye. Mintavételi hiba számszerűsítése Reprezentativitás biztosítása: a minta összetétele csak a véletlen hatások miatt tér el a sokaságétól Visszatevéses egyszerű véletlen mintavétel Visszatevés nélküli egyszerű véletlen mintavétel Rétegzett mintavétel Csoportos mintavétel Többlépcsős mintavétel

Véletlen mintavétel Visszatevéses egyszerű véletlen mintavétel A sokaságból egyenlő valószínűséggel, a visszatevéses technika miatt egymástól függetlenül veszünk mintát. Inkább elméleti, mint gyakorlati jelentőség. Visszatevés nélküli egyszerű véletlen mintavétel A sokaságból egyenlő valószínűséggel veszünk mintát, a mintaelemek egymástól nem függetlenek. Inkább gyakorlati, mint elméleti jelentőség. Következtetés pontosságát meghatározó tényezők: Minta elemszáma Sokaság heterogenitása

Véletlen mintavétel Rétegzett mintavétel: a sokaságot egy csoportképző ismérv szerint rétegekre bontjuk, majd minden rétegből egyszerű véletlen mintát veszünk. Teljes lista Következtetés megbízhatóságát meghatározó tényező: Rétegek heterogenitása Rétegképző ismérv „jósága” Szóráshányados mutató

Véletlen mintavétel Csoportos mintavétel: olyan nyilvántartásból történik a kiválasztás, amely a sokaság egységeit nem elkülönítve, hanem természetes vagy mesterséges csoportokban tartalmazza. Csoportképző ismérv Csoportok közül egyszerű véletlen mintavétel Következtetés megbízhatóságát meghatározó tényező: Csoport heterogenitása Többlépcsős mintavétel: csoportos általánosítása

Mérési skálák Nominális (névleges) Sorrendi Intervallum Arány Osztályok vagy elemek azonosítása; pl. járatszám Egyenlőségi reláció Gyakoriság, modális osztály számolható Sorrendi Egységek összehasonlítása, rendezése; pl. versenyen elért helyezés Egyenlőségi és sorrendi relációk Intervallum Skála pontjai közötti távolság értelmezhető, szabadon választható nullpont és mértékegység Pl.: hőmérséklet Arány Additivitási tulajdonság Valódi nullpont; pl. tömeg, ellenállás

Adatok csoportosítása, osztályozása Rangsor készítése X ismérv szerinti osztályozás kérdései: Az X változó diszkrét, és az általa felvehető értékek száma kicsi Annyi osztályt képezünk ahány különböző X érték lehetséges az i-edik osztály esetében fennáll az alsó és felső osztályhatár egybeesése Az X változó folytonos, vagy diszkrét ugyan, de az általa felvehető különböző értékek száma nagy X lehetséges értékeinek tartományát osztályközökre bontjuk az i-edik osztályköz Xi1 felső határa nem eshet egybe az (i+1)-dik osztályköz Xi+1,0 alsó határával

Adatok csoportosítása, osztályozása Az X szerint képzett osztály Osztály- közép abszolút relatív alsó felső gyakoriság határa X10 X11 X1* f1 g1 X20 X21 X2* f2 g2 Xi0 Xi1 Xi* fi gi … Xk0 Xk1 Xk* fk gk Összesen N 1 Osztályközhosszúság:

Adatok csoportosítása, osztályozása fi gyakoriságok: a sokaság hány egysége tartozik az X változó szerint képzett i-edik osztályba gi relatív gyakoriságok: a sokaság hány %-a tartozik az X változó szerinti i-edik osztályba, azaz, hogy oszlik meg a sokaság az egyes osztályok között fi’ kumulált gyakoriság: a sokaság hány egysége tartozik összesen az i-edik, illetve az azt megelőző osztályokba gi’kumulált relatív gyakoriság: a sokaság hány %-a tartozik összesen az i-edik, illetve az azt megelőző osztályokba Tapasztalati eloszlásfüggvény Osztályközép Xi*: az összes, az adott osztályba tartozó adat helyettesítése

Pálcikadiagram – diszkrét adat Érdemjegy Tapasztalati gyakoriság (fi) Relatív gyakoriság (gi) 1 68 0,089 2 280 0,368 3 274 0,361 4 91 0,120 5 47 0,062 Összesen 760

Kumulált tapasztalati gyakoriság (fi) Kumulált relatív gyakoriság (gi) Lépcső alakú diagram Érdemjegy Kumulált tapasztalati gyakoriság (fi) Kumulált relatív gyakoriság (gi) 1 68 0,089 2 348 0,458 3 622 0,818 4 713 0,938 5 760

Gyakorisági hisztogram alsó határ felső határ osztályközép gi [%] -20,00% -15,00% -17,5% 2,02% -10,00% -12,5% 9,09% -5,00% -7,5% 0,00% -2,5% 23,23% 5,00% 2,5% 32,32% 10,00% 7,5% 15,15% 15,00% 12,5% 8,08% 20,00% 17,5% 1,01% összesen   100,00% GYAKORISÁGI HISZTOGRAM (tapasztalati (empirikus) sűrűségfüggvény) Gyakoriság vonaldiagramja

Gyakorisági vonaldiagram Gyakorisági görbe

Kumulált relatív gyakorisági hisztogram alsó határ felső határ osztályközép g’i [%] -20,00% -15,00% -17,5% 2,02% -10,00% -12,5% 11,11% -5,00% -7,5% 20,20% 0,00% -2,5% 43,43% 5,00% 2,5% 75,76% 10,00% 7,5% 90,91% 15,00% 12,5% 98,99% 20,00% 17,5% 100,00% összesen   Kumulált relatív gyakoriság vonaldiagramja KUMULÁLT RELATÍV GYAKORISÁGI HISZTOGRAM

Kumulált relatív gyakoriság vonaldiagramja KUMULÁLT RELATÍV GYAKORISÁG VONALDIAGRAMJA (tapasztalati eloszlásfüggvény) Ogiva

Leíró statisztikai mutatószámok Helyzetmutatók, középértékek: Az eloszlás helyzetét egyetlen, az adatokkal azonos mértékegységű számértékkel jellemzik Ingadozásmutatók: Az adathalmaz szóródása, változékonysága Az adatok egymás közötti különbségei Kitüntetett értéktől való eltérés, ingadozás valamilyen középérték körül

Helyzetmutatók (középértékek) Csoportosításuk: Helyzeti középértékek: az adatok közötti elhelyezkedésüknél fogva jellemzik a vizsgált gyakorisági eloszlás helyzetét medián, módusz Számított középértékek: az adatokkal kapcsolatos számszerű összefüggésük révén jellemzik a vizsgált gyakorisági eloszlás helyzetét számtani átlag, mértani átlag, négyzetes átlag, harmonikus átlag Elvárások: Közepes helyzetűek Tipikusak Egyértelműen meghatározhatóak Könnyen értelmezhetőek Tipikus: Értéke álljon közel az előforduló értékek zöméhez.

Medián me annak a legelső osztályköznek a sorszáma, amelyre igaz, hogy helyzeti középérték mutató a változó azon számértéke, amelynél az összes előforduló számérték fele kisebb, fele pedig nagyobb, így a rangsorba állított sokasági számértékeket két egyenlő gyakoriságú osztályra bontja Becsülhető osztályközös gyakorisági sorból is: Előnye: Mindig egyértelműen meghatározható Érzéketlen a szélsőértékekre, és nem függ a többi ismérvértéktől sem. Hátránya: Nem használható, ha az adatsorban sok az egyforma ismérvérték Egyéb tulajdonsága: A mediánt tartalmazó osztály bal végpontja. A mediánt tartalmazó osztály hossza. Rangsorba rendezett minőségi ismérvekből is számolható. ha

Módusz mo a legnagyobb gyakoriságú osztály(ok) sorszáma Hátránya: helyzeti középérték, a tipikus ismérvérték diszkrét ismérv esetén a módusz a leggyakrabban előforduló ismérvérték, folytonos ismérv esetén a gyakorisági görbe maximumhelye. Előnye: érzéketlen a szélsőértékekre, nem függ sem az összes, sem a kiugró ismérvértékektől. Hátránya: nem mindig határozható meg egyértelműen, és nem is mindig létezik nagy bizonytalansággal becsülhető Egyéb tulajdonsága: nyers módusz, osztályköz megválasztása Becsülhető osztályközös gyakorisági sorból is: A móduszt tartalmazó osztály bal végpontja. A móduszt tartalmazó osztály hossza. mo a legnagyobb gyakoriságú osztály(ok) sorszáma

Számtani átlag számított középértékfajta az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege változatlan marad. Számítása: Előnye: bármely alapadathalmazból egyértelműen meghatározható, minden alapadatot felhasznál Hátránya: érzékeny a szélsőértékekre  nyesett átlag Tulajdonsága: 𝑿 𝒎𝒊𝒏 ≤ 𝑿 ≤ 𝑿 𝒎𝒂𝒙 !!!

Számtani átlag Egyéb fontos tulajdonsága: minimális, ha

Kvantilisek a rangsorban olyan osztópontok (osztályhatárok), amelyek egyenlő relatív gyakoriságokat fognak közre Az Xi/k i-edik k-ad rendű kvantilis az a szám, amelynél az összes előforduló ismérvértékek i/k-ad része kisebb, (1-i/k)-ad része pedig nagyobb, ahol k≥2 és i=1, 2 ,…, k-1.

Ingadozásmutatók (szóródásmutatók) Csoportosításuk: Az adathalmazban szereplő értékek változékonyságát az egyes értékek egymás közötti különbségein, vagy egyes értékeknek egy kitüntetett értéktől (középérték) való eltérésein keresztül ragadja meg. Mértékegységüket tekintve: Abszolút mutatók: mértékegysége megegyezik az alapadatokéval Relatív mutatók: mértékegység nélküli [%]

Terjedelem Interkvantilis terjedelem a szóródást az adathalmazban szereplő legnagyobb és legkisebb adat különbségeként jellemzi abszolút ingadozásmutató Előnye: a könnyű számítás Hátránya: értéke csak a két legszélsőségesebb ismérvértéktől függ, amelyeket sokszor a véletlen szeszélyeinek köszönhetünk. Interkvantilis terjedelem csökkenti a véletlen szélsőértékeket (legkisebb és legnagyobb értéket) alakító szerepét az adathalmaz két szélső k-adrendű kvantilisének különbsége

(Korrigált) tapasztalati szórás a szóródást az alapadatoknak egy kitüntetett értéktől (számtani átlagtól) való eltérésein keresztül méri, abszolút ingadozásmutató A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga: azt mutatja, hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól. Olyan átlagos hiba, amit akkor követünk el, ha minden alapadatot a számtani átlaggal helyettesítünk. A számtani átlag tulajdonsága szerint ez a hiba minimális. Torzítatlan: a becsülni kívánt paraméter körül ingadozzék!

Részekre bontott sokaság vizsgálata Heterogén sokaság: a vizsgált ismérv szempontjából lényegesen eltérő jellegzetességeket mutató sokaság A sokaságot célszerű részekre bontva elemezni 𝑀 (𝑀≥2) részsokaságot alakítunk ki Ehhez úgy kell csoportképző ismérvet választani, hogy megmutassa a részsokaságok közötti heterogenitást. Csoportképzés valamilyen minőségi vagy területi ismérv alapján Vegyes kapcsolat: Az egyik vizsgált változó területi vagy minőségi ismérv, a másik változó mennyiségi ismérv

Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság

Rész- és főátlagok N A j-edik részsokaság értékösszege Fősokaság M. részsokaság N i. részsokaság

Teljes-, belső- és külső eltérés Fősokaság részsokaság 2. részsokaság dij Bij Kj M. részsokaság i. részsokaság

Teljes-, belső- és külső eltérés A szórásszámítás alapja: belső eltérés külső eltérés A teljes eltérés azt mutatja, hogy Yij eltérhet a főátlagtól, mert: az ismérvértékek ingadoznak a részátlag körül => belső eltérések a részátlagok ingadoznak a főátlag körül => külső eltérések Csoportképző ismérven kívüli összes egyéb tényezőnek tulajdonítható Csoportképző ismérvnek tulajdonítható

Részszórás Fősokaság részsokaság 2. részsokaság M. részsokaság

Belső szórás Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság

A részvarianciák és a belső variancia kapcsolata A j-edik részsokaság varianciája Ebből A belső variancia Egyes részvarianciák részsokasági elemszámmal súlyozott számtani átlaga

Külső szórás Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság

Teljes szórás Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság

Teljes-, belső- és külső szórás Teljes eltérés-négyzetösszeg: SST Teljes szórás Részszórás: A j-edik részsokaság szórása Belső szórás A fősokaság egyes egységeihez tartozó Yij ismérvértékek átlagosan mennyivel térnek el a saját részátlaguktól – a részsokaságok összességére vonatkozik Külső szórás A részátlagok átlagosan mennyivel térnek el a főátlagtól Belső eltérés-négyzetösszeg: SSB Külső eltérés-négyzetösszeg: SSK

A teljes-, a belső- és a külső variancia kapcsolata

Az Y ismérv SST teljes eltérés-négyzetösszegének, változékonyságának SST, SSB, SSK Az Y ismérv SST teljes eltérés-négyzetösszegének, változékonyságának SSK nagyságú része a részsokaságok képzésére használt csoportképző ismérvnek tulajdonítható, azzal magyarázható. SSK csak a külső eltérésektől függ. SSB nagyságú rész az Y ismérv szóródását előidéző más, kiemelten nem vizsgált tényezők együttes hatásának tudható be. SSB csak a belső eltérésektől függ.

Vegyes kapcsolat szorossága, a varianciahányados X: csoportképző minőségi ismérv Y: mennyiségi ismérv X és Y kapcsolatának szorosságát mérő mutatót H2-tel jelöljük, és varianciahányadosnak, vagy szórásnégyzet-hányadosnak nevezzük: A H2 az Y ismérv szórásnégyzetének az X ismérv által magyarázott hányada. H2=0, ha SSK=σ2k=0, vagyis az X ismérv szerint képzett osztályok részátlagai egyformák H2=1, ha σ2k= σ2T, azaz σ2B=0, vagyis az X szerint képzett csoportokon belül nem szóródik Y.

A vegyes kapcsolat szorosságának mérése: a szóráshányados H a szóráshányados, ami ugyancsak 0 és 1 között mozog. H=0 értéke a vizsgált két ismérv függetlenségét jelzi, H=1 pedig az X és Y közötti függvényszerű kapcsolatra utal. Nem fejezhető ki százalékosan, hanem kizárólag a kapcsolat szorosságának megítélésére használható a 0-hoz, illetve az 1-hez való közelségét figyelembe véve.

A becslés elmélete mintáról mintára változik maga is valósz. változó Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető

Becslési kritériumok Torzítatlanság Hatásosság Konzisztencia Elégséges A becslés várható értéke a becsülendő sokasági paraméter A becslés a szóban forgó paraméterérték körül ingadozik Asszimptotikusan torzítatlan becslések A becslés torzításának mértéke csökken a minta elemszámának növelésével Hatásosság A becslés ingadozása (szórása) a becsülendő paraméter körül Konzisztencia A becslés ingadozása növelve a mintaszámot egyre csökken Elégséges Lényegében minden információt tartalmaz a becsülendő paraméterről

Intervallumbecslés mintáról mintára változik maga is valósz. változó Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető

Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt.

Intervallum szélessége Sokasági szórás intervallum szélessége Mintaszám Megbízhatósági szint

Várható érték becslése – ismert alapsokasági szórás A  valószínűségi változó N(,0) eloszlású, ahol 0 szórás ismert A  sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Az átlag eloszlása normális: A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük.

A megfelelő z-érték keresése Legyen 𝜶=𝟎,𝟏, így 𝟏− 𝜶 𝟐 =𝟏−𝟎,𝟎𝟓=𝟎,𝟗𝟓 Keressük azt a 𝒛 értéket, ahol 𝚽 𝒛 =𝟎,𝟗𝟓

Mintanagyság meghatározása Adottak a megbízhatósági és pontossági követelmények, és ennek tükrében kell a minta elemszámát meghatározni

Várható érték becslése – ismeretlen alapsokasági szórás Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ0-t). Kis mintánk van, n<30. Nagy minta esetén a Student-eloszlás helyettesíthető normális eloszlással Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel ( 𝑠 ∗ , torzítatlan becslés.) 𝒛= 𝒙 −𝝁 𝝈/ 𝒏 helyett 𝒕= 𝒙−𝝁 𝒔 ∗ / 𝒏 , ami Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal A konfidencia intervallum:

A t-érték meghatározása Megbízhatósági szint Szabadságfok: DF=n-1

Várható érték becslése Standard normális eloszlás táblázata segítségével Normális eloszlásból; ismert alapsokasági szórás ( 𝜎 0 ) Normális eloszlás, ismeretlen alapsokasági szórás (becslése a mintából 𝑠 ∗ ), de a mintaelemszám 𝑁>30 Nagy minta 𝑁>100 (nem szükséges a sokaság normalitása) 𝑃 𝑋 − 𝑧 𝛼 2 𝜎 0 𝑁 <𝜇< 𝑋 + 𝑧 𝛼 2 𝜎 0 𝑁 =1−𝛼 Student-eloszlás segítségével Normális eloszlásból származó, kis elemszámú minta áll rendelkezésre és az alapsokasági szórást a mintából kell becsülni 𝑃 𝑋 − 𝑡 𝛼 2 (𝐷𝐹) 𝑠 ∗ 𝑁 <𝜇< 𝑋 + 𝑡 𝛼 2 (𝐷𝐹) 𝑠 ∗ 𝑁 =1−𝛼

Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: p = k/n p = k/n Binomiális eloszlás M(p) = P D2(p) = P(1-P)/n Közelítjük normális eloszlással

Szorgalmi feladat Egy vasútvonalon egy hétig minden vonaton feljegyezték az utasok számát. Az eredményeket az alábbi táblázat tartalmazza: Adjunk 95%-os megbízhatóságú intervallumot azon vonatok arányára, amelyen 60-nál kevesebben utaztak! Utasok száma Vonatok száma 𝟎≤𝑿<𝟑𝟎 6 𝟑𝟎≤𝑿<𝟔𝟎 12 𝟔𝟎≤𝑿<𝟗𝟎 28 𝟗𝟎≤𝑿<𝟏𝟐𝟎 30 𝟏𝟐𝟎≤𝑿<𝟏𝟓𝟎 16 𝟏𝟓𝟎≤𝑿≤𝟏𝟖𝟎 8

Szorgalmi feladat megoldása =0,95 innen 𝛼=0,05; kétoldali becslés, így 𝛼 2 =0,025. Keressük a 𝑧 𝛼/2 értéket, azt az értéket, ahol az 𝑁~(0,1) eloszlás felveszi a 0,975 értéket: 𝛷 −1 0,975 =1,96 𝑝= 𝑘 𝑛 = 6+12 100 =0,18 (a mintában 18 olyan vonat volt, amin 60-nál kevesebben utaztak). 𝑃 𝑝− 𝑧 𝛼 2 𝑝 1−𝑝 𝑁 <𝑃<𝑝+ 𝑧 𝛼 2 𝑝 1−𝑝 𝑁 =1−𝛼 𝑃(0,18−1,96 0,18∗0,82 100 <P<0,18+1,96 0,18∗0,82 100 )=0,95 0,1047<𝑃<0,2553 95%-os megbízhatósági szinten 10,47 % és 25,53 % között van az olyan vonatok aránya, amelyen 60-nál kevesebben utaztak.

Sokasági variancia becslése σ2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor a 𝑛−1 𝑠 ∗ 2 𝜎 2 változó n-1 szabadsági fokú χ2 eloszlású követ. A χ2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre! KIZÁRÓLAG NORMÁLIS ELOSZLÁSÚ ALAPSOKASÁG ESETÉN BECSÜLHETŐ!!!

Sokasági variancia becslése  Normális el. !! M()=, D2()=2 - csak pozitív értékekre értelmezett - nem szimmetrikus !! mintából becsüljük, s2 vagy s*2 2-eloszlású (Mintavételi eloszlás)

Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat! Megoldás: n = 16 s* = 10 óra DF = n – 1 = 16 – 1 = 15  = 0,95   = 0,05  kétoldali becslés: /2 = 0,025  1 – /2 = 0,975 95%-os megbízhatósági szinten a sokasági szórás 7,38 és 15,5 óra között van. 54,5 < 2 < 239,6 7,38 < < 15,5

Szorgalmi feladat Egy vasútvonalon egy hétig minden vonaton feljegyezték az utasok számát. Az eredményeket az alábbi táblázat tartalmazza: Adjunk 99%-os megbízhatóságú intervallumot az utasok számának szórására! Utasok száma Vonatok száma 𝟎≤𝑿<𝟑𝟎 6 𝟑𝟎≤𝑿<𝟔𝟎 12 𝟔𝟎≤𝑿<𝟗𝟎 28 𝟗𝟎≤𝑿<𝟏𝟐𝟎 30 𝟏𝟐𝟎≤𝑿<𝟏𝟓𝟎 16 𝟏𝟓𝟎≤𝑿≤𝟏𝟖𝟎 8

Szorgalmi feladat megoldása =0,99 innen 𝜶=𝟎,𝟎𝟏; kétoldali becslés, így 𝜶 𝟐 =𝟎,𝟎𝟎𝟓 és 𝟏− 𝜶 𝟐 =𝟎,𝟗𝟗𝟓. 𝑫𝑭=𝒏−𝟏 így 𝑫𝑭=𝟏𝟎𝟎−𝟏=𝟗𝟗. χ2 𝜶 𝟐 (𝑫𝑭=𝟗𝟗)=𝟏𝟒𝟎,𝟏𝟕 és χ2 𝟏−𝜶/𝟐 𝑫𝑭=𝟗𝟗 =𝟔𝟕,𝟑𝟐𝟖 𝑷 (𝒏−𝟏) 𝒔 ∗ 𝟐 χ2 𝜶 𝟐 <𝝈 𝟐 < (𝒏−𝟏) 𝒔 ∗ 𝟐 χ2 𝟏−𝜶/𝟐 =𝟏−𝜶 𝑷 𝟗𝟗∗ 𝟑𝟖,𝟓𝟔 𝟐 𝟏𝟒𝟎,𝟏𝟕 < 𝝈 𝟐 < 𝟗𝟗∗ 𝟑𝟖,𝟓𝟔 𝟐 𝟔𝟕,𝟑𝟐𝟖 =𝟎,𝟗𝟗 𝟏𝟎𝟓𝟎,𝟏𝟓𝟕< 𝝈 𝟐 <𝟐𝟏𝟖𝟔,𝟑𝟏𝟗 𝟑𝟐,𝟒𝟎𝟔<𝝈<𝟒𝟔,𝟕𝟓𝟖 99%-os megbízhatósággal az utasok számának szórása 32,406 fő és 46,758 fő között van.

Kvíz – játék- pluszpont !!! https://kahoot.it/ Game PIN-t be kell írni Nickname: Vezetéknév Neptun kód!!! Pluszpontok 1. hely: 3 pont 2. hely: 3 pont 3. hely: 3 pont 4-10 hely: 2 pont Legalább 6 helyes válasz: 1 pont

Köszönöm a figyelmet! Árva Gábor