Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Informatikai Tudományok Doktori Iskola

Hasonló előadás


Az előadások a következő témára: "Informatikai Tudományok Doktori Iskola"— Előadás másolata:

1 Informatikai Tudományok Doktori Iskola
Mintavételezés Informatikai Tudományok Doktori Iskola

2 Statisztikai sokaság, populáció
A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból.

3 Statisztikai minta realizáltja
A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára … csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino)

4 Kaplan mintavételezési paradoxona
Egyrészről, a minta használhatatlan, ha nem reprezentatív. Másrészről, ahhoz, hogy ellenőrizhessük a minta reprezentativitását, tudnunk kell a populáció összes jellemzőjét, amit pedig ha ismerünk, már mintára sincs szükségünk, hisz azt azért vennénk, hogy ezeket a jellemzőket feltárjuk… Edward L. Kaplan, M.D.

5 Elvárások a mintáról A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetők lehessenek a populációra is. Ugyanakkor a szükségesnél ne kelljen nagyobb mintát feldolgozni, mert az költségesebb.

6 Alapkérdések Vegyünk-e egyáltalán mintát? Ha igen, milyen eljárással?
Milyen típusú mintát vegyünk Mekkora legyen a minta nagysága? Egyéb kérdések: Pl. Mit tegyünk a nem válaszolási hibákkal? A válaszmegtagadókkal?

7 Fogalmak Cenzus: A sokaság elemeinek teljes számbavétele (pl. népszámlálás) Cenzust alkalmazunk, ha Kicsi a sokaság Figyelni kell az egyedi esetekre Sok idő, sok pénz áll rendelkezésre Nagyon szóródik a megfigyelt jellemző a sokaságban Minta: A sokaság elemeinek egy csoportja. A mintajellemzőkből, más néven statisztikákból tudunk valamilyen következtetést levonni a teljes sokaságra.

8 A mintavételi eljárás A mintavételi eljárás 5 lépésből áll:
A célsokaság meghatározása A mintavételi keret meghatározása A mintavételi technika meghatározása A mintanagyság meghatározása A mintavétel kivitelezése

9 Alapfogalmak Célsokaság: azoknak az elemeknek az összessége amelyek rendelkeznek a kutató által keresett paraméterrel. Sokasági elem: az a vizsgálati egység amelyik rendelkezik a kutató által keresett információval. Mintavételi egység: A sokasági elem, vagy az az alapegység, amelyik magában foglalja a sokaság elmeit (pl. háztartásokban elő 18 év feletti nők). Mintavételi keret: a mintavételi egységekről készült felsorolás mely segítségével azonosíthatóak az elemek. Egylépcsős mintavételnél a keret a (vizsgálati) populáció listája.

10 A mintavételi keret Sok esetben, mint például amikor a legyártott tételt minőségi szempontból teszteljük, lehetséges, hogy azonosítsuk és megmérjük a populációt kitevő teljes tétel miden egyes elemét, és hogy mindegyik szerepeljen a mintánkban. Azonban sokkal gyakoribb, hogy ez nem lehetséges. Nem lehetséges azonosítani például valamennyi patkányt, valamint abban az esetben, ha a szavazás nem kötelező, nincs mód arra, hogy azonosítsuk azokat ez egyéneket, akik valóban szavazni fognak az elkövetkező választásokon. Az ilyen, bizonytalanul körülhatárolható populációk nem alkalmasak a mintavételezésre. Eszközként a mintavételi keretet keressük meg, amely alkalmas arra, hogy a populáció minden egyes elemét azonosítsuk és bevonjuk bármely mintánkba.

11 A mintavételi keret A sokaság elemeinek megjelenítése Telefonkönyv
Szövetségek taglistái Számlakönyvek Egyéb listák A legfontosabb kérdés itt az, hogy a célsokaság és a mintavételi keret egybeesik-e (Pl. telefonkönyvben mindenki benne van-e, aki rendelkezik a keresett paraméterekkel?)

12 A mintavételi technikák
Visszatevéses mintavétel Egy adott elem elvileg többször is a mintába kerülhet Visszatevés nélküli mintavétel Egy elem csak egyszer kerülhet a mintába Bayes-technika Kiválasztási módszer, ahol az elemeket egymást követően választják ki. Minden egyes kiválasztást követően kiszámítják a mintajellemzőket és meghatározzák a költségeket Már a mintavétel előtt ismerni kell a sokaság bizonyos jellemzőit (paraméterek) Nem véletlen mintavételi technikák Véletlen mintavételi technikák

13 Nem véletlen mintavételi technikák
Önkényes mintavétel: a minta elemeit általában kérdezőbiztos választja ki pl. üdülőhelyi megkérdezések vendégkör-megkérdezések Nincs mintavételi keret amiből választani lehetne Előnyei Olcsó A mintavételi egységek könnyen elérhetők Könnyű együttműködő egységeket választani Hátrányai Semmilyen meghatározható sokaságot nem reprezentálnak Elméletileg semmiféle általánosításra nem ad módot Torzítás óriási Mire jó?  Mire nem jó? Leíró kutatásokhoz  Feltáró kutatáshoz Hipotézisek felállításához  Kérdőívek teszteléséhez  Ok-okozati kutatásokhoz

14 Nem véletlen mintavételi technikák – elbírálásos mintavétel
Elbírálásos mintavétel: a kutató a saját tapasztalatai alapján választ a sokaság elemei közül, és eldönti, hogy bekerüljenek-e a mintába vagy sem. Teszthelyszínek kiválasztása (melyik szállodát, céget, utazási irodát kérdezzük meg. Szakértők kiválasztása Körzetek kiválasztása (kérdőívezés helyszíneinek kiválasztása), stb.

15 Nem véletlen mintavételi technikák – Kvótás mintavétel
Két lépéses eljárás A kutató felállítja a sokaság kontroll kategóriáit, azaz a kvótákat Végig kell gondolni a sokaság jellemzőit és e jellemzők sokaságon belüli eloszlását Nem Kor Nemzetiség, stb. A mintaelemeket önkényesen vagy elbírálással választja ki. Előnye az alacsony költség és a kényelmes kezelhetőség Nem reprezentatív, amennyiben a sokaság egy fontos jellemezője elkerüli a figyelmünket A több kontrolljellemző növelheti a reprezentativitást, ám a sok jellemzőt nehézkes kezelni A reprezentativitás javítható, ha a kérdezőbiztosok részletes utasítást kapnak, hogy kiket kell megkérdezni

16 Nem véletlen mintavételi technikák – Hólabda mintavétel
Speciális jellemzővel bíró sokaságot keresünk (pl. hackerek) Egyvalakit, vagy egy kis csoportot megkeresünk A kezdeti csoport tagjait arra kérjük, hogy ajánljanak másokat akik szintén a célsokasághoz tartoznak Ezzel a módszerrel egyre több válaszadót érünk el

17 Véletlen kiválasztási technikák I.
A véletlen mintavétel során az elérendő cél, az, hogy a minta jellemzői teljes egészében megegyezzenek a célsokaság jellemzőivel, azaz ne legyen torzítás Ha mégis van eltérés, akkor a különbség statisztikailag mérhető (megbízhatósági szintekkel) A véletlen technikákkal vett minták jellemzői kivetíthetők az egész sokaságra

18 Véletlen kiválasztási technikák II.
A gyakorlatban alkalmazott technikák Egyszerű véletlen mintavétel Szisztematikus mintavétel Rétegzett mintavétel Csoportos mintavétel Egyéb véletlen mintavételi technikák Mindemellett a nem véletlen mintavételi technikák esetében sem teljesül minden esetben a reprezentativitás

19 Egyszerű véletlen mintavétel
A sokaság minden eleme ismert és azonos valószínűséggel kerülhet be a mintába. Minden elemet egymástól függetlenül, a mintát a mintavételi keretből véletlen eljárással választjuk ki Technikai megoldások: sorsolás véletlenszám generálása

20 Szisztematikus mintavétel
A mintavételi keretben véletlenszerűen kijelölnek egy kezdőpontot Ezt követően kiválasztják a mintavételi keret minden i-dik elemét A mintavételi intervallumot úgy kapják meg, hogy a mintavételi keret elemszámát (N) elosztják a minta elvárt nagyságával (n), az így kapott N/n hányadost a legközelebbi egész számra kerekítik, ez lesz az i Akkor használható, jól, ha a mintavételi keretben nincsenek sorba állítva az elemek a vizsgált jellemzővel összefüggésben

21 Szisztematikus mintavétel
Tegyük fel, hogy a populáció elemszáma N=100 A kívánt minta elemszám n=20 N/n=5 Véletlenszerűen kiválasztunk egy számot 1-5 között: pl. 4. A 4. esettől kezdve minden 5.-ket választjuk a mintába

22 Rétegzett mintavétel A sokaságot először csoportokra bontják valamilyen ismert rétegképző ismérv segítségével. Az egyes rétegekből egyszerű véletlen mintavétellel választanak Fontos, hogy a rétegképző ismérv szoros kapcsolatban álljon a vizsgált jellemzővel Legáltalánosabb rétegképző ismérvek a demográfiai jellemzők kor nem jövedelem régió

23 Arányos és nem arányos rétegezés
Arányos rétegezés: minden rétegből kiválasztott minta nagysága arányos az adott rétegnek a teljes sokasághoz viszonyított nagyságával Nem arányos rétegezés: a rétegekből választott minta nagysága arányos a réteg relatív nagyságával és a vizsgált jellemző eloszlásának rétegen belüli szórásával Nagyobb rétegből több elemet kell vennünk Több elemet kell venni azokból a rétegekből ahol nagyobb a szórás és kevesebbet azokból ahol kisebb (ehhez azonban ismerni kell a szórást is) A rétegezett mintavétel akkor alkalmazható jól, ha a vizsgált jellemző eloszlása a sokaságban nem egyenletes, így biztosított, hogy minden részsokaság képviseltesse magát a mintában (pl. jövedelem)

24 Csoportos mintavétel A célsokaságot egymást kölcsönösen kizáró csoportokra bontják, amelyek együttesen lefedik az egész sokaságot (statisztikai populációt). Az így képzett csoportokból egyszerű véletlen mintát vesznek (csoportokat választanak ki). A kiválasztott csoportokból azután vagy mindenkit beválasztanak a mintába, vagy újra EVM-eznek. Gyakori formája a területi mintavétel, ebben az esetben a csoportok területi egységek A mintavétel akkor megfelelő, ha a csoportok mérete ugyanakkora, Ha nagyság alapján nagy az eltérés, akkor a nagysággal arányos véletlen mintavétel alkalmazható

25 Nagysággal arányos csoportos véletlen mintavétel
A csoportokat a nagyságukkal arányos valószínűéggel választjuk ki A nagyobb elemszámú csoportok nagyobb való- színűséggel kerülnek kiválasztásra mint a kisebbek A kisebb elemszámú csoportok kisebb valószínűséggel kerülnek kiválasztásra Eredmény: minden elem azonos valószínűséggel kerül kiválasztásra

26 Véletlen kiválasztási technikák

27 Egyéb véletlen mintavételi technikák
Többlépcsős mintavételezés: Nagyobb egységeket részekre bontunk, és a részek között véletlenszerűen választunk egyet. A kiválasztott részt újabb részekre bontunk, és véletlenszerűen megint választunk… Szekvenciális mintavétel (Wald Ábrahám): a sokaság elemeiből egymást követően veszünk mintát, majd minden mintavételt követően elvégezzük az elemzést, és ez alapján döntünk, hogy szükséges-e újabb elemet beválasztani (döntési szabály előírása a továbblépéshez) Kettős mintavétel: a sokaság elemeiből kétszer veszünk mintát

28 Többlépcsős mintavételezés

29 Választás a véletlen és a nem véletlen mintavételi technikák között
Nem véletlen mintavételi technikát alkalmazzuk, ha Feltáró kutatást akarunk folytatni Nagyok az ún. nem mintavételi hibák A sokaság homogén (szórása alacsony) Statisztikai módszerekkel nem kívánjuk elemezni a mintát Egyszerűbb, operatívabb megoldásra törekszünk Véletlen mintavételi technikát alkalmazunk, ha Leíró kutatást akarunk folytatni A mintavételi hibák nagyok A sokaság heterogén (szórása magas) Statisztikai módszerekkel kívánjuk elemezni a mintát Az operatív megoldás kevésbé szempont

30 A mintavétel kivitelezése
Előfordulási arány: a kutatásra alkalmas emberek előfordulási vagy százalékos arányára utal Megmutatja, hogy hány kontaktust kell létrehozni egy adott mintanagyság előállítás érdekében. Megvalósulási arány: a szűrőfeltételeknek megfelelő személyek közül hány emberrel sikerül elkészíteni az interjút/kérdőívet (akik válaszolnak a megkérdezésre) Az előfordulási és a megvalósulási arányok következtében a kiinduló mintanagyságnak esetenként többszörösen nagyobbnak kell lennie a szükséges mintanagyságnál

31 A mintanagyság meghatározása
Minél pontosabb információra van szükség, annál nagyobb mintát kell venni. Ám minél jobban nő a minta, annál kisebb a javulás a mintanagyság egységnyi növekedésével. Vezérfonal: Tanulmány típusa Mintanagyság a.) Problémafeltáró kutatás (vendégkörvizsgálat) 500 fő b.) Problémamegoldó kutatás (pl. árazás) fő c.) Termékteszt (marketingkutatás) fő d.) Tesztpiaci tanulmányok fő e.) Tesztpiac vizsgálata 10 utazási iroda f.) Fókuszcsoport

32 A mintanagyság meghatározása

33 A mintanagyság meghatározása

34 A mintanagyság meghatározása
SE = s/√n

35 Mintanagyság meghatározása
A mintanagyság más tudományos módszerekkel is meghatározható (ld. később…) Ha a sokaság, illetve a minta nagyobb mint harminc fő, akkor a vizsgált ismérv vélhetőleg normális eloszlást kö- vet, így alkalmazhatók a valószínűségszámítási elvek a mintavételi hiba (konfidencia-intervallumok meghatározásához) A számítási módszereket statisztikából tanultuk A statisztikai módszerek csak akkor működnek, ha a minta reprezentatív

36 Mintanagyság meghatározása t-próbához
A centrális határeloszlás tételéből levezethető, hogy ha egy normális eloszlású változó várható értékére vonatkozó null-hipotézist vizsgálunk az egymintás t próbával, akkor ahhoz, hogy meghatározott (1-) valószínűséggel kimutassunk egy legalább 2d nagyságú különbséget, a mintának számú elemet kell tartalmazni. A képletben u/2 a standard normális eloszlás /2 valószínűséghez tartozó értéke,  az elméleti szórás (vagy annak becslése), d pedig az (1-) valószínűséghez tartozó konfidencia-intervallum szélességének a fele. Azon mintaelemszámok táblázata, amelyek két populáció nagyságszintjének átlagokon alapuló, összetartozó kétmintás t-próbával történő összehason- lítására minimálisan szükségesek ahhoz, hogy egy feltételezett Δ létező különbségből adódó β második fajta hiba mellett ezt a Δ különbséget (1-) valószínűséggel kimutathassuk. (Beyer (1968) nyomán).

37 Beyer táblázata

38 A minimálisan szükséges mintaelemszám meghatározása
Mekkora n minta elemszám garantálja azt, hogy az mintaátlag a minta m várhatóértékétől legfeljebb  távolságra essék legalább 1- valószínűséggel? (Vagyis milyen n-ekre teljesül a reláció? A képletben az egyes paraméterek jelentése: m – a minta várható értéke.  – a mérési pontosság. 1- – a bizonytalanság mértéke (azaz a megbízhatóság mértéke). A kérdésre több válasz is adható, attól függően, mit tételezhetünk fel a minta eloszlásáról.

39 Kapcsolat a minta elemszám, az eltérés és a megbízhatóság között
Ha az n minta elemszám, az  eltérés és a  megbíz- hatóság közül bármely kettőt ismerjük, akkor alsó- becslést tudunk adni a harmadik paraméterre:

40 Paraméteres módszerek
A minta elemszám meghatározása normális eloszlású, ismert  szórású minta esetén: ahol

41 =1 =2

42 Paraméteres módszerek
A minta elemszám meghatározása normális eloszlású, nem ismert szórású minta esetén: ahol az n-1 szabadságfokú Student-eloszlásfüggvény. a minta varianciája,

43 Nemparaméteres módszerek
A centrális határeloszlás-tétel alapján:

44 Nemparaméteres módszerek
A minta elemszám megbecslése a Hoeffding-egyenlőtlenség segítségével: amennyiben az méréseink garantáltan az (a , b) intervallumba esnek,

45 Az eltérés és bizonytalanság becslése, ha ismert az n
Adott n minta elemszám és  maximális eltérés esetén a  maximális bizonytalanság megbecslése: Adott n minta elemszám és  maximális bizonytalanság esetén az  maxi- mális eltérés megbecslése:

46 Nemparaméteres módszerek
A minta elemszám becslése a Bernstein-egyenlőtlenség alapján: amennyiben az méréseink garantáltan az (a,b) intervallumba esnek, és ismert a  szórás

47 Az eltérés és bizonytalanság becslése, ha ismert az n
Adott n minta elemszám és  maximális eltérés esetén a  maximális bizonytalanság megbecslése: Adott n minta elemszám és  maximális bizonytalanság esetén az  maxi- mális eltérés megbecslése:

48 Csernov-egyenlőtlenség
A Csernov-egyenlőtlenség binomiális eloszlású változó farok-eloszlására vonatkozik, tehát paraméteres becslési módszert tesz lehetővé. Ez azzal kecsegtet, hogy a szükséges minta elemszámra kisebb értékeket lehet vele igazolni, mint a nemparaméteres Hoeffding- illetve Bernstein- egyenlőtlenség esetén. Jelölje X az n minta elemszámú méréssorozatban a megfigyelt A esemény gyakoriságát. Az A esemény p=P(A) valószínűségére akarunk legfeljebb 2 szélességű, 1- megbízhatóságú konfidencia-intervallumot szerkeszteni.

49 Csernov-egyenlőtlenség
Az X n,p-paraméterű binomiális eloszlást követ: Az X értékkészlete három diszjunkt részre bontható, alsó (a), középső (k) és felső (f) részre:

50 Csernov-egyenlőtlenség
illetve

51 Csernov-egyenlőtlenség
Ez pontosan akkor áll fenn, ha ami természetesen teljesül, ha , ,

52 Csernov-egyenlőtlenség
A minta elemszám minimumának becslése a Csernov-egyenlőtlenség alapján: az alsó tartományhoz tartozás valószínűsége a felső tartományhoz tartozás valószínűsége p a becsült valószínűség nagysága e az előírt pontosság

53 A minta elemszámok becslései
Moivre Laplace Csernov Bernstein Hoeffding p=0,01,=0,01,=0,1 268 588 793 14979 p=0,01,=0,005,=0,1 1071 2737 2772 59915 p=0,01,=0,02,=0,1 67 175 248 3745 p=0,01,=0,02,=0,05 95 228 306 4611 p=0,01,=0,01,=0,05 380 765 976 18444 A Moivre-Laplace tétellel kapjuk a legjobb becslést, de bizonyított, hogy p  0 vagy 1 esetén a konvergencia lassú, azaz a módszer ilyenkor nem alkalmazható.

54 Csernov-egyenlőtlenség

55 Csernov-egyenlőtlenség

56 Szekvenciális próba a hibavalószínűség ellenőrzésére
( ) e = P H - t elutasítot tuk, holott igaz 1 ( ) e = P H - t elfogadtuk , holott nem igaz 2 Addig folytatjuk a mintavételezést, amíg:

57 Szekvenciális próba a hibavalószínűség ellenőrzésére
A döntéshez szükséges átlagos minta elemszámra bebizonyítható, hogy: ha igaz a nullhipotézis; ha nem igaz a nullhipotézis

58 Adott mintaelemszám és maximális  eltérés esetén
a maximális  bizonytalanság megbecslése Hoeffding: Bernstein: Csernov:

59 Adott mintaelemszám és maximális  eltérés esetén
a maximális  bizonytalanság megbecslése

60 Adott n mintaelemszám és maximális  bizonytalanság
esetén az  maximális eltérés megbecslése Hoeffding: Bernstein:

61 Adott n mintaelemszám és maximális  bizonytalanság
esetén az  maximális eltérés megbecslése


Letölteni ppt "Informatikai Tudományok Doktori Iskola"

Hasonló előadás


Google Hirdetések