Informatikai Tudományok Doktori Iskola Mintavételezés Informatikai Tudományok Doktori Iskola 2018.11.11.
Statisztikai sokaság, populáció A halmaz egészének kevés adattal történő tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetőség (erőforrás), hogy a populáció minden egyes eleméről adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból. 2018.11.11.
Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára … csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino) 2018.11.11.
Kaplan mintavételezési paradoxona Egyrészről, a minta használhatatlan, ha nem reprezentatív. Másrészről, ahhoz, hogy ellenőrizhessük a minta reprezentativitását, tudnunk kell a populáció összes jellemzőjét, amit pedig ha ismerünk, már mintára sincs szükségünk, hisz azt azért vennénk, hogy ezeket a jellemzőket feltárjuk… Edward L. Kaplan, M.D. 2018.11.11.
Elvárások a mintáról A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetők lehessenek a populációra is. Ugyanakkor a szükségesnél ne kelljen nagyobb mintát feldolgozni, mert az költségesebb. 2018.11.11.
Alapkérdések Vegyünk-e egyáltalán mintát? Ha igen, milyen eljárással? Milyen típusú mintát vegyünk Mekkora legyen a minta nagysága? Egyéb kérdések: Pl. Mit tegyünk a nem válaszolási hibákkal? A válaszmegtagadókkal? 2018.11.11.
Fogalmak Cenzus: A sokaság elemeinek teljes számbavétele (pl. népszámlálás) Cenzust alkalmazunk, ha Kicsi a sokaság Figyelni kell az egyedi esetekre Sok idő, sok pénz áll rendelkezésre Nagyon szóródik a megfigyelt jellemző a sokaságban Minta: A sokaság elemeinek egy csoportja. A mintajellemzőkből, más néven statisztikákból tudunk valamilyen következtetést levonni a teljes sokaságra. 2018.11.11.
A mintavételi eljárás A mintavételi eljárás 5 lépésből áll: A célsokaság meghatározása A mintavételi keret meghatározása A mintavételi technika meghatározása A mintanagyság meghatározása A mintavétel kivitelezése 2018.11.11.
Alapfogalmak Célsokaság: azoknak az elemeknek az összessége amelyek rendelkeznek a kutató által keresett paraméterrel. Sokasági elem: az a vizsgálati egység amelyik rendelkezik a kutató által keresett információval. Mintavételi egység: A sokasági elem, vagy az az alapegység, amelyik magában foglalja a sokaság elmeit (pl. háztartásokban elő 18 év feletti nők). Mintavételi keret: a mintavételi egységekről készült felsorolás mely segítségével azonosíthatóak az elemek. Egylépcsős mintavételnél a keret a (vizsgálati) populáció listája. 2018.11.11.
A mintavételi keret Sok esetben, mint például amikor a legyártott tételt minőségi szempontból teszteljük, lehetséges, hogy azonosítsuk és megmérjük a populációt kitevő teljes tétel miden egyes elemét, és hogy mindegyik szerepeljen a mintánkban. Azonban sokkal gyakoribb, hogy ez nem lehetséges. Nem lehetséges azonosítani például valamennyi patkányt, valamint abban az esetben, ha a szavazás nem kötelező, nincs mód arra, hogy azonosítsuk azokat ez egyéneket, akik valóban szavazni fognak az elkövetkező választásokon. Az ilyen, bizonytalanul körülhatárolható populációk nem alkalmasak a mintavételezésre. Eszközként a mintavételi keretet keressük meg, amely alkalmas arra, hogy a populáció minden egyes elemét azonosítsuk és bevonjuk bármely mintánkba. 2018.11.11.
A mintavételi keret A sokaság elemeinek megjelenítése Telefonkönyv Szövetségek taglistái Számlakönyvek Egyéb listák A legfontosabb kérdés itt az, hogy a célsokaság és a mintavételi keret egybeesik-e (Pl. telefonkönyvben mindenki benne van-e, aki rendelkezik a keresett paraméterekkel?) 2018.11.11.
A mintavételi technikák Visszatevéses mintavétel Egy adott elem elvileg többször is a mintába kerülhet Visszatevés nélküli mintavétel Egy elem csak egyszer kerülhet a mintába Bayes-technika Kiválasztási módszer, ahol az elemeket egymást követően választják ki. Minden egyes kiválasztást követően kiszámítják a mintajellemzőket és meghatározzák a költségeket Már a mintavétel előtt ismerni kell a sokaság bizonyos jellemzőit (paraméterek) Nem véletlen mintavételi technikák Véletlen mintavételi technikák 2018.11.11.
Nem véletlen mintavételi technikák Önkényes mintavétel: a minta elemeit általában kérdezőbiztos választja ki pl. üdülőhelyi megkérdezések vendégkör-megkérdezések Nincs mintavételi keret amiből választani lehetne Előnyei Olcsó A mintavételi egységek könnyen elérhetők Könnyű együttműködő egységeket választani Hátrányai Semmilyen meghatározható sokaságot nem reprezentálnak Elméletileg semmiféle általánosításra nem ad módot Torzítás óriási Mire jó? Mire nem jó? Leíró kutatásokhoz Feltáró kutatáshoz Hipotézisek felállításához Kérdőívek teszteléséhez Ok-okozati kutatásokhoz 2018.11.11.
Nem véletlen mintavételi technikák – elbírálásos mintavétel Elbírálásos mintavétel: a kutató a saját tapasztalatai alapján választ a sokaság elemei közül, és eldönti, hogy bekerüljenek-e a mintába vagy sem. Teszthelyszínek kiválasztása (melyik szállodát, céget, utazási irodát kérdezzük meg. Szakértők kiválasztása Körzetek kiválasztása (kérdőívezés helyszíneinek kiválasztása), stb. 2018.11.11.
Nem véletlen mintavételi technikák – Kvótás mintavétel Két lépéses eljárás A kutató felállítja a sokaság kontroll kategóriáit, azaz a kvótákat Végig kell gondolni a sokaság jellemzőit és e jellemzők sokaságon belüli eloszlását Nem Kor Nemzetiség, stb. A mintaelemeket önkényesen vagy elbírálással választja ki. Előnye az alacsony költség és a kényelmes kezelhetőség Nem reprezentatív, amennyiben a sokaság egy fontos jellemezője elkerüli a figyelmünket A több kontrolljellemző növelheti a reprezentativitást, ám a sok jellemzőt nehézkes kezelni A reprezentativitás javítható, ha a kérdezőbiztosok részletes utasítást kapnak, hogy kiket kell megkérdezni 2018.11.11.
Nem véletlen mintavételi technikák – Hólabda mintavétel Speciális jellemzővel bíró sokaságot keresünk (pl. hackerek) Egyvalakit, vagy egy kis csoportot megkeresünk A kezdeti csoport tagjait arra kérjük, hogy ajánljanak másokat akik szintén a célsokasághoz tartoznak Ezzel a módszerrel egyre több válaszadót érünk el 2018.11.11.
Véletlen kiválasztási technikák I. A véletlen mintavétel során az elérendő cél, az, hogy a minta jellemzői teljes egészében megegyezzenek a célsokaság jellemzőivel, azaz ne legyen torzítás Ha mégis van eltérés, akkor a különbség statisztikailag mérhető (megbízhatósági szintekkel) A véletlen technikákkal vett minták jellemzői kivetíthetők az egész sokaságra 2018.11.11.
Véletlen kiválasztási technikák II. A gyakorlatban alkalmazott technikák Egyszerű véletlen mintavétel Szisztematikus mintavétel Rétegzett mintavétel Csoportos mintavétel Egyéb véletlen mintavételi technikák Mindemellett a nem véletlen mintavételi technikák esetében sem teljesül minden esetben a reprezentativitás 2018.11.11.
Egyszerű véletlen mintavétel A sokaság minden eleme ismert és azonos valószínűséggel kerülhet be a mintába. Minden elemet egymástól függetlenül, a mintát a mintavételi keretből véletlen eljárással választjuk ki Technikai megoldások: sorsolás véletlenszám generálása 2018.11.11.
Szisztematikus mintavétel A mintavételi keretben véletlenszerűen kijelölnek egy kezdőpontot Ezt követően kiválasztják a mintavételi keret minden i-dik elemét A mintavételi intervallumot úgy kapják meg, hogy a mintavételi keret elemszámát (N) elosztják a minta elvárt nagyságával (n), az így kapott N/n hányadost a legközelebbi egész számra kerekítik, ez lesz az i Akkor használható, jól, ha a mintavételi keretben nincsenek sorba állítva az elemek a vizsgált jellemzővel összefüggésben 2018.11.11.
Szisztematikus mintavétel Tegyük fel, hogy a populáció elemszáma N=100 A kívánt minta elemszám n=20 N/n=5 Véletlenszerűen kiválasztunk egy számot 1-5 között: pl. 4. A 4. esettől kezdve minden 5.-ket választjuk a mintába 2018.11.11.
Rétegzett mintavétel A sokaságot először csoportokra bontják valamilyen ismert rétegképző ismérv segítségével. Az egyes rétegekből egyszerű véletlen mintavétellel választanak Fontos, hogy a rétegképző ismérv szoros kapcsolatban álljon a vizsgált jellemzővel Legáltalánosabb rétegképző ismérvek a demográfiai jellemzők kor nem jövedelem régió 2018.11.11.
Arányos és nem arányos rétegezés Arányos rétegezés: minden rétegből kiválasztott minta nagysága arányos az adott rétegnek a teljes sokasághoz viszonyított nagyságával Nem arányos rétegezés: a rétegekből választott minta nagysága arányos a réteg relatív nagyságával és a vizsgált jellemző eloszlásának rétegen belüli szórásával Nagyobb rétegből több elemet kell vennünk Több elemet kell venni azokból a rétegekből ahol nagyobb a szórás és kevesebbet azokból ahol kisebb (ehhez azonban ismerni kell a szórást is) A rétegezett mintavétel akkor alkalmazható jól, ha a vizsgált jellemző eloszlása a sokaságban nem egyenletes, így biztosított, hogy minden részsokaság képviseltesse magát a mintában (pl. jövedelem) 2018.11.11.
Csoportos mintavétel A célsokaságot egymást kölcsönösen kizáró csoportokra bontják, amelyek együttesen lefedik az egész sokaságot (statisztikai populációt). Az így képzett csoportokból egyszerű véletlen mintát vesznek (csoportokat választanak ki). A kiválasztott csoportokból azután vagy mindenkit beválasztanak a mintába, vagy újra EVM-eznek. Gyakori formája a területi mintavétel, ebben az esetben a csoportok területi egységek A mintavétel akkor megfelelő, ha a csoportok mérete ugyanakkora, Ha nagyság alapján nagy az eltérés, akkor a nagysággal arányos véletlen mintavétel alkalmazható 2018.11.11.
Nagysággal arányos csoportos véletlen mintavétel A csoportokat a nagyságukkal arányos valószínűéggel választjuk ki A nagyobb elemszámú csoportok nagyobb való- színűséggel kerülnek kiválasztásra mint a kisebbek A kisebb elemszámú csoportok kisebb valószínűséggel kerülnek kiválasztásra Eredmény: minden elem azonos valószínűséggel kerül kiválasztásra 2018.11.11.
Véletlen kiválasztási technikák 2018.11.11.
Egyéb véletlen mintavételi technikák Többlépcsős mintavételezés: Nagyobb egységeket részekre bontunk, és a részek között véletlenszerűen választunk egyet. A kiválasztott részt újabb részekre bontunk, és véletlenszerűen megint választunk… Szekvenciális mintavétel (Wald Ábrahám): a sokaság elemeiből egymást követően veszünk mintát, majd minden mintavételt követően elvégezzük az elemzést, és ez alapján döntünk, hogy szükséges-e újabb elemet beválasztani (döntési szabály előírása a továbblépéshez) Kettős mintavétel: a sokaság elemeiből kétszer veszünk mintát 2018.11.11.
Többlépcsős mintavételezés 2018.11.11.
Választás a véletlen és a nem véletlen mintavételi technikák között Nem véletlen mintavételi technikát alkalmazzuk, ha Feltáró kutatást akarunk folytatni Nagyok az ún. nem mintavételi hibák A sokaság homogén (szórása alacsony) Statisztikai módszerekkel nem kívánjuk elemezni a mintát Egyszerűbb, operatívabb megoldásra törekszünk Véletlen mintavételi technikát alkalmazunk, ha Leíró kutatást akarunk folytatni A mintavételi hibák nagyok A sokaság heterogén (szórása magas) Statisztikai módszerekkel kívánjuk elemezni a mintát Az operatív megoldás kevésbé szempont 2018.11.11.
A mintavétel kivitelezése Előfordulási arány: a kutatásra alkalmas emberek előfordulási vagy százalékos arányára utal. Megmutatja, hogy hány kontaktust kell létrehozni egy adott mintanagyság előállítás érdekében. Megvalósulási arány: a szűrőfeltételeknek megfelelő személyek közül hány emberrel sikerül elkészíteni az interjút/kérdőívet (akik válaszolnak a megkérdezésre) Az előfordulási és a megvalósulási arányok következtében a kiinduló mintanagyságnak esetenként többszörösen nagyobbnak kell lennie a szükséges mintanagyságnál 2018.11.11.
A mintanagyság meghatározása Minél pontosabb információra van szükség, annál nagyobb mintát kell venni. Ám minél jobban nő a minta, annál kisebb a javulás a mintanagyság egységnyi növekedésével. Vezérfonal: Tanulmány típusa Mintanagyság a.) Problémafeltáró kutatás (vendégkörvizsgálat) 500 fő b.) Problémamegoldó kutatás (pl. árazás) 200 fő c.) Termékteszt (marketingkutatás) 200 fő d.) Tesztpiaci tanulmányok 200 fő e.) Tesztpiac vizsgálata 10 utazási iroda f.) Fókuszcsoport 2018.11.11.
A mintanagyság meghatározása 2018.11.11.
A mintanagyság meghatározása 2018.11.11.
A mintanagyság meghatározása SE = s/√n 2018.11.11.
Mintanagyság meghatározása A mintanagyság más tudományos módszerekkel is meghatározható (ld. később…) Ha a sokaság, illetve a minta nagyobb mint harminc fő, akkor a vizsgált ismérv vélhetőleg normális eloszlást kö- vet, így alkalmazhatók a valószínűségszámítási elvek a mintavételi hiba (konfidencia-intervallumok meghatározásához) A számítási módszereket statisztikából tanultuk A statisztikai módszerek csak akkor működnek, ha a minta reprezentatív 2018.11.11.
Mintanagyság meghatározása t-próbához A centrális határeloszlás tételéből levezethető, hogy ha egy normális eloszlású változó várható értékére vonatkozó null-hipotézist vizsgálunk az egymintás t próbával, akkor ahhoz, hogy meghatározott (1-) valószínűséggel kimutassunk egy legalább 2d nagyságú különbséget, a mintának számú elemet kell tartalmazni. A képletben u/2 a standard normális eloszlás /2 valószínűséghez tartozó értéke, az elméleti szórás (vagy annak becslése), d pedig az (1-) valószínűséghez tartozó konfidencia-intervallum szélességének a fele. Azon mintaelemszámok táblázata, amelyek két populáció nagyságszintjének átlagokon alapuló, összetartozó kétmintás t-próbával történő összehason- lítására minimálisan szükségesek ahhoz, hogy egy feltételezett Δ létező különbségből adódó β második fajta hiba mellett ezt a Δ különbséget (1-) valószínűséggel kimutathassuk. (Beyer (1968) nyomán). 2018.11.11.
Beyer táblázata 2018.11.11.
A minimálisan szükséges mintaelemszám meghatározása Mekkora n minta elemszám garantálja azt, hogy az mintaátlag a minta m várhatóértékétől legfeljebb távolságra essék legalább 1- valószínűséggel? (Vagyis milyen n-ekre teljesül a reláció? A képletben az egyes paraméterek jelentése: m – a minta várható értéke. – a mérési pontosság. 1- – a bizonytalanság mértéke (azaz a megbízhatóság mértéke). A kérdésre több válasz is adható, attól függően, mit tételezhetünk fel a minta eloszlásáról. 2018.11.11.
Kapcsolat a minta elemszám, az eltérés és a megbízhatóság között Ha az n minta elemszám, az eltérés és a megbíz- hatóság közül bármely kettőt ismerjük, akkor alsó- becslést tudunk adni a harmadik paraméterre: 2018.11.11.
Paraméteres módszerek A minta elemszám meghatározása normális eloszlású, ismert szórású minta esetén: ahol 2018.11.11.
=1 =2 2018.11.11.
Paraméteres módszerek A minta elemszám meghatározása normális eloszlású, nem ismert szórású minta esetén: ahol az n-1 szabadságfokú Student-eloszlásfüggvény. a minta varianciája, 2018.11.11.
Nemparaméteres módszerek A centrális határeloszlás-tétel alapján: 2018.11.11.
Nemparaméteres módszerek A minta elemszám megbecslése a Hoeffding-egyenlőtlenség segítségével: amennyiben az méréseink garantáltan az (a , b) intervallumba esnek, 2018.11.11.
Az eltérés és bizonytalanság becslése, ha ismert az n Adott n minta elemszám és maximális eltérés esetén a maximális bizonytalanság megbecslése: Adott n minta elemszám és maximális bizonytalanság esetén az maxi- mális eltérés megbecslése: 2018.11.11.
Nemparaméteres módszerek A minta elemszám becslése a Bernstein-egyenlőtlenség alapján: amennyiben az méréseink garantáltan az (a,b) intervallumba esnek, és ismert a szórás 2018.11.11.
Az eltérés és bizonytalanság becslése, ha ismert az n Adott n minta elemszám és maximális eltérés esetén a maximális bizonytalanság megbecslése: Adott n minta elemszám és maximális bizonytalanság esetén az maxi- mális eltérés megbecslése: 2018.11.11.
Csernov-egyenlőtlenség A Csernov-egyenlőtlenség binomiális eloszlású változó farok-eloszlására vonatkozik, tehát paraméteres becslési módszert tesz lehetővé. Ez azzal kecsegtet, hogy a szükséges minta elemszámra kisebb értékeket lehet vele igazolni, mint a nemparaméteres Hoeffding- illetve Bernstein- egyenlőtlenség esetén. Jelölje X az n minta elemszámú méréssorozatban a megfigyelt A esemény gyakoriságát. Az A esemény p=P(A) valószínűségére akarunk legfeljebb 2 szélességű, 1- megbízhatóságú konfidencia-intervallumot szerkeszteni. 2018.11.11.
Csernov-egyenlőtlenség Az X n,p-paraméterű binomiális eloszlást követ: Az X értékkészlete három diszjunkt részre bontható, alsó (a), középső (k) és felső (f) részre: 2018.11.11.
Csernov-egyenlőtlenség illetve 2018.11.11.
Csernov-egyenlőtlenség Ez pontosan akkor áll fenn, ha ami természetesen teljesül, ha , , 2018.11.11.
Csernov-egyenlőtlenség A minta elemszám minimumának becslése a Csernov-egyenlőtlenség alapján: az alsó tartományhoz tartozás valószínűsége a felső tartományhoz tartozás valószínűsége p a becsült valószínűség nagysága e az előírt pontosság 2018.11.11.
A minta elemszámok becslései Moivre Laplace Csernov Bernstein Hoeffding p=0,01,=0,01,=0,1 268 588 793 14979 p=0,01,=0,005,=0,1 1071 2737 2772 59915 p=0,01,=0,02,=0,1 67 175 248 3745 p=0,01,=0,02,=0,05 95 228 306 4611 p=0,01,=0,01,=0,05 380 765 976 18444 A Moivre-Laplace tétellel kapjuk a legjobb becslést, de bizonyított, hogy p 0 vagy 1 esetén a konvergencia lassú, azaz a módszer ilyenkor nem alkalmazható. 2018.11.11.
Csernov-egyenlőtlenség 2018.11.11.
Csernov-egyenlőtlenség 2018.11.11.
Szekvenciális próba a hibavalószínűség ellenőrzésére ( ) e = P H - t elutasítot tuk, holott igaz 1 ( ) e = P H - t elfogadtuk , holott nem igaz 2 Addig folytatjuk a mintavételezést, amíg: 2018.11.11.
Szekvenciális próba a hibavalószínűség ellenőrzésére A döntéshez szükséges átlagos minta elemszámra bebizonyítható, hogy: ha igaz a nullhipotézis; ha nem igaz a nullhipotézis 2018.11.11.
Adott mintaelemszám és maximális eltérés esetén a maximális bizonytalanság megbecslése Hoeffding: Bernstein: Csernov: 2018.11.11.
Adott mintaelemszám és maximális eltérés esetén a maximális bizonytalanság megbecslése 2018.11.11.
Adott n mintaelemszám és maximális bizonytalanság esetén az maximális eltérés megbecslése Hoeffding: Bernstein: 2018.11.11.
Adott n mintaelemszám és maximális bizonytalanság esetén az maximális eltérés megbecslése 2018.11.11.