Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu
Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése
A mintavétel bizonytalanságai A mintavételezés célja, hogy a minta változóinak különféle jellemzőiből várható érték, arány, szórás az alapsokaság változóinak ugyanezen jellemzőire következtessünk statisztikailag, mert ezeket közvetlenül képtelenség vagy nagyon drága megfigyelni. A minta jellemzői maguk is valószínűségi változók lesznek, mintavételenként ingadoznak, a minta hordozta bizonytalanság miatt, ami két részből áll: Az alapsokasági valószínűségi változó bekövetkezési bizonytalansága. Ez a mintavételezés módjától független. A mintavétel, mint részleges információszerzés jelentette bizonytalanság. Ez erős kapcsolatban áll a mintavétel módjával, és főképp a minta elemszámával: Ha a minta kevés elemből áll, egy véletlenül bekerült szélsőséges érték teljesen eltorzíthatja, a bizonytalanság nő Ahogy a minta elemszámát növeljük, a mintavételezés bizonytalansága egyre csökken, végül, ha a teljes alapsokaság bekerül a mintába, teljesen eltűnik.
A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 1 A kapcsolat elemzésére végezzünk egy kísérletet: Egy 200 elemű, normális eloszlású, 100 várható értékű, 30 szórású alapsokaságból vegyünk több véletlen, visszatevéses mintát, 1 eleműtől egészen 100 eleműig. Minden mintának számítsuk ki a számtani átlagát (ez várható értékük is, lásd a diagrammon). Ismételjük meg az 1..100 elemű mintavételeket többször, és hasonlítsuk össze, hogy az adott elemszámhoz tartozó különböző minták átlaga mennyire tér el egymástól. Ez a mintavételezés bizonytalanságát fejezi ki. Látható, hogy a kis elemszámú minták átlagai igen bizonytalanul közelítik a 100-as alapsokasági várható értéket, jóval alatta és felette is lehetnek Ahogy a mintaelemszám növekszik, a mintaátlagok egyre biztosabban közelítik meg az alapsokasági várható értéket, ehhez konvergálnak (Convergency), a bizonytalansági zóna tölcsérszerűen összeszűkül:
A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 2 Laikusan gondolkodva, azt várnánk, hogy a minta elemszáma és a mintavétel bizonytalansága közt fordított arányosság van: Ha a minta méretét a m eleműre növeljük, a mintavétel bizonytalansága majd 1/m-szeresére csökken Ha azonban kiszámítjuk az adott mintalemszámhoz tartozó mintaátlagok szórását minden elemszámnál (ezen szórásokkal számszerűsítjük a mintavétel bizonytalanságát) kiderül, hogy a helyzet nem ennyire rózsás: A minta m eleműre történő növelése nem 1/m-szeresére csökkenti a mintaátlagok szórását, hanem csak 1/m0.5-szeresére, ami nem olyan nagy javulás, mint vártuk! Ez azért van, mert nem minden mintába vont új elem hordoz ténylegesen új információt, lehet, hogy olyan érték, ami már sokszor szerepel a mintában.
A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 3 Ezt a jelenséget nevezzük az információelméletben az információ csökkenő határhozadékának (Diminishing Marginal Returns of Information): Hiába kerül a minta minden elemének megszerzése ugyanannyiba, (vagyis a költségek m mintaelemszámmal egyenes arányban nőnek) A mintaméret növekedésével az új mintaelemek egyre kevesebb új információt adnak. Ezért a gyakorlatban a minta mérete szinte sohasem haladja meg az alapsokaság 10-25%-át: ennél nagyobb minta jóval drágább lenne, viszont már alig jelentene javulást a becslések megbízhatóságában A minta mérete és megbízhatósága közti kapcsolatot a becslés sztenderd hibája (Standard Error of Estimation) segítségével pontosíthatjuk: egy mintából becsült x jellemző sx sztenderd hibája a jellemző mintabeli szórásának (s) és az m mintaelemszám négyzetgyökének hányadosa: sx = s /m0.5 (12.1) A sztenderd hiba lényegében a mintából számított jellemzők s bizonytalanságából eltűnteti az m mintaméret hatását A sztenderd hiba számításakor feltételezzük, hogy az alapsokaság normális eloszlású. Ha valójában nem így van, akkor a sztenderd hiba torzítani fog!!! Ha a minta mérete nagy (meghaladja az alapsokaság M elemszámának 10%-át), vagy pedig visszatevés nélküli mintavétellel keletkezik, a sztenderd hiba torzítani kezd, ezért korrigálni kell a mintából kihagyott adatok és az alpsokaság elemszáma alkotta hányados négyzetgyökével: sx = s /m0.5×((M-m)/(M-1))0.5 (12.2)
Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése
Az alapsokasági várható érték becslése a mintából 1 A minta átlaga (x) egy pontbecslést ad az alapsokaság m várható értékére. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú statisztikai próbát végzünk: x mintaátlag adott p valószínűséggel (a=1-p szignifikancia szinten) milyen ±c hibahatáron belül közelíti meg hogy az alapsokaság m várható értékét: c = Tinv(a,m-1) × sx (12.3) A mintaátlagok eloszlása normális eloszlású alapsokaság esetén nagyobb elemszámú mintánál normális eloszlást követ, azonban m<30 mintaelemszámnál a t-eloszlás jobban modellezi a helyzetet, ezért eloszlásfüggvényének inverze (Tinv) segítségével számítjuk ki a hibahatárt, m-1 szabadságfok mellett, mert ennyi egy m elemű minta szabadságfoka két oldalú, szimmetrikus próbával, mivel egy adott m értéket igyekszünk közelíten a szignifikancia szinten. Mivel a t-eloszlás szórása a mintaelemszámtól függően mindig valahol közvetlenül 1 alatt van, meg kell szorozni sx sztenderd hibával, hogy illeszkedjen a becsült valószínűségi változó bizonytalanságához.
Az alapsokasági várható érték becslése a mintából 2 Számpélda: egy 3000 elemű alapsokaság várható értékét egy 200 elemű, 96.6 átlagú, 30.5 szórású minta 0.05-ös szignifikancia szinten Tinv(0.05,199) × 30.5/2000.5 = ± 4.24 hibahatárral közelíti. Vagyis 95% az esélye, hogy az alapsokaság várható értéke 96.6 ± 4.24 közé esik. Statisztikai próba a mintaméretre: Ha becslés c hibahatára nem elég pontos számunkra, meghatározhatjuk, hogy a szignifikancia szinten legalább mekkora m’ mintaelemszám szükséges egy megkívánt c’ hibahatár eléréséhez egy s szórású, m elemű minta adatai alapján: m’ = (s/c’ × Tinv(a,m-1))2 (12.4) Számpélda: ha a fenti példában a hibahatárt le szeretnénk nyomni ±3-ra, akkor (30.5/±3 × Tinv(0.05,199))2 ≈ 400 elemű mintát kellene legalább vennünk.
Alapsokasági arány becslése a mintából 1 Gyakran egy {0,1}-értékű dolog (pl. a Magyar Kerék Párt (MKP) szavazója/ nem szavazója valaki) bekövetkezési arányát szeretnénk megbecsülni a sokaságban A mintabeli arány (p) egy pontbecslést ad az alapsokaságbeli p arányra. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú statisztikai próbát végzünk: p mintabeli arány adott a szignifikancia szinten milyen ±c hibahatáron belül közelíti meg az alapsokaságbeli p arányt: c = Norminv(1-a/2,0,1) × sp (12.5) A mintabeli arányok eloszlása normális eloszlású alapsokaság esetén sztenderd normális eloszlást követ, ezért eloszlásfüggvényének inverze (Norminv) segítségével számítjuk ki a hibahatárt, két oldalú, szimmetrikus próbával, mivel egy adott p értéket igyekszünk közelíteni a szignifikancia szinten. Mivel a sztenderd normális eloszlás szórása mindig 1, meg kell szorozni sp sztenderd hibával, hogy illeszkedjen a becsült valószínűségi változó bizonytalanságához. A sztenderd hiba itt: sp = (p×(1-p))0.5/m0.5 (12.6) Mivel p mintabeli arány szórása mindig (p×(1-p))0.5
Alapsokasági arány becslése a mintából 2 Számpélda: egy 3000 fős választókörzeten belüli MI-ÉP szavazók arányát egy 200 elemű mintabeli 44%-os arány 0.05-ös szignifikancia szinten Norminv(0.975,0,1) × (44%×(1-44%))0.5/2000.5 = ±6.9% hibahatárral közelíti. Vagyis 95% az esélye, hogy az alapsokaságbeli arány 44%±6.9% közé esik. Statisztikai próba a mintaméretre: Ha becslés c hibahatára nem elég pontos számunkra, meghatározhatjuk, hogy a szignifikancia szinten legalább mekkora m’ mintaelemszám szükséges egy megkívánt c’ hibahatár eléréséhez egy (p×(1-p))0.5 szórású, m elemű minta adatai alapján: m’ = ((p×(1-p))0.5/c’ × Norminv(1-a/2,0,1))2 (12.7) Számpélda: ha a fenti példában a hibahatárt le szeretnénk nyomni ±5%-ra, akkor ((44%×(1-44%))0.5/±5% × Norminv(0.975,0,1))2 ≈ 379 elemű mintát kellene legalább vennünk.
Alapsokasági variancia becslése a mintából 1 A mintabeli szórás négyzete (v = s2) egy pontbecslést ad az alapsokaságbeli V varianciára. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú, nem szimmetrikus statisztikai próbát végzünk: v mintabeli variancia adott a szignifikancia szinten milyen c-v alsó és c+v felső kritikus értékeken belül közelíti meg az alapsokaságbeli V varianciát: c-v = (m-1) × v / Chiinv(a/2,m-1) (12.8) c+v = (m-1) × v / Chiinv(1-a/2,m-1) (12.9) A mintabeli variancia eloszlása normális eloszlású alapsokaság esetén c2 eloszlást követ, ezért eloszlásfüggvényének inverze (Chiinv) segítségével számítjuk ki a kritikus értékeket, m-1 szabadságfokkal, mert ennyi egy m elemű minta szabadságfoka két oldalú, nem szimmetrikus próbával, mivel egy adott V értéket igyekszünk közelíteni a szignifikancia szinten, de a c2 eloszlás sűrűségfüggvénye nem szimmetrikus! Mivel a c2 eloszlás varianciája mindig 2m, az (m-1) × v-t osztjuk vele, hogy a próba illeszkedjen a becsült valószínűségi változó varianciájához.
Alapsokasági variancia becslése a mintából 2 Számpélda: egy 3000 elemű alapsokaság varianciáját egy 200 elemű, 925.71-es varianciájú mintával közelítem 0.05-ös szignifikancia szinten. A közelítés kritikus értékei: Alsó: 199 × 925.71 / Chiinv(0.025,199) = 767.7 Felső: 199 × 925.71 / Chiinv(0.975,199) = 1138.37 Vagyis 95% az esélye, hogy az alapsokaságbeli varianciája 767.7 és 1138.37 közé esik. Statisztikai próba a mintaméretre: Ha becslés kritikus értékek közti konfidencia intervalluma nem elég pontos számunkra, meghatározhatjuk, hogy a szignifikancia szinten legalább mekkora m’-v és m’+v mintaelemszámok szükségesek a megkívánt c’-v alsó és c’+v felső kritikus értékek eléréséhez egy v szórású, m elemű minta adatai alapján: m’-v = c’-v /v × Chiinv(a/2,m-1)+1 (12.10) m’+v = c’+v /v × Chiinv(1-a/2,m-1)+1 (12.11) Számpélda: ha a fenti példában a konfidencia intervallumot be szeretnénk húzni 800 és 1000 közé, akkor a megkövetelt mintaelemszámok: Az alsó kritikus értéknél: 800 /925.71 × Chiinv(0.025,199)+1 ≈ 208 A felső kritikus értéknél: 1000 /925.71 × Chiinv(0.975,199)+1 ≈ 176 A kettő maximuma 208, ennyi elemű mintát kellene legalább vennünk.
Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése
A nettó és a bruttó mintaméret mn nettó mintaméretnek (Net Sample Size) nevezzük a mintaméret teszt során kiszámított megkövetelt mintaméretet. Ha több változóra, illetve becsült jellemzőre számolunk megkövetelt mintaméretet, akkor – takarékossági okokból, mivel a mintavételezés drága – nem a maximumuk, hanem a számtani átlaguk lesz a nettó mintaméret. mb bruttó mintaméretnek (Gross Sample Size) nevezzük, amely megfigyelési kísérletek kapcsán az adatgyűjtés során költségek merülnek fel. mb= mn / (válaszadási% × értékelhető válasz%) (12.12) Ha a válaszadási arány alacsony és a kitöltés hibaszázaléka magas, akkor a költségeket jelentő bruttó mintaméret többszöröse lehet a ténylegesen használható nettó mintaméretnek. Ez alapvetően attól függ, milyen hatékony a lekérdezési módszer és illeszkedik-e az adott alapsokaság sajátosságaihoz: Mód Beruházási Költség Egység Válaszadási arány Kitöltés minősége Szoftvertámogatás Promóció Kérdezőbiztos Alacsony magas 20% Közepes Bármi, de laptop kell! Termékminta Telefon közepes 10% Jó Computer Aided Phone Interview Sorsolás Levél 3% Szövegszerkesztők Kupon, Sorsolás Internet Magas alacsony 0.50% Kiváló HTML, Java, Oracle Webszerver
Számítógépes alkalmazások a mintavételezéshez Excelben 1 A MintaSzimulator.xls fájl egy 200 elemű, normális eloszlású alapsokaságból történő véletlen visszatevéses mintavételt szimulál 1..100 mintaelemszám közt. A sárga cellákban lévő paraméterekkel meg tudjuk változtatni az eloszlás tulajdonságait. A diagrammokon megfigyelhetjük, hogyan alakul a minta átlaga és szórása különböző elemszámoknál, illetve, ha több mintát átlagolunk, hogyan viselkedik a mintaátlagok átlaga és szórása:
Számítógépes alkalmazások a mintavételezéshez Excelben 2 A MintaVetel.xls fájl egy maximum 200 elemű minta adataiból, amelyek lehetnek folytonos skálán mért számok, vagy bináris értékek (arány becslése esetén) kiszámítja a sárga színű cellákban megadott szignifikancia szintekhez tartozó hibahatárokat az adott mintából, illetve a szintén sárga színű cellákban megadott megkövetelt hibahatárokhoz tartozó megkövetelt mintaelemszámokat. Az alapsokaság elemszámának zöld cellában lefele történő állításával befolyásolhatjuk, hogy a rendszer a 10%-nál nagyobb minta esetén korrigált sztenderd hibákat alkalmazzon. Ugyanezt kell tenni, ha a mintavétel visszatevés nélküli.
Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése
A variancia analízis fogalma 1 A variancia analízis (Analysis of Variance, ANOVA) azonos alapsokaság kettő vagy több, különálló csoportjából vett minták legalább intervallum skálán mért jellemzőit (számtani átlag, arány, variancia) hasonlítja össze. Azt vizsgálja, van-e statisztikailag szignifikáns különbség a csoportok különféle jellemzői között, vagy pedig a köztük lévő különbségek csak véletlenül következtek be. Ezzel arra igyekszik fényt deríteni, hogy a csoportba tartozás hatással van-e a jellemzők nagyságára. A csoportosító változót (Grouping Variable) független változónak (Independent Variable), vagy néha faktornak (Factor) is nevezik. Az összehasonlított jellemzőket függő változónak (Dependent Variable) nevezik. Ez a módszercsoport az idők folyamán sok területen hihetetlen népszerűségre tett szert az előnyei miatt: Viszonylag egyszerűen megérthető, Számolásigénye viszonylag alacsony, így még elektromechanikus számológépeken is kiszámolható volt. Alapfeltételezése, hogy a a független változó eloszlása a csoportokon belül normáis és a csoportok szórása azonos, így – szemben például a kontingencia táblával – eloszlásfüggő (Non-Distribution Free) módszer. De még mindig kevésbé kemény feltételezéseket tesz, mint más, bonyolultabb módszerek. Ezért igen alkalmas erősen sztochasztikus, nagy véletlen zaj által elfedett hatások feltárására
A variancia analízis fogalma 2 A főbb alkalmazási területei: Orvosi és gyógyszerkutatások: hatékonyabb (és piacképesebb...) fájdalomcsillapítók kikísérletezése Élelmiszeripari adalékanyagok: E10-E130 állományjavítók, stabilizátorok, antioxidánsok, emulgeátorok esetleges káros hatásainak felderítése (eltussolása...) Marketing: különféle csomagolások, árazási akciók profitabilitásra gyakorolt pozitív hatásának tesztelése Azonban a variancia analízis számos hátránnyal is rendelkezik: Ha az alapfeltételezések nem teljesülnek, teljesen félrevezető eredményeket ad Nem foglalkozik a hatás oksági viszonyainak felderítésével csak a meglétét mutatja ki Nem foglalkozik a független és függő változó közti hatás irányával (ha a független változik, a függő nőni vagy csökkenni fog?), csak a hatás erősségét vizsgálja. Az irányra csak vizsgálatok sorozatával lehet következtetni, ezért pl. a gyógyszeripar évente hatalmas mennyiségű macskát végez ki, szörnyű kínhalállal.
A variancia analízis fogalma 3 A variancia analízis helytelen alkalmazásából, vagy a vele történő visszaélésből sok mocsok dolog (és jelentős profit...) született: Egy helytelen alkalmazás: 1970-es évek Contergan-botrány: ANOVA elemzésekkel kimutatták, hogy bizonyos vegyületek különösen hatékony fájdalomcsillapítók terhes nők számára. Azonban a szer teljes hatásmechanizmusa homályban maradt, és sietve piacra dobták. Több ezer torz, végtagok nélküli gyerek született miatta Egy (sajnos) nagyon is működő alkalmazás: az 1980-as években a nagy dohányipari konszernek ANOVA-vizsgálatok segítségével rájöttek, hogy bizonyos tetrabenzol-származékok sokkal erősebb függőséget alakítanak ki, mint a nikotin, így azóta ezt mikroadagokban minden cigarettába belerakják. Szerencsétlen balekok, aki későn, de észbe kapnak, és le akarnak szokni, tonnaszámra vásárolják a nikotin tapaszt, mégis majd megdöglenek az elvonási tünetektől, egy olyan vegyület miatt, aminek a nevét sem hallották még. Így a tetrabenzolok hatékonyan akadályozák a leszokást és a piacvesztést, elősegítik a 12-14 évesek kémiai függőségének gyors kialakulását, ráadásul igen rákkeltőek, főleg a vérrák különböző fajtáinak kialakulásában van szerepük. A legyegyszerűbb vizsgálatok a két mintás próbák (Two Sample Tests), ahol mindig csak két csoport van: Teszt csoport (Test Group): a megfigyelt egyedek azon csoportja, amit valamilyen kezelésben (Treatment) részesítünk, pl. új gyógyszerkészítményt, vagy új leárazási akciót próbálunk ki rajta. Kontrol csoport (Control Group): az egyedek azon csoportja, amely nem kapja a kezelést, pl. gyógyszerteszt esetén hatástalan placebót kap, vagy olyan vevők, akik számára nem elérhető a leárazási akció. Azt próbáljuk kideríteni, hogy a teszt csoport különféle jellemzői szignifikánsan eltérnek-e a kezelés hatására a kontroll csoportétól.
Két minta varianciájának összehasonlítása Két, normális eloszlású alapsokaságból vett minta varianciáit egy két oldalú statisztikai próba segítségével hasonlíthatjuk össze: A folytonos F-eloszlásfüggvény inverze segítségével x0, x1 kritikus értéket számíthatunk, amelyek közé p valószínűséggel (a=1-p szignifikancia szinten) esnie kellene egy n elemű tesztcsoport varianciája és egy m elemű kontrolcsoport varianciája hányadosának, ha azonos eloszlású alapsokaságból vették őket. Excel: x0 =Finv(a/2,n,m), x1 =Finv(1-a/2,n,m) SPSS: x0 =IDF.F(0.5-p/2,n,m), x1 =IDF.F(0.5+p/2,n,m) Ezután kiszámítjuk a teszt csoport és a kontrol csoport varianciájának arányát (F), és összehasonlítjuk a kritikus értékekkel: x0 F = VAR(tesztcsoport) / VAR(kontrolcsoport) x1 (12.13) Ha F nem esik x0, x1 kritikus értékek közé, a két csoport varianciája a=1-p szignifikancia szinten nem azonos. Számpélda: egy 100 elemű 1011.78 varianciájú tesztcsoport és egy 100 elemű 843.3 varianciájú kontrolcsoport varianciájának aránya 1.2. Ez beleesik az 5%-os szignifikancia szinthez és (100,100) szabadságfokú F-eloszlás által megadott [0.67,1.48] intervallumba, tehát a varianciák azonosnak tekinthetők.
Két minta számtani átlagának összehasonlítása Két, normális eloszlású, n és m elemű, azonos sn = sm szórású minta xn, xm átlagait egy oldalú próbával hasonlíthatjuk össze: a t-eloszlásfüggvény inverze segítségével kiszámíthajuk, maximum mekkora x0 kritikus érték lehet a mintaátlagok különbsége abszolút értékének és a két minta együttes sztenderd hibájának hányadosa a=1-p szignifikancia szinten: Excel: x0 =Tinv(1-p, n+m-2) ez két oldalú függvény, egy oldalúvá transzformálva: x0 =Tinv(1-(p-0.5)*2, n+m-2) SPSS: x0 =IDF.T(p, n+m-2) Ezután kiszámítjuk a mintákból a hányadost és megnézzük, hogy a kritikus érték alá esik-e: (12.14) Ha a hányados túllépi a kritikus értéket, az átlagok nem egyeznek meg a két minta esetében. Azt, hogy a minták szórásai azonosak-e, az előzőleg ismertetett F-próba segítségével vizsgálhatjuk meg. Számpélda: egy 100 elemű 95.00 átlagú tesztcsoport és egy 100 elemű 98.36 átlagú kontrolcsoportból számított t tesztérték 0.02, ami alatta marad az 5%-os szignifikancia szinthez, 198 szabadságfokhoz tartozó t-eloszlás 1.65-ös kritikus értékének, így az átlagok azonosnak tekinthetők
Két mintabeli arány összehasonlítása Két, normális eloszlású, n és m elemű, azonos sn = sm szórású mintabeli pn, pm arányokat egy oldalú próbával hasonlíthatjuk össze: a sztenderd normális eloszlásfüggvény inverze segítségével kiszámíthajuk, maximum mekkora x0 kritikus érték lehet a mintabeli arányok különbsége abszolút értékének és a két minta együttes sztenderd hibájának hányadosa a=1-p szignifikancia szinten: Excel: x0 =Norminv(p,0,1) SPSS: x0 =IDF.Normal(p,0,1) Eután kiszámítjuk a mintákból a hányadost és megnézzük, hogy a kritikus érték alá esik-e: (12.15) Ha a hányados túllépi a kritikus értéket, az arányok nem egyeznek meg a két minta esetében. Azt, hogy a minták szórásai azonosak-e, az előzőleg ismertetett F-próba segítségével vizsgálhatjuk meg. Számpélda: egy 100 elemű 43% arányú tesztcsoport és egy 100 elemű 45% arányú kontrolcsoportból számított z tesztérték 0.28, ami alatta marad az 5%-os szignifikancia szinthez tartozó sztenderd normális eloszlás 1.64-es kritikus értékének, így az arányok azonosnak tekinthetők
Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése
Számítógépes alkalmazás a két csoportos vizsgálatokhoz Excelben A KetMintasProbak.xls fájl a két mintás próbák működését szemlélteti. A zöld cellákba egy max. 100 elemű tesztcsoport és egy max. 100 elemű kontrol csoport folytonos vagy (arányokhoz szükséges) bináris értékeit tölthetjük. A sárga cellákban megadott szignifikancia szintek mellett a rendszer kiszámítja, vajon a teszt- és a kontrollcsoport átlaga/varianciája/aránya közt van-e szignifikáns különbség:
Az egyutas variancia analízis fogalma Az egyutas variancia analízis (One-Way ANOVA) Egy több kategóriából álló csoportosító változó (a független változó) értékei szerint k = 1..c csoportra osztott mintát vesz az alapsokaságból, A teljes minta elemszáma legyen j =1..M, az egyes csoportok elemszámai j = 1..mk, k = 1..c Összehasonlítja a minták legalább intervallum skálán mért y függő változó szerinti ak számtani átlagait, van-e köztük statisztikailag szignifikáns különbség? Az alapfeltételezései: Az y függő változó alapsokasági és csoportokon belüli eloszlása normális, A k = 1..c csoportokon belüli szórások azonosak (F-próbákkal tesztelhető)
A kapcsolat ereje és ennek tesztelése A csoportátlagok közti csoportmértekkel súlyozott varianciával (Across-Group Weighted Variance) számszerűsítjük a csoportátlagok közti eltérések nagyságát: (12.16) A csoportokon belüli varianciák csoportméretekkel súlyozott átlaga (Weighted Average of Within-Group Variances) azt számszerűsíti, hogy a minta önmagában, mindenféle csoporthatás nélkül, pusztán a véletlen hatására mennyire szóródik: (12.17) A kapcsolat ereje (Main Effect) mutatóban a csoportátlagok közti súlyozott varianciát összehasonlítjuk a csoportokon belüli átlagos varianciával: h2 = VK / (VK + VB) (12.18) A kapcsolat erejének tesztelésekor egy egy oldalú F-próba értéket számítunk a csoportátlagok közti súlyozott variancia és a csoportokon belüli átlagos variancia hányadosaként: F = (VK / VB) × ((M-c)/(c-1)) x0 (12.19) Ha ez adott a szignifikancia szinten az (c-1,M-c) szabadságfokú F-eloszlás x0 kritikus értéke alatt marad, akkor a csoportátlagok nem térnek el egymástól. Számpélda: egy 988 elemű mintában 7 csoport van, a csoportok elemszáma rendre (109, 227, 113, 49, 174, 141, 175) egy Hitel változó szerinti csoportátlagok rendre (-1.51, 0.58, 0.54, 0.15, -1.18, 0.47, 0.61), a csoporton belüli varianciák rendre (0.51, 0.10, 0.08, 0.67, 0.70, 0.26, 0.08). Hat-e a csopotosítás a Hitel változó átlagaira? A VK értéke 0.71, a VB étéke 0.54, a kapcsolat ereje 0.56, az F-tesztérték 2.38, az F kritikus érték 5% szignifikanca szinten (7-1, 988-7) szabadságfok mellett csak 2.11, vagyis az átlagok eltérnek!
Szakirodalom Sokváltozós statisztika jegyzetek CANAL-formátumban: Statisztika jegyzetek.doc ANOVA: Elméleti bevezető: http://www.statsoft.com/textbook/stanman.html Részletes matematikai formuláció: http://mathworld.wolfram.com/ANOVA.html ANOVA, ANCOVA, MANCOVA összehasonlítása: http://www2.chass.ncsu.edu/garson/pa765/anova.htm Flash animáció az ANOVA működéséről: http://www.psych.utah.edu/stat/introstats/anovaflash.html ANOVA animáció, saját bevihető adatokkal: http://faculty.vassar.edu/lowry/VassarStats.html ANOVA SPSS-ben: http://www.psychstat.missouristate.edu/introbook/sbk27.htm ANOVA Hyperstat-ban: http://www.ruf.rice.edu/~lane/hyperstat/intro_ANOVA.html