12. Előadás Dr. Pauler Gábor, Egyetemi Docens

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Hipotézis-ellenőrzés (Statisztikai próbák)
4. Két összetartozó minta összehasonlítása
I. előadás.
II. előadás.
Statisztika II. I. Dr. Szalka Éva, Ph.D..
BECSLÉS A sokasági átlag becslése
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Összetett kísérleti tervek és kiértékelésük
Rangszám statisztikák
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Feladat Egy új kísérleti készítmény hatását szeretnék vizsgálni egereken. 5 féle dózist adnak be 5 vizsgált egérnek, de nem sikerült mindegyik egérnek.
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Általános statisztika II.
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék STATISZTIKA I. 11. Előadás.
Gazdaságelemzési és Statisztikai Tanszék
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Valószínűségszámítás és statisztika előadások Gépész-Villamosmérnök szak BSc MANB030, MALB030 Bevezető.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Budapesti Műszaki és Gazdaságtudományi Egyetem
Nemparaméteres próbák Statisztika II., 5. alkalom.
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Az F-próba szignifikáns
STATISZTIKA II. 2. Előadás
Kvantitatív Módszerek
Valószínűségszámítás
Hipotézis vizsgálat (2)
Következtető statisztika 9.
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Alapfogalmak.
Lineáris regresszió.
t A kétoldalú statisztikai próba alapfogalmai
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Többszempontos ANOVA (I
I. előadás.
Statisztikai alapfogalmak
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
A szóráselemzés gondolatmenete
Valószínűségszámítás II.
Korreláció-számítás.
A számítógépes elemzés alapjai
Bevezetés, tippek Ea-gyak kapcsolata Statisztika II -más tárgyak kapcsolata Hogyan tanulj? Interaktív órák, kérdezz, ha valami nem világos! tananyag =előadások.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Kvantitatív módszerek
Kiváltott agyi jelek informatikai feldolgozása 2016
II. előadás.
Becsléselmélet - Konzultáció
I. Előadás bgk. uni-obuda
Gazdaságinformatikus MSc
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Előadás másolata:

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu

Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése

A mintavétel bizonytalanságai A mintavételezés célja, hogy a minta változóinak különféle jellemzőiből várható érték, arány, szórás az alapsokaság változóinak ugyanezen jellemzőire következtessünk statisztikailag, mert ezeket közvetlenül képtelenség vagy nagyon drága megfigyelni. A minta jellemzői maguk is valószínűségi változók lesznek, mintavételenként ingadoznak, a minta hordozta bizonytalanság miatt, ami két részből áll: Az alapsokasági valószínűségi változó bekövetkezési bizonytalansága. Ez a mintavételezés módjától független. A mintavétel, mint részleges információszerzés jelentette bizonytalanság. Ez erős kapcsolatban áll a mintavétel módjával, és főképp a minta elemszámával: Ha a minta kevés elemből áll, egy véletlenül bekerült szélsőséges érték teljesen eltorzíthatja, a bizonytalanság nő Ahogy a minta elemszámát növeljük, a mintavételezés bizonytalansága egyre csökken, végül, ha a teljes alapsokaság bekerül a mintába, teljesen eltűnik.

A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 1 A kapcsolat elemzésére végezzünk egy kísérletet: Egy 200 elemű, normális eloszlású, 100 várható értékű, 30 szórású alapsokaságból vegyünk több véletlen, visszatevéses mintát, 1 eleműtől egészen 100 eleműig. Minden mintának számítsuk ki a számtani átlagát (ez várható értékük is, lásd a diagrammon). Ismételjük meg az 1..100 elemű mintavételeket többször, és hasonlítsuk össze, hogy az adott elemszámhoz tartozó különböző minták átlaga mennyire tér el egymástól. Ez a mintavételezés bizonytalanságát fejezi ki. Látható, hogy a kis elemszámú minták átlagai igen bizonytalanul közelítik a 100-as alapsokasági várható értéket, jóval alatta és felette is lehetnek Ahogy a mintaelemszám növekszik, a mintaátlagok egyre biztosabban közelítik meg az alapsokasági várható értéket, ehhez konvergálnak (Convergency), a bizonytalansági zóna tölcsérszerűen összeszűkül:

A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 2 Laikusan gondolkodva, azt várnánk, hogy a minta elemszáma és a mintavétel bizonytalansága közt fordított arányosság van: Ha a minta méretét a m eleműre növeljük, a mintavétel bizonytalansága majd 1/m-szeresére csökken Ha azonban kiszámítjuk az adott mintalemszámhoz tartozó mintaátlagok szórását minden elemszámnál (ezen szórásokkal számszerűsítjük a mintavétel bizonytalanságát) kiderül, hogy a helyzet nem ennyire rózsás: A minta m eleműre történő növelése nem 1/m-szeresére csökkenti a mintaátlagok szórását, hanem csak 1/m0.5-szeresére, ami nem olyan nagy javulás, mint vártuk! Ez azért van, mert nem minden mintába vont új elem hordoz ténylegesen új információt, lehet, hogy olyan érték, ami már sokszor szerepel a mintában.

A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 3 Ezt a jelenséget nevezzük az információelméletben az információ csökkenő határhozadékának (Diminishing Marginal Returns of Information): Hiába kerül a minta minden elemének megszerzése ugyanannyiba, (vagyis a költségek m mintaelemszámmal egyenes arányban nőnek) A mintaméret növekedésével az új mintaelemek egyre kevesebb új információt adnak. Ezért a gyakorlatban a minta mérete szinte sohasem haladja meg az alapsokaság 10-25%-át: ennél nagyobb minta jóval drágább lenne, viszont már alig jelentene javulást a becslések megbízhatóságában A minta mérete és megbízhatósága közti kapcsolatot a becslés sztenderd hibája (Standard Error of Estimation) segítségével pontosíthatjuk: egy mintából becsült x jellemző sx sztenderd hibája a jellemző mintabeli szórásának (s) és az m mintaelemszám négyzetgyökének hányadosa: sx = s /m0.5 (12.1) A sztenderd hiba lényegében a mintából számított jellemzők s bizonytalanságából eltűnteti az m mintaméret hatását A sztenderd hiba számításakor feltételezzük, hogy az alapsokaság normális eloszlású. Ha valójában nem így van, akkor a sztenderd hiba torzítani fog!!! Ha a minta mérete nagy (meghaladja az alapsokaság M elemszámának 10%-át), vagy pedig visszatevés nélküli mintavétellel keletkezik, a sztenderd hiba torzítani kezd, ezért korrigálni kell a mintából kihagyott adatok és az alpsokaság elemszáma alkotta hányados négyzetgyökével: sx = s /m0.5×((M-m)/(M-1))0.5 (12.2)

Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése

Az alapsokasági várható érték becslése a mintából 1 A minta átlaga (x) egy pontbecslést ad az alapsokaság m várható értékére. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú statisztikai próbát végzünk: x mintaátlag adott p valószínűséggel (a=1-p szignifikancia szinten) milyen ±c hibahatáron belül közelíti meg hogy az alapsokaság m várható értékét: c = Tinv(a,m-1) × sx (12.3) A mintaátlagok eloszlása normális eloszlású alapsokaság esetén nagyobb elemszámú mintánál normális eloszlást követ, azonban m<30 mintaelemszámnál a t-eloszlás jobban modellezi a helyzetet, ezért eloszlásfüggvényének inverze (Tinv) segítségével számítjuk ki a hibahatárt, m-1 szabadságfok mellett, mert ennyi egy m elemű minta szabadságfoka két oldalú, szimmetrikus próbával, mivel egy adott m értéket igyekszünk közelíten a szignifikancia szinten. Mivel a t-eloszlás szórása a mintaelemszámtól függően mindig valahol közvetlenül 1 alatt van, meg kell szorozni sx sztenderd hibával, hogy illeszkedjen a becsült valószínűségi változó bizonytalanságához.

Az alapsokasági várható érték becslése a mintából 2 Számpélda: egy 3000 elemű alapsokaság várható értékét egy 200 elemű, 96.6 átlagú, 30.5 szórású minta 0.05-ös szignifikancia szinten Tinv(0.05,199) × 30.5/2000.5 = ± 4.24 hibahatárral közelíti. Vagyis 95% az esélye, hogy az alapsokaság várható értéke 96.6 ± 4.24 közé esik. Statisztikai próba a mintaméretre: Ha becslés c hibahatára nem elég pontos számunkra, meghatározhatjuk, hogy a szignifikancia szinten legalább mekkora m’ mintaelemszám szükséges egy megkívánt c’ hibahatár eléréséhez egy s szórású, m elemű minta adatai alapján: m’ = (s/c’ × Tinv(a,m-1))2 (12.4) Számpélda: ha a fenti példában a hibahatárt le szeretnénk nyomni ±3-ra, akkor (30.5/±3 × Tinv(0.05,199))2 ≈ 400 elemű mintát kellene legalább vennünk.

Alapsokasági arány becslése a mintából 1 Gyakran egy {0,1}-értékű dolog (pl. a Magyar Kerék Párt (MKP) szavazója/ nem szavazója valaki) bekövetkezési arányát szeretnénk megbecsülni a sokaságban A mintabeli arány (p) egy pontbecslést ad az alapsokaságbeli p arányra. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú statisztikai próbát végzünk: p mintabeli arány adott a szignifikancia szinten milyen ±c hibahatáron belül közelíti meg az alapsokaságbeli p arányt: c = Norminv(1-a/2,0,1) × sp (12.5) A mintabeli arányok eloszlása normális eloszlású alapsokaság esetén sztenderd normális eloszlást követ, ezért eloszlásfüggvényének inverze (Norminv) segítségével számítjuk ki a hibahatárt, két oldalú, szimmetrikus próbával, mivel egy adott p értéket igyekszünk közelíteni a szignifikancia szinten. Mivel a sztenderd normális eloszlás szórása mindig 1, meg kell szorozni sp sztenderd hibával, hogy illeszkedjen a becsült valószínűségi változó bizonytalanságához. A sztenderd hiba itt: sp = (p×(1-p))0.5/m0.5 (12.6) Mivel p mintabeli arány szórása mindig (p×(1-p))0.5

Alapsokasági arány becslése a mintából 2 Számpélda: egy 3000 fős választókörzeten belüli MI-ÉP szavazók arányát egy 200 elemű mintabeli 44%-os arány 0.05-ös szignifikancia szinten Norminv(0.975,0,1) × (44%×(1-44%))0.5/2000.5 = ±6.9% hibahatárral közelíti. Vagyis 95% az esélye, hogy az alapsokaságbeli arány 44%±6.9% közé esik. Statisztikai próba a mintaméretre: Ha becslés c hibahatára nem elég pontos számunkra, meghatározhatjuk, hogy a szignifikancia szinten legalább mekkora m’ mintaelemszám szükséges egy megkívánt c’ hibahatár eléréséhez egy (p×(1-p))0.5 szórású, m elemű minta adatai alapján: m’ = ((p×(1-p))0.5/c’ × Norminv(1-a/2,0,1))2 (12.7) Számpélda: ha a fenti példában a hibahatárt le szeretnénk nyomni ±5%-ra, akkor ((44%×(1-44%))0.5/±5% × Norminv(0.975,0,1))2 ≈ 379 elemű mintát kellene legalább vennünk.

Alapsokasági variancia becslése a mintából 1 A mintabeli szórás négyzete (v = s2) egy pontbecslést ad az alapsokaságbeli V varianciára. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú, nem szimmetrikus statisztikai próbát végzünk: v mintabeli variancia adott a szignifikancia szinten milyen c-v alsó és c+v felső kritikus értékeken belül közelíti meg az alapsokaságbeli V varianciát: c-v = (m-1) × v / Chiinv(a/2,m-1) (12.8) c+v = (m-1) × v / Chiinv(1-a/2,m-1) (12.9) A mintabeli variancia eloszlása normális eloszlású alapsokaság esetén c2 eloszlást követ, ezért eloszlásfüggvényének inverze (Chiinv) segítségével számítjuk ki a kritikus értékeket, m-1 szabadságfokkal, mert ennyi egy m elemű minta szabadságfoka két oldalú, nem szimmetrikus próbával, mivel egy adott V értéket igyekszünk közelíteni a szignifikancia szinten, de a c2 eloszlás sűrűségfüggvénye nem szimmetrikus! Mivel a c2 eloszlás varianciája mindig 2m, az (m-1) × v-t osztjuk vele, hogy a próba illeszkedjen a becsült valószínűségi változó varianciájához.

Alapsokasági variancia becslése a mintából 2 Számpélda: egy 3000 elemű alapsokaság varianciáját egy 200 elemű, 925.71-es varianciájú mintával közelítem 0.05-ös szignifikancia szinten. A közelítés kritikus értékei: Alsó: 199 × 925.71 / Chiinv(0.025,199) = 767.7 Felső: 199 × 925.71 / Chiinv(0.975,199) = 1138.37 Vagyis 95% az esélye, hogy az alapsokaságbeli varianciája 767.7 és 1138.37 közé esik. Statisztikai próba a mintaméretre: Ha becslés kritikus értékek közti konfidencia intervalluma nem elég pontos számunkra, meghatározhatjuk, hogy a szignifikancia szinten legalább mekkora m’-v és m’+v mintaelemszámok szükségesek a megkívánt c’-v alsó és c’+v felső kritikus értékek eléréséhez egy v szórású, m elemű minta adatai alapján: m’-v = c’-v /v × Chiinv(a/2,m-1)+1 (12.10) m’+v = c’+v /v × Chiinv(1-a/2,m-1)+1 (12.11) Számpélda: ha a fenti példában a konfidencia intervallumot be szeretnénk húzni 800 és 1000 közé, akkor a megkövetelt mintaelemszámok: Az alsó kritikus értéknél: 800 /925.71 × Chiinv(0.025,199)+1 ≈ 208 A felső kritikus értéknél: 1000 /925.71 × Chiinv(0.975,199)+1 ≈ 176 A kettő maximuma 208, ennyi elemű mintát kellene legalább vennünk.

Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése

A nettó és a bruttó mintaméret mn nettó mintaméretnek (Net Sample Size) nevezzük a mintaméret teszt során kiszámított megkövetelt mintaméretet. Ha több változóra, illetve becsült jellemzőre számolunk megkövetelt mintaméretet, akkor – takarékossági okokból, mivel a mintavételezés drága – nem a maximumuk, hanem a számtani átlaguk lesz a nettó mintaméret. mb bruttó mintaméretnek (Gross Sample Size) nevezzük, amely megfigyelési kísérletek kapcsán az adatgyűjtés során költségek merülnek fel. mb= mn / (válaszadási% × értékelhető válasz%) (12.12) Ha a válaszadási arány alacsony és a kitöltés hibaszázaléka magas, akkor a költségeket jelentő bruttó mintaméret többszöröse lehet a ténylegesen használható nettó mintaméretnek. Ez alapvetően attól függ, milyen hatékony a lekérdezési módszer és illeszkedik-e az adott alapsokaság sajátosságaihoz: Mód Beruházási Költség Egység Válaszadási arány Kitöltés minősége Szoftvertámogatás Promóció Kérdezőbiztos Alacsony magas 20% Közepes Bármi, de laptop kell! Termékminta Telefon közepes 10% Jó Computer Aided Phone Interview Sorsolás Levél 3% Szövegszerkesztők Kupon, Sorsolás Internet Magas alacsony 0.50% Kiváló HTML, Java, Oracle Webszerver

Számítógépes alkalmazások a mintavételezéshez Excelben 1 A MintaSzimulator.xls fájl egy 200 elemű, normális eloszlású alapsokaságból történő véletlen visszatevéses mintavételt szimulál 1..100 mintaelemszám közt. A sárga cellákban lévő paraméterekkel meg tudjuk változtatni az eloszlás tulajdonságait. A diagrammokon megfigyelhetjük, hogyan alakul a minta átlaga és szórása különböző elemszámoknál, illetve, ha több mintát átlagolunk, hogyan viselkedik a mintaátlagok átlaga és szórása:

Számítógépes alkalmazások a mintavételezéshez Excelben 2 A MintaVetel.xls fájl egy maximum 200 elemű minta adataiból, amelyek lehetnek folytonos skálán mért számok, vagy bináris értékek (arány becslése esetén) kiszámítja a sárga színű cellákban megadott szignifikancia szintekhez tartozó hibahatárokat az adott mintából, illetve a szintén sárga színű cellákban megadott megkövetelt hibahatárokhoz tartozó megkövetelt mintaelemszámokat. Az alapsokaság elemszámának zöld cellában lefele történő állításával befolyásolhatjuk, hogy a rendszer a 10%-nál nagyobb minta esetén korrigált sztenderd hibákat alkalmazzon. Ugyanezt kell tenni, ha a mintavétel visszatevés nélküli.

Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése

A variancia analízis fogalma 1 A variancia analízis (Analysis of Variance, ANOVA) azonos alapsokaság kettő vagy több, különálló csoportjából vett minták legalább intervallum skálán mért jellemzőit (számtani átlag, arány, variancia) hasonlítja össze. Azt vizsgálja, van-e statisztikailag szignifikáns különbség a csoportok különféle jellemzői között, vagy pedig a köztük lévő különbségek csak véletlenül következtek be. Ezzel arra igyekszik fényt deríteni, hogy a csoportba tartozás hatással van-e a jellemzők nagyságára. A csoportosító változót (Grouping Variable) független változónak (Independent Variable), vagy néha faktornak (Factor) is nevezik. Az összehasonlított jellemzőket függő változónak (Dependent Variable) nevezik. Ez a módszercsoport az idők folyamán sok területen hihetetlen népszerűségre tett szert az előnyei miatt: Viszonylag egyszerűen megérthető, Számolásigénye viszonylag alacsony, így még elektromechanikus számológépeken is kiszámolható volt. Alapfeltételezése, hogy a a független változó eloszlása a csoportokon belül normáis és a csoportok szórása azonos, így – szemben például a kontingencia táblával – eloszlásfüggő (Non-Distribution Free) módszer. De még mindig kevésbé kemény feltételezéseket tesz, mint más, bonyolultabb módszerek. Ezért igen alkalmas erősen sztochasztikus, nagy véletlen zaj által elfedett hatások feltárására

A variancia analízis fogalma 2 A főbb alkalmazási területei: Orvosi és gyógyszerkutatások: hatékonyabb (és piacképesebb...) fájdalomcsillapítók kikísérletezése Élelmiszeripari adalékanyagok: E10-E130 állományjavítók, stabilizátorok, antioxidánsok, emulgeátorok esetleges káros hatásainak felderítése (eltussolása...) Marketing: különféle csomagolások, árazási akciók profitabilitásra gyakorolt pozitív hatásának tesztelése Azonban a variancia analízis számos hátránnyal is rendelkezik: Ha az alapfeltételezések nem teljesülnek, teljesen félrevezető eredményeket ad Nem foglalkozik a hatás oksági viszonyainak felderítésével csak a meglétét mutatja ki Nem foglalkozik a független és függő változó közti hatás irányával (ha a független változik, a függő nőni vagy csökkenni fog?), csak a hatás erősségét vizsgálja. Az irányra csak vizsgálatok sorozatával lehet következtetni, ezért pl. a gyógyszeripar évente hatalmas mennyiségű macskát végez ki, szörnyű kínhalállal.

A variancia analízis fogalma 3 A variancia analízis helytelen alkalmazásából, vagy a vele történő visszaélésből sok mocsok dolog (és jelentős profit...) született: Egy helytelen alkalmazás: 1970-es évek Contergan-botrány: ANOVA elemzésekkel kimutatták, hogy bizonyos vegyületek különösen hatékony fájdalomcsillapítók terhes nők számára. Azonban a szer teljes hatásmechanizmusa homályban maradt, és sietve piacra dobták. Több ezer torz, végtagok nélküli gyerek született miatta Egy (sajnos) nagyon is működő alkalmazás: az 1980-as években a nagy dohányipari konszernek ANOVA-vizsgálatok segítségével rájöttek, hogy bizonyos tetrabenzol-származékok sokkal erősebb függőséget alakítanak ki, mint a nikotin, így azóta ezt mikroadagokban minden cigarettába belerakják. Szerencsétlen balekok, aki későn, de észbe kapnak, és le akarnak szokni, tonnaszámra vásárolják a nikotin tapaszt, mégis majd megdöglenek az elvonási tünetektől, egy olyan vegyület miatt, aminek a nevét sem hallották még. Így a tetrabenzolok hatékonyan akadályozák a leszokást és a piacvesztést, elősegítik a 12-14 évesek kémiai függőségének gyors kialakulását, ráadásul igen rákkeltőek, főleg a vérrák különböző fajtáinak kialakulásában van szerepük. A legyegyszerűbb vizsgálatok a két mintás próbák (Two Sample Tests), ahol mindig csak két csoport van: Teszt csoport (Test Group): a megfigyelt egyedek azon csoportja, amit valamilyen kezelésben (Treatment) részesítünk, pl. új gyógyszerkészítményt, vagy új leárazási akciót próbálunk ki rajta. Kontrol csoport (Control Group): az egyedek azon csoportja, amely nem kapja a kezelést, pl. gyógyszerteszt esetén hatástalan placebót kap, vagy olyan vevők, akik számára nem elérhető a leárazási akció. Azt próbáljuk kideríteni, hogy a teszt csoport különféle jellemzői szignifikánsan eltérnek-e a kezelés hatására a kontroll csoportétól.

Két minta varianciájának összehasonlítása Két, normális eloszlású alapsokaságból vett minta varianciáit egy két oldalú statisztikai próba segítségével hasonlíthatjuk össze: A folytonos F-eloszlásfüggvény inverze segítségével x0, x1 kritikus értéket számíthatunk, amelyek közé p valószínűséggel (a=1-p szignifikancia szinten) esnie kellene egy n elemű tesztcsoport varianciája és egy m elemű kontrolcsoport varianciája hányadosának, ha azonos eloszlású alapsokaságból vették őket. Excel: x0 =Finv(a/2,n,m), x1 =Finv(1-a/2,n,m) SPSS: x0 =IDF.F(0.5-p/2,n,m), x1 =IDF.F(0.5+p/2,n,m) Ezután kiszámítjuk a teszt csoport és a kontrol csoport varianciájának arányát (F), és összehasonlítjuk a kritikus értékekkel: x0  F = VAR(tesztcsoport) / VAR(kontrolcsoport)  x1 (12.13) Ha F nem esik x0, x1 kritikus értékek közé, a két csoport varianciája a=1-p szignifikancia szinten nem azonos. Számpélda: egy 100 elemű 1011.78 varianciájú tesztcsoport és egy 100 elemű 843.3 varianciájú kontrolcsoport varianciájának aránya 1.2. Ez beleesik az 5%-os szignifikancia szinthez és (100,100) szabadságfokú F-eloszlás által megadott [0.67,1.48] intervallumba, tehát a varianciák azonosnak tekinthetők.

Két minta számtani átlagának összehasonlítása Két, normális eloszlású, n és m elemű, azonos sn = sm szórású minta xn, xm átlagait egy oldalú próbával hasonlíthatjuk össze: a t-eloszlásfüggvény inverze segítségével kiszámíthajuk, maximum mekkora x0 kritikus érték lehet a mintaátlagok különbsége abszolút értékének és a két minta együttes sztenderd hibájának hányadosa a=1-p szignifikancia szinten: Excel: x0 =Tinv(1-p, n+m-2) ez két oldalú függvény, egy oldalúvá transzformálva: x0 =Tinv(1-(p-0.5)*2, n+m-2) SPSS: x0 =IDF.T(p, n+m-2) Ezután kiszámítjuk a mintákból a hányadost és megnézzük, hogy a kritikus érték alá esik-e: (12.14) Ha a hányados túllépi a kritikus értéket, az átlagok nem egyeznek meg a két minta esetében. Azt, hogy a minták szórásai azonosak-e, az előzőleg ismertetett F-próba segítségével vizsgálhatjuk meg. Számpélda: egy 100 elemű 95.00 átlagú tesztcsoport és egy 100 elemű 98.36 átlagú kontrolcsoportból számított t tesztérték 0.02, ami alatta marad az 5%-os szignifikancia szinthez, 198 szabadságfokhoz tartozó t-eloszlás 1.65-ös kritikus értékének, így az átlagok azonosnak tekinthetők

Két mintabeli arány összehasonlítása Két, normális eloszlású, n és m elemű, azonos sn = sm szórású mintabeli pn, pm arányokat egy oldalú próbával hasonlíthatjuk össze: a sztenderd normális eloszlásfüggvény inverze segítségével kiszámíthajuk, maximum mekkora x0 kritikus érték lehet a mintabeli arányok különbsége abszolút értékének és a két minta együttes sztenderd hibájának hányadosa a=1-p szignifikancia szinten: Excel: x0 =Norminv(p,0,1) SPSS: x0 =IDF.Normal(p,0,1) Eután kiszámítjuk a mintákból a hányadost és megnézzük, hogy a kritikus érték alá esik-e: (12.15) Ha a hányados túllépi a kritikus értéket, az arányok nem egyeznek meg a két minta esetében. Azt, hogy a minták szórásai azonosak-e, az előzőleg ismertetett F-próba segítségével vizsgálhatjuk meg. Számpélda: egy 100 elemű 43% arányú tesztcsoport és egy 100 elemű 45% arányú kontrolcsoportból számított z tesztérték 0.28, ami alatta marad az 5%-os szignifikancia szinthez tartozó sztenderd normális eloszlás 1.64-es kritikus értékének, így az arányok azonosnak tekinthetők

Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok Variancia összehasonlítása Átlagok összehasonlítása Arányok összehasonlítása Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis A kapcsolat erejének mérése és tesztelése

Számítógépes alkalmazás a két csoportos vizsgálatokhoz Excelben A KetMintasProbak.xls fájl a két mintás próbák működését szemlélteti. A zöld cellákba egy max. 100 elemű tesztcsoport és egy max. 100 elemű kontrol csoport folytonos vagy (arányokhoz szükséges) bináris értékeit tölthetjük. A sárga cellákban megadott szignifikancia szintek mellett a rendszer kiszámítja, vajon a teszt- és a kontrollcsoport átlaga/varianciája/aránya közt van-e szignifikáns különbség:

Az egyutas variancia analízis fogalma Az egyutas variancia analízis (One-Way ANOVA) Egy több kategóriából álló csoportosító változó (a független változó) értékei szerint k = 1..c csoportra osztott mintát vesz az alapsokaságból, A teljes minta elemszáma legyen j =1..M, az egyes csoportok elemszámai j = 1..mk, k = 1..c Összehasonlítja a minták legalább intervallum skálán mért y függő változó szerinti ak számtani átlagait, van-e köztük statisztikailag szignifikáns különbség? Az alapfeltételezései: Az y függő változó alapsokasági és csoportokon belüli eloszlása normális, A k = 1..c csoportokon belüli szórások azonosak (F-próbákkal tesztelhető)

A kapcsolat ereje és ennek tesztelése A csoportátlagok közti csoportmértekkel súlyozott varianciával (Across-Group Weighted Variance) számszerűsítjük a csoportátlagok közti eltérések nagyságát: (12.16) A csoportokon belüli varianciák csoportméretekkel súlyozott átlaga (Weighted Average of Within-Group Variances) azt számszerűsíti, hogy a minta önmagában, mindenféle csoporthatás nélkül, pusztán a véletlen hatására mennyire szóródik: (12.17) A kapcsolat ereje (Main Effect) mutatóban a csoportátlagok közti súlyozott varianciát összehasonlítjuk a csoportokon belüli átlagos varianciával: h2 = VK / (VK + VB) (12.18) A kapcsolat erejének tesztelésekor egy egy oldalú F-próba értéket számítunk a csoportátlagok közti súlyozott variancia és a csoportokon belüli átlagos variancia hányadosaként: F = (VK / VB) × ((M-c)/(c-1))  x0 (12.19) Ha ez adott a szignifikancia szinten az (c-1,M-c) szabadságfokú F-eloszlás x0 kritikus értéke alatt marad, akkor a csoportátlagok nem térnek el egymástól. Számpélda: egy 988 elemű mintában 7 csoport van, a csoportok elemszáma rendre (109, 227, 113, 49, 174, 141, 175) egy Hitel változó szerinti csoportátlagok rendre (-1.51, 0.58, 0.54, 0.15, -1.18, 0.47, 0.61), a csoporton belüli varianciák rendre (0.51, 0.10, 0.08, 0.67, 0.70, 0.26, 0.08). Hat-e a csopotosítás a Hitel változó átlagaira? A VK értéke 0.71, a VB étéke 0.54, a kapcsolat ereje 0.56, az F-tesztérték 2.38, az F kritikus érték 5% szignifikanca szinten (7-1, 988-7) szabadságfok mellett csak 2.11, vagyis az átlagok eltérnek!

Szakirodalom Sokváltozós statisztika jegyzetek CANAL-formátumban: Statisztika jegyzetek.doc ANOVA: Elméleti bevezető: http://www.statsoft.com/textbook/stanman.html Részletes matematikai formuláció: http://mathworld.wolfram.com/ANOVA.html ANOVA, ANCOVA, MANCOVA összehasonlítása: http://www2.chass.ncsu.edu/garson/pa765/anova.htm Flash animáció az ANOVA működéséről: http://www.psych.utah.edu/stat/introstats/anovaflash.html ANOVA animáció, saját bevihető adatokkal: http://faculty.vassar.edu/lowry/VassarStats.html ANOVA SPSS-ben: http://www.psychstat.missouristate.edu/introbook/sbk27.htm ANOVA Hyperstat-ban: http://www.ruf.rice.edu/~lane/hyperstat/intro_ANOVA.html