Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.

Hasonló előadás


Az előadások a következő témára: "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."— Előadás másolata:

1 Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /

2 Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok –Variancia összehasonlítása –Átlagok összehasonlítása –Arányok összehasonlítása –Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis –A kapcsolat erejének mérése és tesztelése

3 A mintavétel bizonytalanságai A mintavételezés célja, hogy a minta változóinak különféle jellemzőiből –várható érték, –arány, –szórás az alapsokaság változóinak ugyanezen jellemzőire következtessünk statisztikailag, mert ezeket közvetlenül képtelenség vagy nagyon drága megfigyelni. A minta jellemzői maguk is valószínűségi változók lesznek, mintavételenként ingadoznak, a minta hordozta bizonytalanság miatt, ami két részből áll: –Az alapsokasági valószínűségi változó bekövetkezési bizonytalansága. Ez a mintavételezés módjától független. –A mintavétel, mint részleges információszerzés jelentette bizonytalanság. Ez erős kapcsolatban áll a mintavétel módjával, és főképp a minta elemszámával: Ha a minta kevés elemből áll, egy véletlenül bekerült szélsőséges érték teljesen eltorzíthatja, a bizonytalanság nő Ahogy a minta elemszámát növeljük, a mintavételezés bizonytalansága egyre csökken, végül, ha a teljes alapsokaság bekerül a mintába, teljesen eltűnik.

4 A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 1 A kapcsolat elemzésére végezzünk egy kísérletet: Egy 200 elemű, normális eloszlású, 100 várható értékű, 30 szórású alapsokaságból vegyünk több véletlen, visszatevéses mintát, 1 eleműtől egészen 100 eleműig. Minden mintának számítsuk ki a számtani átlagát (ez várható értékük is, lásd a diagrammon). Ismételjük meg az elemű mintavételeket többször, és hasonlítsuk össze, hogy az adott elemszámhoz tartozó különböző minták átlaga mennyire tér el egymástól. Ez a mintavételezés bizonytalanságát fejezi ki. Látható, hogy a kis elemszámú minták átlagai igen bizonytalanul közelítik a 100- as alapsokasági várható értéket, jóval alatta és felette is lehetnek Ahogy a mintaelemszám növekszik, a mintaátlagok egyre biztosabban közelítik meg az alapsokasági várható értéket, ehhez konvergálnak (Convergency), a bizonytalansági zóna tölcsérszerűen összeszűkül:

5 A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 2 Laikusan gondolkodva, azt várnánk, hogy a minta elemszáma és a mintavétel bizonytalansága közt fordított arányosság van: Ha a minta méretét a m eleműre növeljük, a mintavétel bizonytalansága majd 1/m-szeresére csökken Ha azonban kiszámítjuk az adott mintalemszámhoz tartozó mintaátlagok szórását minden elemszámnál (ezen szórásokkal számszerűsítjük a mintavétel bizonytalanságát) kiderül, hogy a helyzet nem ennyire rózsás: A minta m eleműre történő növelése nem 1/m-szeresére csökkenti a mintaátlagok szórását, hanem csak 1/m 0.5 -szeresére, ami nem olyan nagy javulás, mint vártuk! Ez azért van, mert nem minden mintába vont új elem hordoz ténylegesen új információt, lehet, hogy olyan érték, ami már sokszor szerepel a mintában.

6 A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat 3 Ezt a jelenséget nevezzük az információelméletben az információ csökkenő határhozadékának (Diminishing Marginal Returns of Information): Hiába kerül a minta minden elemének megszerzése ugyanannyiba, (vagyis a költségek m mintaelemszámmal egyenes arányban nőnek) A mintaméret növekedésével az új mintaelemek egyre kevesebb új információt adnak. Ezért a gyakorlatban a minta mérete szinte sohasem haladja meg az alapsokaság 10-25%-át: ennél nagyobb minta jóval drágább lenne, viszont már alig jelentene javulást a becslések megbízhatóságában A minta mérete és megbízhatósága közti kapcsolatot a becslés sztenderd hibája (Standard Error of Estimation) segítségével pontosíthatjuk: egy mintából becsült x jellemző s x sztenderd hibája a jellemző mintabeli szórásának (s) és az m mintaelemszám négyzetgyökének hányadosa: s x = s /m 0.5 (12.1) A sztenderd hiba lényegében a mintából számított jellemzők s bizonytalanságából eltűnteti az m mintaméret hatását A sztenderd hiba számításakor feltételezzük, hogy az alapsokaság normális eloszlású. Ha valójában nem így van, akkor a sztenderd hiba torzítani fog!!! Ha a minta mérete nagy (meghaladja az alapsokaság M elemszámának 10%-át), vagy pedig visszatevés nélküli mintavétellel keletkezik, a sztenderd hiba torzítani kezd, ezért korrigálni kell a mintából kihagyott adatok és az alpsokaság elemszáma alkotta hányados négyzetgyökével: s x = s /m 0.5 ×((M-m)/(M-1)) 0.5 (12.2)

7 Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok –Variancia összehasonlítása –Átlagok összehasonlítása –Arányok összehasonlítása –Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis –A kapcsolat erejének mérése és tesztelése

8 Az alapsokasági várható érték becslése a mintából 1 A minta átlaga (x) egy pontbecslést ad az alapsokaság  várható értékére. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú statisztikai próbát végzünk: x mintaátlag adott p valószínűséggel (  =1-p szignifikancia szinten) milyen ±c hibahatáron belül közelíti meg hogy az alapsokaság  várható értékét: c = Tinv( ,m-1) × s x (12.3) A mintaátlagok eloszlása normális eloszlású alapsokaság esetén nagyobb elemszámú mintánál normális eloszlást követ, azonban m<30 mintaelemszámnál a t-eloszlás jobban modellezi a helyzetet, ezért eloszlásfüggvényének inverze (Tinv) segítségével számítjuk ki a hibahatárt, –m-1 szabadságfok mellett, mert ennyi egy m elemű minta szabadságfoka –két oldalú, szimmetrikus próbával, mivel egy adott  értéket igyekszünk közelíten  szignifikancia szinten. Mivel a t-eloszlás szórása a mintaelemszámtól függően mindig valahol közvetlenül 1 alatt van, meg kell szorozni s x sztenderd hibával, hogy illeszkedjen a becsült valószínűségi változó bizonytalanságához.

9 Az alapsokasági várható érték becslése a mintából 2 Számpélda: egy 3000 elemű alapsokaság várható értékét egy 200 elemű, 96.6 átlagú, 30.5 szórású minta 0.05-ös szignifikancia szinten Tinv(0.05,199) × 30.5/ = ± 4.24 hibahatárral közelíti. Vagyis 95% az esélye, hogy az alapsokaság várható értéke 96.6 ± 4.24 közé esik. Statisztikai próba a mintaméretre: Ha becslés c hibahatára nem elég pontos számunkra, meghatározhatjuk, hogy  szignifikancia szinten legalább mekkora m’ mintaelemszám szükséges egy megkívánt c’ hibahatár eléréséhez egy s szórású, m elemű minta adatai alapján: m’ = (s/c’ × Tinv( ,m-1)) 2 (12.4) Számpélda: ha a fenti példában a hibahatárt le szeretnénk nyomni ±3-ra, akkor (30.5/±3 × Tinv(0.05,199)) 2 ≈ 400 elemű mintát kellene legalább vennünk.

10 Alapsokasági arány becslése a mintából 1 Gyakran egy {0,1}-értékű dolog (pl. a Magyar Kerék Párt (MKP) szavazója/ nem szavazója valaki) bekövetkezési arányát szeretnénk megbecsülni a sokaságban A mintabeli arány (p) egy pontbecslést ad az alapsokaságbeli  arányra. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú statisztikai próbát végzünk: p mintabeli arány adott  szignifikancia szinten milyen ±c hibahatáron belül közelíti meg az alapsokaságbeli  arányt: c = Norminv(1- ,0,1) × s p (12.5) A mintabeli arányok eloszlása normális eloszlású alapsokaság esetén sztenderd normális eloszlást követ, ezért eloszlásfüggvényének inverze (Norminv) segítségével számítjuk ki a hibahatárt, két oldalú, szimmetrikus próbával, mivel egy adott  értéket igyekszünk közelíteni  szignifikancia szinten. Mivel a sztenderd normális eloszlás szórása mindig 1, meg kell szorozni s p sztenderd hibával, hogy illeszkedjen a becsült valószínűségi változó bizonytalanságához. A sztenderd hiba itt: s p = (p×(1-p)) 0.5 /m 0.5 (12.6) Mivel p mintabeli arány szórása mindig (p×(1-p)) 0.5

11 Alapsokasági arány becslése a mintából 2 Számpélda: egy 3000 fős választókörzeten belüli MI-ÉP szavazók arányát egy 200 elemű mintabeli 44%-os arány 0.05-ös szignifikancia szinten Norminv(0.975,0,1) × (44%×(1-44%)) 0.5 / = ±6.9% hibahatárral közelíti. Vagyis 95% az esélye, hogy az alapsokaságbeli arány 44%±6.9% közé esik. Statisztikai próba a mintaméretre: Ha becslés c hibahatára nem elég pontos számunkra, meghatározhatjuk, hogy  szignifikancia szinten legalább mekkora m’ mintaelemszám szükséges egy megkívánt c’ hibahatár eléréséhez egy (p×(1-p)) 0.5 szórású, m elemű minta adatai alapján: m’ = ((p×(1-p)) 0.5 /c’ × Norminv(1- ,0,1)) 2 (12.7) Számpélda: ha a fenti példában a hibahatárt le szeretnénk nyomni ±5%-ra, akkor ((44%×(1- 44%)) 0.5 /±5% × Norminv(0.975,0,1)) 2 ≈ 379 elemű mintát kellene legalább vennünk.

12 Alapsokasági variancia becslése a mintából 1 A mintabeli szórás négyzete (v = s 2 ) egy pontbecslést ad az alapsokaságbeli V varianciára. Ebből azonban nem tudjuk meg, hogy a becslés milyen pontos! Ezért két oldalú, nem szimmetrikus statisztikai próbát végzünk: v mintabeli variancia adott  szignifikancia szinten milyen c -v alsó és c +v felső kritikus értékeken belül közelíti meg az alapsokaságbeli V varianciát: c -v = (m-1) × v / Chiinv( ,m-1)(12.8) c +v = (m-1) × v / Chiinv(1- ,m-1)(12.9) A mintabeli variancia eloszlása normális eloszlású alapsokaság esetén  2 eloszlást követ, ezért eloszlásfüggvényének inverze (Chiinv) segítségével számítjuk ki a kritikus értékeket, –m-1 szabadságfokkal, mert ennyi egy m elemű minta szabadságfoka –két oldalú, nem szimmetrikus próbával, mivel egy adott V értéket igyekszünk közelíteni  szignifikancia szinten, de a  2 eloszlás sűrűségfüggvénye nem szimmetrikus! Mivel a  2 eloszlás varianciája mindig 2m, az (m-1) × v-t osztjuk vele, hogy a próba illeszkedjen a becsült valószínűségi változó varianciájához.

13 Alapsokasági variancia becslése a mintából 2 Számpélda: egy 3000 elemű alapsokaság varianciáját egy 200 elemű, es varianciájú mintával közelítem 0.05-ös szignifikancia szinten. A közelítés kritikus értékei: Alsó: 199 × / Chiinv(0.025,199) = Felső: 199 × / Chiinv(0.975,199) = Vagyis 95% az esélye, hogy az alapsokaságbeli varianciája és közé esik. Statisztikai próba a mintaméretre: Ha becslés kritikus értékek közti konfidencia intervalluma nem elég pontos számunkra, meghatározhatjuk, hogy  szignifikancia szinten legalább mekkora m’ -v és m’ +v mintaelemszámok szükségesek a megkívánt c’ -v alsó és c’ +v felső kritikus értékek eléréséhez egy v szórású, m elemű minta adatai alapján: m’ -v = c’ -v /v × Chiinv( ,m-1)+1 (12.10) m’ +v = c’ +v /v × Chiinv(1- ,m-1)+1 (12.11) Számpélda: ha a fenti példában a konfidencia intervallumot be szeretnénk húzni 800 és 1000 közé, akkor a megkövetelt mintaelemszámok: Az alsó kritikus értéknél: 800 / × Chiinv(0.025,199)+1 ≈ 208 A felső kritikus értéknél: 1000 / × Chiinv(0.975,199)+1 ≈ 176 A kettő maximuma 208, ennyi elemű mintát kellene legalább vennünk.

14 Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok –Variancia összehasonlítása –Átlagok összehasonlítása –Arányok összehasonlítása –Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis –A kapcsolat erejének mérése és tesztelése

15 A nettó és a bruttó mintaméret m n nettó mintaméretnek (Net Sample Size) nevezzük a mintaméret teszt során kiszámított megkövetelt mintaméretet. Ha több változóra, illetve becsült jellemzőre számolunk megkövetelt mintaméretet, akkor – takarékossági okokból, mivel a mintavételezés drága – nem a maximumuk, hanem a számtani átlaguk lesz a nettó mintaméret. m b bruttó mintaméretnek (Gross Sample Size) nevezzük, amely megfigyelési kísérletek kapcsán az adatgyűjtés során költségek merülnek fel. m b = m n / (válaszadási% × értékelhető válasz%) (12.12) Ha a válaszadási arány alacsony és a kitöltés hibaszázaléka magas, akkor a költségeket jelentő bruttó mintaméret többszöröse lehet a ténylegesen használható nettó mintaméretnek. Ez alapvetően attól függ, milyen hatékony a lekérdezési módszer és illeszkedik-e az adott alapsokaság sajátosságaihoz: Mód Beruházási Költség Egység Költség Válaszadási arány Kitöltés minőségeSzoftvertámogatásPromóció KérdezőbiztosAlacsonymagas20%KözepesBármi, de laptop kell!Termékminta TelefonKözepesközepes10%Jó Computer Aided Phone InterviewSorsolás LevélAlacsonyközepes3%AlacsonySzövegszerkesztőkKupon, Sorsolás InternetMagasalacsony0.50%Kiváló HTML, Java, Oracle WebszerverKupon, Sorsolás

16 Számítógépes alkalmazások a mintavételezéshez Excelben 1 A MintaSzimulator.xls fájl egy 200 elemű, normális eloszlású alapsokaságból történő véletlen visszatevéses mintavételt szimulál mintaelemszám közt. A sárga cellákban lévő paraméterekkel meg tudjuk változtatni az eloszlás tulajdonságait. A diagrammokon megfigyelhetjük, hogyan alakul a minta átlaga és szórása különböző elemszámoknál, illetve, ha több mintát átlagolunk, hogyan viselkedik a mintaátlagok átlaga és szórása:MintaSzimulator.xls

17 Számítógépes alkalmazások a mintavételezéshez Excelben 2 A MintaVetel.xls fájl egy maximum 200 elemű minta adataiból, amelyek lehetnek folytonos skálán mért számok, vagy bináris értékek (arány becslése esetén) kiszámítja a sárga színű cellákban megadott szignifikancia szintekhez tartozó hibahatárokat az adott mintából, illetve a szintén sárga színű cellákban megadott megkövetelt hibahatárokhoz tartozó megkövetelt mintaelemszámokat. Az alapsokaság elemszámának zöld cellában lefele történő állításával befolyásolhatjuk, hogy a rendszer a 10%-nál nagyobb minta esetén korrigált sztenderd hibákat alkalmazzon. Ugyanezt kell tenni, ha a mintavétel visszatevés nélküli.MintaVetel.xls

18 Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok –Variancia összehasonlítása –Átlagok összehasonlítása –Arányok összehasonlítása –Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis –A kapcsolat erejének mérése és tesztelése

19 A variancia analízis fogalma 1 A variancia analízis (Analysis of Variance, ANOVA) azonos alapsokaság kettő vagy több, különálló csoportjából vett minták legalább intervallum skálán mért jellemzőit (számtani átlag, arány, variancia) hasonlítja össze. Azt vizsgálja, van-e statisztikailag szignifikáns különbség a csoportok különféle jellemzői között, vagy pedig a köztük lévő különbségek csak véletlenül következtek be. Ezzel arra igyekszik fényt deríteni, hogy a csoportba tartozás hatással van-e a jellemzők nagyságára. A csoportosító változót (Grouping Variable) független változónak (Independent Variable), vagy néha faktornak (Factor) is nevezik. Az összehasonlított jellemzőket függő változónak (Dependent Variable) nevezik. Ez a módszercsoport az idők folyamán sok területen hihetetlen népszerűségre tett szert az előnyei miatt: Viszonylag egyszerűen megérthető, Számolásigénye viszonylag alacsony, így még elektromechanikus számológépeken is kiszámolható volt. Alapfeltételezése, hogy a a független változó eloszlása a csoportokon belül normáis és a csoportok szórása azonos, így – szemben például a kontingencia táblával – eloszlásfüggő (Non-Distribution Free) módszer. De még mindig kevésbé kemény feltételezéseket tesz, mint más, bonyolultabb módszerek. Ezért igen alkalmas erősen sztochasztikus, nagy véletlen zaj által elfedett hatások feltárására

20 A variancia analízis fogalma 2 A főbb alkalmazási területei: Orvosi és gyógyszerkutatások: hatékonyabb (és piacképesebb...) fájdalomcsillapítók kikísérletezése Élelmiszeripari adalékanyagok: E10-E130 állományjavítók, stabilizátorok, antioxidánsok, emulgeátorok esetleges káros hatásainak felderítése (eltussolása...) Marketing: különféle csomagolások, árazási akciók profitabilitásra gyakorolt pozitív hatásának tesztelése Azonban a variancia analízis számos hátránnyal is rendelkezik: Ha az alapfeltételezések nem teljesülnek, teljesen félrevezető eredményeket ad Nem foglalkozik a hatás oksági viszonyainak felderítésével csak a meglétét mutatja ki Nem foglalkozik a független és függő változó közti hatás irányával (ha a független változik, a függő nőni vagy csökkenni fog?), csak a hatás erősségét vizsgálja. Az irányra csak vizsgálatok sorozatával lehet következtetni, ezért pl. a gyógyszeripar évente hatalmas mennyiségű macskát végez ki, szörnyű kínhalállal.

21 A variancia analízis fogalma 3 A variancia analízis helytelen alkalmazásából, vagy a vele történő visszaélésből sok mocsok dolog (és jelentős profit...) született: Egy helytelen alkalmazás: 1970-es évek Contergan-botrány: ANOVA elemzésekkel kimutatták, hogy bizonyos vegyületek különösen hatékony fájdalomcsillapítók terhes nők számára. Azonban a szer teljes hatásmechanizmusa homályban maradt, és sietve piacra dobták. Több ezer torz, végtagok nélküli gyerek született miatta Egy (sajnos) nagyon is működő alkalmazás: az 1980-as években a nagy dohányipari konszernek ANOVA-vizsgálatok segítségével rájöttek, hogy bizonyos tetrabenzol-származékok sokkal erősebb függőséget alakítanak ki, mint a nikotin, így azóta ezt mikroadagokban minden cigarettába belerakják. Szerencsétlen balekok, aki későn, de észbe kapnak, és le akarnak szokni, tonnaszámra vásárolják a nikotin tapaszt, mégis majd megdöglenek az elvonási tünetektől, egy olyan vegyület miatt, aminek a nevét sem hallották még. Így a tetrabenzolok hatékonyan akadályozák a leszokást és a piacvesztést, elősegítik a évesek kémiai függőségének gyors kialakulását, ráadásul igen rákkeltőek, főleg a vérrák különböző fajtáinak kialakulásában van szerepük. A legyegyszerűbb vizsgálatok a két mintás próbák (Two Sample Tests), ahol mindig csak két csoport van: Teszt csoport (Test Group): a megfigyelt egyedek azon csoportja, amit valamilyen kezelésben (Treatment) részesítünk, pl. új gyógyszerkészítményt, vagy új leárazási akciót próbálunk ki rajta. Kontrol csoport (Control Group): az egyedek azon csoportja, amely nem kapja a kezelést, pl. gyógyszerteszt esetén hatástalan placebót kap, vagy olyan vevők, akik számára nem elérhető a leárazási akció. Azt próbáljuk kideríteni, hogy a teszt csoport különféle jellemzői szignifikánsan eltérnek-e a kezelés hatására a kontroll csoportétól.

22 Két minta varianciájának összehasonlítása Két, normális eloszlású alapsokaságból vett minta varianciáit egy két oldalú statisztikai próba segítségével hasonlíthatjuk össze: A folytonos F- eloszlásfüggvény inverze segítségével x 0, x 1 kritikus értéket számíthatunk, amelyek közé p valószínűséggel (  =1-p szignifikancia szinten) esnie kellene egy n elemű tesztcsoport varianciája és egy m elemű kontrolcsoport varianciája hányadosának, ha azonos eloszlású alapsokaságból vették őket. Excel: x 0 =Finv( ,n,m), x 1 =Finv(1- ,n,m) SPSS: x 0 =IDF.F(0.5-p/2,n,m), x 1 =IDF.F(0.5+p/2,n,m) Ezután kiszámítjuk a teszt csoport és a kontrol csoport varianciájának arányát (F), és összehasonlítjuk a kritikus értékekkel: x 0  F = VAR(tesztcsoport) / VAR(kontrolcsoport)  x 1 (12.13) Ha F nem esik x 0, x 1 kritikus értékek közé, a két csoport varianciája  =1- p szignifikancia szinten nem azonos. Számpélda: egy 100 elemű varianciájú tesztcsoport és egy 100 elemű varianciájú kontrolcsoport varianciájának aránya 1.2. Ez beleesik az 5%-os szignifikancia szinthez és (100,100) szabadságfokú F-eloszlás által megadott [0.67,1.48] intervallumba, tehát a varianciák azonosnak tekinthetők.

23 Két minta számtani átlagának összehasonlítása Két, normális eloszlású, n és m elemű, azonos s n = s m szórású minta x n, x m átlagait egy oldalú próbával hasonlíthatjuk össze: a t- eloszlásfüggvény inverze segítségével kiszámíthajuk, maximum mekkora x 0 kritikus érték lehet a mintaátlagok különbsége abszolút értékének és a két minta együttes sztenderd hibájának hányadosa  =1-p szignifikancia szinten: Excel: x 0 =Tinv(1-p, n+m-2) ez két oldalú függvény, egy oldalúvá transzformálva: x 0 =Tinv(1-(p-0.5)*2, n+m-2) SPSS: x 0 =IDF.T(p, n+m-2) Ezután kiszámítjuk a mintákból a hányadost és megnézzük, hogy a kritikus érték alá esik-e: (12.14) Ha a hányados túllépi a kritikus értéket, az átlagok nem egyeznek meg a két minta esetében. Azt, hogy a minták szórásai azonosak-e, az előzőleg ismertetett F- próba segítségével vizsgálhatjuk meg. Számpélda: egy 100 elemű átlagú tesztcsoport és egy 100 elemű átlagú kontrolcsoportból számított t tesztérték 0.02, ami alatta marad az 5%-os szignifikancia szinthez, 198 szabadságfokhoz tartozó t-eloszlás 1.65-ös kritikus értékének, így az átlagok azonosnak tekinthetők

24 Két mintabeli arány összehasonlítása Két, normális eloszlású, n és m elemű, azonos s n = s m szórású mintabeli p n, p m arányokat egy oldalú próbával hasonlíthatjuk össze: a sztenderd normális eloszlásfüggvény inverze segítségével kiszámíthajuk, maximum mekkora x 0 kritikus érték lehet a mintabeli arányok különbsége abszolút értékének és a két minta együttes sztenderd hibájának hányadosa  =1-p szignifikancia szinten: Excel: x 0 =Norminv(p ,  ) SPSS: x 0 =IDF.Normal(p, ,  ) Eután kiszámítjuk a mintákból a hányadost és megnézzük, hogy a kritikus érték alá esik-e: (12.15) Ha a hányados túllépi a kritikus értéket, az arányok nem egyeznek meg a két minta esetében. Azt, hogy a minták szórásai azonosak-e, az előzőleg ismertetett F- próba segítségével vizsgálhatjuk meg. Számpélda: egy 100 elemű 43% arányú tesztcsoport és egy 100 elemű 45% arányú kontrolcsoportból számított z tesztérték 0.28, ami alatta marad az 5%-os szignifikancia szinthez tartozó sztenderd normális eloszlás 1.64-es kritikus értékének, így az arányok azonosnak tekinthetők

25 Az előadás tartalma A mintavételezés, hibahatár és mintaméret számítása A mintavétel bizonytalanságai A minta elemszáma és a mintavétel bizonytalansága közti kapcsolat Alapsokasági várható érték becslése Alapsokasági arány becslése Alapsokasági szórás becslése A nettó és bruttó mintaméret számítása Számítógépes alkalmazások a mintavételezéshez Excelben Variancia analízis Két csoportos vizsgálatok –Variancia összehasonlítása –Átlagok összehasonlítása –Arányok összehasonlítása –Számítógépes alkalmazás két csoportos vizsgálatokhoz Excelben Több csoportos vizsgálatok: egyutas variancia analízis –A kapcsolat erejének mérése és tesztelése

26 Számítógépes alkalmazás a két csoportos vizsgálatokhoz Excelben A KetMintasProbak.xls fájl a két mintás próbák működését szemlélteti. A zöld cellákba egy max. 100 elemű tesztcsoport és egy max. 100 elemű kontrol csoport folytonos vagy (arányokhoz szükséges) bináris értékeit tölthetjük. A sárga cellákban megadott szignifikancia szintek mellett a rendszer kiszámítja, vajon a teszt- és a kontrollcsoport átlaga/varianciája/aránya közt van-e szignifikáns különbség:KetMintasProbak.xls

27 Az egyutas variancia analízis fogalma Az egyutas variancia analízis (One-Way ANOVA) Egy több kategóriából álló csoportosító változó (a független változó) értékei szerint k = 1..c csoportra osztott mintát vesz az alapsokaságból, A teljes minta elemszáma legyen j =1..M, az egyes csoportok elemszámai j = 1..m k, k = 1..c Összehasonlítja a minták legalább intervallum skálán mért y függő változó szerinti a k számtani átlagait, van-e köztük statisztikailag szignifikáns különbség? Az alapfeltételezései: Az y függő változó alapsokasági és csoportokon belüli eloszlása normális, A k = 1..c csoportokon belüli szórások azonosak (F-próbákkal tesztelhető)

28 A kapcsolat ereje és ennek tesztelése A csoportátlagok közti csoportmértekkel súlyozott varianciával (Across-Group Weighted Variance) számszerűsítjük a csoportátlagok közti eltérések nagyságát: (12.16) A csoportokon belüli varianciák csoportméretekkel súlyozott átlaga (Weighted Average of Within-Group Variances) azt számszerűsíti, hogy a minta önmagában, mindenféle csoporthatás nélkül, pusztán a véletlen hatására mennyire szóródik: (12.17) A kapcsolat ereje (Main Effect) mutatóban a csoportátlagok közti súlyozott varianciát összehasonlítjuk a csoportokon belüli átlagos varianciával:  2 = VK / (VK + VB) (12.18) A kapcsolat erejének tesztelésekor egy egy oldalú F-próba értéket számítunk a csoportátlagok közti súlyozott variancia és a csoportokon belüli átlagos variancia hányadosaként: F = (VK / VB) × ((M-c)/(c-1))  x 0 (12.19) Ha ez adott  szignifikancia szinten az (c-1,M-c) szabadságfokú F-eloszlás x 0 kritikus értéke alatt marad, akkor a csoportátlagok nem térnek el egymástól. Számpélda: egy 988 elemű mintában 7 csoport van, a csoportok elemszáma rendre (109, 227, 113, 49, 174, 141, 175) egy Hitel változó szerinti csoportátlagok rendre (- 1.51, 0.58, 0.54, 0.15, -1.18, 0.47, 0.61), a csoporton belüli varianciák rendre (0.51, 0.10, 0.08, 0.67, 0.70, 0.26, 0.08). Hat-e a csopotosítás a Hitel változó átlagaira? A VK értéke 0.71, a VB étéke 0.54, a kapcsolat ereje 0.56, az F-tesztérték 2.38, az F kritikus érték 5% szignifikanca szinten (7-1, 988-7) szabadságfok mellett csak 2.11, vagyis az átlagok eltérnek!

29 Szakirodalom Sokváltozós statisztika jegyzetek CANAL-formátumban: Statisztika jegyzetek.doc ANOVA: Elméleti bevezető: Részletes matematikai formuláció: ANOVA, ANCOVA, MANCOVA összehasonlítása: Flash animáció az ANOVA működéséről: ANOVA animáció, saját bevihető adatokkal: ANOVA SPSS-ben: ANOVA Hyperstat-ban:


Letölteni ppt "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."

Hasonló előadás


Google Hirdetések