Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Statisztikai paradoxonok
Matematikai statisztika
2
Adatbányászat vs Statisztika
Valamely vizsgált populációra vonatkozólag nagymennyiségű, kontrollálatlan adathalmazból számítógépes adatkezelő technikákkal, algoritmusokkal a populációra vonatkozó hasznos információ, összefüggés kinyerése. Az adatok begyűjtése spontán, többnyire véletlen folyamatok eredményeképpen, nem tervezett módon történik. Megjelenése az informatikai világ kiteljesedése következtében történt meg. Modern tudományág. Az elméleti megalapozás napjainkban folyik.
3
Adatbányászat vs Statisztika
A vizsgált populációra vonatkozólag előre megtervezett módon, matematikai elvek figyelembe vételével beszerzett adatokkal, a minta feldolgozásával állítja elő a sokaságra vonatkozó hasznos következtetéseket. A statisztikai mintának reprezentatívnak kell lennie, különben a következtetések pontatlanok, megtévesztők lesznek! A valószínűségszámítással párhuzamosan fejlődött ki, erős matematikai elméleti háttérrel rendelkezik.
4
A statisztika eredete A statisztika eredetileg államszámtan volt. (Maga a „statisztika” szó is az „állam” jelentésű latin „status”-ból alakult ki.) A statisztika az ókortól kezdve arról tájékoztatta az államok vezetőit, mekkora adókat vethetnek ki alattvalóikra és hány katonára számíthatnak egy eljövendő háborúban. A statisztika csak a polgári forradalmak után vált igazi tudománnyá. Úttörői JOHN GRAUNT (1620—1674) és WILLIAM PETTY (1623—1687). A kapitalizmusban már nemcsak az államok vezetőit, hanem a tőkés vállalkozókat is érdekelni kezdték a statisztikai felmérések, és egyre komolyabb matematikai eszközöket használtak föl adataik feldolgozására, egyre növekvő haszonnal, például a biztosításban. A jó biztosítás alapja a pontos felmérés és a helyes matematikai következtetés. A XVII. század óta a matematikai statisztika fokozatosan a matematika önálló ágává fejlődött, amelynek fő célja: minél megbízhatóbb hasznosítható információt nyerni a felmérési, megfigyelési és mérési adatokból: a statisztikai mintából. Székely J. Gábor „Paradoxonok a véletlen matematikájában”
5
Statisztika bonmotok „Csak abban a statisztikában hiszek, amit én magam hamisítok” „A statisztika olyan, mint a bikini: sok minden megmutat, de a lényeget eltakarja. ” W. Churchill „Az éhezőket nem lehet statisztikával táplálni” Lloyd George „Kis hazugság, nagy hazugság, statisztika!” Benjamin Disraeli "A statisztika nem ad választ minden tudásra." „Az élet voltaképp nem más, mint a halál statisztikai hibája.” „Nagy barátja vagyok a statisztikának; nem mintha azt hinném, hogy az csakugyan annyit bizonyít, mint sokan felteszik, hanem azért, mert mióta minden állításnak statisztikai adatokkal való támogatása divattá vált, a hamis tételek felállítása valamivel több nehézséggel jár, s a tudományos paradoxonok alkotói badarságaikat legalább jobb rendszerben adják elő.” Eötvös József
6
Politikusok TV vitája Egy kívülálló nehezen tudja átlátni az igazságot…
7
Fátvágás átvágás… Egy erdőgazdaság elhatározza, hogy az erdőből fenyőfákat vágnak ki. A környezetvédelmi tiltakozások hatására a gazdaság vezetője igyekszik megnyugtatni az érdekelteket: az erdő 99%-a fenyőfákból áll, a favágás után pedig az erdő 98%-a még mindig fenyő lesz. Az erdő hány százalékát akarják kivágni?
8
Fátvágás átvágás… fenyőfa+egyébfa=n n×0.99+n×0.01=n
Hogy alakul a képlet, ha a fák felét kivágják? n/2×0.98+n/2×0.02=n×0.5 Tehát, ha az erdő felét kivágják, megmaradhat a beígért fenyőfa arány…
9
Politikusi magyarázat
Egy politikai rendezvényre 140 ember jött el. Az alábbi táblázat a résztvevők életkorát mutatja be nagyság szerint rendezve: 15 16 17 18 19 20 21 22 23 24 25 26 27 28 30 32 33 35 37 38 39 40 41 42 43 44 45 46 47 48 49 50 52 53 54 56 57 58 59 60 61 64 65 67 68 69 Próbáljuk megmutatni - alkalmas grafikonválasztással, a tényeket szigorúan megőrizve - hogy: a) "A fiatalok nem érdeklődnek a politika iránt." b) "Mindenekelőtt a fiatalokat érdekli a politika." c) "A középkorúakat érdekli legkevésbé a politika."
10
A pofonegyszerű megoldások
a) "A fiatalok nem érdeklődnek a politika iránt." Négy korcsoportra osztjuk a résztvevőket: I: év közöttiek: számuk 20 fő; II: év közöttiek: számuk 29 fő; III: év közöttiek: számuk 41 fő; IV: év közöttiek: számuk 50 fő. Ábrázoljuk pl. oszlopdiagrammal az egyes korcsoporthoz tartozó résztvevők számát! A kapott grafikon jellege: Jól látható, hogy a fiatalokat reprezentáló oszlop a legkisebb…
11
A pofonegyszerű megoldások
b) "Mindenekelőtt a fiatalokat érdekli a politika." Vegyük figyelembe az egyes korcsoportok időbeli szélességét, legyen pl. ezzel arányos az oszlopdiagramok szélessége! Ekkor az (életkor intervallum)/(szavazók száma) értéket ábrázolhatjuk korcsoportonként. A fiatalokat reprezentáló oszlop a legmagasabb…
12
A pofonegyszerű megoldások
c) "A középkorúakat érdekli legkevésbé a politika." Legyen a három korcsoport pl. az alábbi, ekkor az a) grafikon módosul. I: év közöttiek: számuk 40 fő; II: év közöttiek: számuk 20 fő; III: év közöttiek: számuk 80 fő. Most a középkorúakat reprezentáló oszlop a legalacsonyabb…
13
Mi az igazság? Vizsgáljuk meg az alábbi táblázatot, mely a résztvevők számát mutatja a település kormegoszlása tükrében. Ebből a táblázatból úgy tűnik, hogy minden korosztály egyformán érdeklődik a politika iránt.
14
Hatásos vagy nem hatásos?
Egy új gyógyszerrel kísérleteznek. Az eredményeket az alábbi táblázat tartalmazza: A kezelés a férfiak körében sikeres volt: a kezelt férfiak 46,7%-a gyógyult meg, míg a nem kezeltek között ez az arány 38,1%. A kezelés a nők körében is sikeres volt: a két arányszám 68,2% és 58,8%. Ami viszont megdöbbentő: ha az adatokat összesítjük, kiderül, hogy a kezelt emberek 49,4%, míg a nem kezeltek 53,9%-a gyógyult meg. Vagyis: ez a gyógyszer hatásos a férfiak és a nők számára is, de káros az emberek számára.
15
Hatásos vagy nem hatásos?
Megjegyzések: 1. Ha mi lennénk a gyártó gyógyszergyár igazgatója, hogyan döntenénk: piacra dobjuk az új gyógyszert vagy sem? 2. A példánk azt mutatja, hogy óvatosan kell bánni az „adatok egységesítésével”. (Elvileg csak az azonos szórású sokaságokat lehetne összevonni, de a gyakorlatban ilyenek nem nagyon vannak.) 3. De vegyük észre, hogy az eljárás fordítva is problematikus! Ha egy politikusnak jó statisztikusa van, bizony előfordulhat, hogy egy negatív eredményű adathalmazt szét tud bontani pozitív eredményű részekre, főnöke nagy-nagy megelégedésére.
16
Simpson-paradoxon Kaliforniai Egyetem Posztgraduális felvételi adatai (1973) Felmerül a nemi diszkrimináció vádja, hiszen kisebb arányban vettek fel nőt, mint férfit. Igaz lehet ez?
17
Simpson-paradoxon A részletekben van az ördög elrejtve:
A karok többségében a nők felvételi aránya magasabb, mint a férfiaké…
18
Magyarázat Tényleg nagyobb arányban vették fel a férfiakat! Ez a tény.
A probléma ott volt, amikor ok-okozati összefüggést feltételeztünk a felvételi arány és a nemi diszkrimináció között. Nem a diszkriminálás miatt szerepeltek jobban a férfiak, hanem mert a felvételi nehézsége karonként eltérő és a nők nagyobb arányban jelentkeztek a nehezebb szakokra mint a férfiak. Általánosabb nézőpontból összefüggést találtunk a "nem " és "sikeresség" változók között, ami a "kar" változó figyelembevételével eltűnt.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.