Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaAlfréd Veres Megváltozta több, mint 9 éve
1
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki Ágnes salanki@salanki@mit.bme.hu 2014. 09. 24.
2
Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás
3
Adatelemzés Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek
4
Adatelemzés Pl. eloszláselemzés
5
Adatelemzés Pl. lineáris regresszió
6
Következtető statisztika
8
Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Adatfelvétel Elemzés
9
Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Elemzés
10
Mintavételezés Cenzus Mi lehet érdekes? o Csak a kilógók o Csak a normálisak o Reprezentatív Hipotézismentes tárolás
11
Ökölszabályok LLN (Law of Large Numbers) o Ha a kísérletek száma tart a végtelenhez, az előfordulási gyakoriság az elméleti valószínűséghez konvergál
12
Ökölszabályok
13
? Magyarországi kamaszlányok Békés Heves Vas
14
Ökölszabályok
15
Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Adatfelvétel
16
Minta kiértékelés EDA ~ nyomozás Kiértékelés ~ a per maga o H 0 : alapfeltevés a vádlott ártatlan o H A : alapfeltevés ellentéte a vádlott bűnös o Kiértékelés: ha az alapfeltevés igaz, mennyire valószínű, hogy a kapott adatot tároltuk el?
17
Mit tesztelünk tipikusan? Parametrikus tesztek o Egy minta eloszlás egy paraméterét próbáljuk kitalálni o Két minta eloszlásának a paramétere megegyezik-e? Nemparametrikus tesztek o Illeszkedésvizsgálat adott eloszlású-e egy minta? o Függetlenségi vizsgálat független-e két minta? o Homogenitásvizsgálat két minta eloszlása megegyezik-e?
18
Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Adatfelvétel Elemzés
19
Következtetés Döntési bemenet o Valami küszöbérték Adatsor típusa o Megfigyelési tanulmány (observational study) o Irányított kísérlet (controlled experiment) Különbség: a köztes változók eliminálása
20
Esettanulmány Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm „Girls who ate breakfast of any type had a lower average body mass index, a common obesity gauge, than those who said they didn't. The index was even lower for girls who said they ate cereal for breakfast.„
21
Esettanulmány Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm 1. „Breakfast, cereal keep girls slim” 2. „Being slim causes girls to eat breakfast„ ? 3. „A confounding variable is responsible for both”
22
Következtetés Döntési bemenet o Valami küszöbérték Adatsor típusa o Megfigyelési tanulmány (observational study) A köztes változók kiléte bizonytalan Csak korreláció, kauzális következtetések nem o Kísérlet (experiment) A köztes változókat kiszűrtük (mintavételezés!) Kauzális következtetések is
23
Adatelemzési módszerek
24
Adatbányászati építőkövek Asszociációs szabályok Regresszió Klaszterezés Osztályozás
25
Klaszterezés „A BME-sek három jól elkülöníthető csoportba tartoznak„
26
Asszociációs szabályok „Akik gyakran vásárolnak kávét, azok gyakran vásárolnak tejet”
27
Osztályozás „Prediktáljuk az Apple részvényeket”
28
Regresszió „Az alkalmazás memóriaigénye a kiszolgálandó kérések számával exponenciálisan növekszik”
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.