Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki Ágnes salanki@salanki@mit.bme.hu 2014. 09. 24.

2 Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

3 Adatelemzés Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek

4 Adatelemzés  Pl. eloszláselemzés

5 Adatelemzés  Pl. lineáris regresszió

6 Következtető statisztika

7

8 Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Adatfelvétel Elemzés

9 Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Elemzés

10 Mintavételezés  Cenzus  Mi lehet érdekes? o Csak a kilógók o Csak a normálisak o Reprezentatív  Hipotézismentes tárolás

11 Ökölszabályok  LLN (Law of Large Numbers) o Ha a kísérletek száma tart a végtelenhez, az előfordulási gyakoriság az elméleti valószínűséghez konvergál

12 Ökölszabályok

13 ? Magyarországi kamaszlányok Békés Heves Vas

14 Ökölszabályok

15 Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Adatfelvétel

16 Minta kiértékelés  EDA ~ nyomozás  Kiértékelés ~ a per maga o H 0 : alapfeltevés  a vádlott ártatlan o H A : alapfeltevés ellentéte  a vádlott bűnös o Kiértékelés: ha az alapfeltevés igaz, mennyire valószínű, hogy a kapott adatot tároltuk el?

17 Mit tesztelünk tipikusan?  Parametrikus tesztek o Egy minta eloszlás egy paraméterét próbáljuk kitalálni o Két minta eloszlásának a paramétere megegyezik-e?  Nemparametrikus tesztek o Illeszkedésvizsgálat  adott eloszlású-e egy minta? o Függetlenségi vizsgálat  független-e két minta? o Homogenitásvizsgálat  két minta eloszlása megegyezik-e?

18 Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor Adatfelvétel Elemzés

19 Következtetés  Döntési bemenet o Valami küszöbérték  Adatsor típusa o Megfigyelési tanulmány (observational study) o Irányított kísérlet (controlled experiment) Különbség: a köztes változók eliminálása

20 Esettanulmány Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm „Girls who ate breakfast of any type had a lower average body mass index, a common obesity gauge, than those who said they didn't. The index was even lower for girls who said they ate cereal for breakfast.„

21 Esettanulmány Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm 1. „Breakfast, cereal keep girls slim” 2. „Being slim causes girls to eat breakfast„ ? 3. „A confounding variable is responsible for both”

22 Következtetés  Döntési bemenet o Valami küszöbérték  Adatsor típusa o Megfigyelési tanulmány (observational study) A köztes változók kiléte bizonytalan Csak korreláció, kauzális következtetések nem o Kísérlet (experiment) A köztes változókat kiszűrtük (mintavételezés!) Kauzális következtetések is

23 Adatelemzési módszerek

24 Adatbányászati építőkövek Asszociációs szabályok Regresszió Klaszterezés Osztályozás

25 Klaszterezés „A BME-sek három jól elkülöníthető csoportba tartoznak„

26 Asszociációs szabályok „Akik gyakran vásárolnak kávét, azok gyakran vásárolnak tejet”

27 Osztályozás „Prediktáljuk az Apple részvényeket”

28 Regresszió „Az alkalmazás memóriaigénye a kiszolgálandó kérések számával exponenciálisan növekszik”


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki."
Google Hirdetések