Big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) Hanyecz Lajos.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Összetett kísérleti tervek és kiértékelésük
Összetett kísérleti tervek és kiértékelésük: Háromszempontos variancia analízis modellek.
Geodéziai mérések feldolgozása a GeoCalc programmal
A táblázatkezelés alapjai 1.
Módszerek sebességi állandók becslésére Kovács Benedek, Budapesti Műszaki és Gazdaségtudományi Egyetem.
Digitális képanalízis
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
SAS Enterprise Miner 2. gyakorlat
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Az élővilág kutatásának matematikai, statisztikai eszköztára
Regresszióanalízis 10. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
Miért kell többváltozós modellekhez folyamodnunk (a túlélési analízis során)?
III. Sz. Belgyógyászati Klinika
SPSS bevezetés.
Diszkriminancia analízis
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Az Alakfelismerés és gépi tanulás ELEMEI
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Egytényezős variancia-analízis
STATISZTIKA II. 3. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
STATISZTIKA II. 7. Előadás
Statisztika a szociológiában
Gazdaságstatisztika 13. előadás.
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
Lineáris regresszió.
Adatleírás.
Két kvantitatív változó kapcsolatának vizsgálata
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
Paleobiológiai módszerek és modellek 4. hét
Adatelemzés számítógéppel
A szóráselemzés gondolatmenete
Vargha András KRE és ELTE, Pszichológiai Intézet
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Az SPSS programrendszer.
Összetett kísérleti tervek és kiértékelésük Többszempontos varianciaanalízis-modellek (keresztosztályozások, blokkelrendezések)
Bevezetés, tippek Ea-gyak kapcsolata Statisztika II -más tárgyak kapcsolata Hogyan tanulj? Interaktív órák, kérdezz, ha valami nem világos! tananyag =előadások.
Kinetikus Monte Carlo  Bevezetés  Véletlen bolyongás  Residence time algoritmus.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
2004 május 27. GÉPÉSZET Komplex rendszerek szimulációja LabVIEW-ban Lipovszki György Budapesti Műszaki Egyetem Mechatronika, Optika és Gépészeti.
Startup felvásárlások multikulturális hátterének elemzése, avagy mesterséges intelligencia alapú ellenőrzőszámítás diszkriminancia-elemzéshez Barta Gergő,
Lineáris regressziós modellek
Adatelemzési gyakorlatok
Kockázat és megbízhatóság
A szakiskolai oktatás kiterjesztésének hatása
Az IBM SPSS Statistics programrendszer
A leíró statisztikák alapelemei
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
3. Varianciaanalízis (ANOVA)
A többdimenziós egyenlőtlenség és a szegénység statisztikai mérése
Előadás másolata:

big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, november 20.

A „Big-méret” forrásai: folytonosan bővülő adatállományok, pl.: 1.Tehergépkocsi balesetek adatállománya 732 attributum, változó 2.„Totemoszlop” adatállomány ( Érintőképernyős sorszámkérés ) 76 attributum, változó 3.Diákhitel adatállomány, évenként bővülő, havi törlesztésű panel 118 attributum, változó 4.Háztartási Költségvetési Felvétel (HKF) évenként bővülő panel forrás: KSH 3,700,000 háztartás évente: ( sormilliók, oszloprengeteg ) Szerző: Hajdu Ottó

A „Big-méret” forrásai: small-sample alapú következtetések 1.A dependent (cél) változó diszkrét skálán mért 1.Például: Rosszadós cégek-problémája 2.Adottság: Kicsiny mintaméret = 76 BÉT brókercég 3.Közöttük kevés részarányú a „bedőlt” rosszadós brókercég: csak 8 cég 2.A prediktor „pl. mérleg-eredmény” indikátorok skálája is diszkrét 3.Következésképpen: nem működnek a nagymintás következtetés ML eszközei 4.Konklúzió: generálni kell az összes lehetséges mintát: a MINTATERET 5.Ez egy igen nagy számosságú adatállomány, és a változók száma tovább növeli Szerző: Hajdu Ottó

Praktikus problémák I: Az adatáramlás „Özönvíz” jellege 1.A komputer-kapacitás v.s. üzleti teljesítés sürgősségi kényszere 2.Erős komputernél is probléma lehet a modell „holnapi” átadása 3.Az „Out of memory” vagy „Nem készül el időre” hibák  ekvivalens kudarc 4.Az adatállomány (gyors) bővülése mellett is kell a modell „holnapra” 5.Megoldás: 1. Big Data adatpartíció 2.Külső memória statisztikai algoritmusok Szerző: Hajdu Ottó

Praktikus problémák II: Data Mining alapú adatszűrési kényszer 1.A Megbízó eklektikus, átgondolatlan adatállományt ad át számításra 2.A mérési skála rögzítése programozásra szorul: indikátor változók megadása 3.Az adatállomány kisimításra szorul: outlierek szűrése 4.Imputálási kényszer, v.s. adatvesztés: missing value kezelése 5.Tömörítési igény: sok a sor, sok az oszlop (FÖLÖSLEGESEN) 1.Folytonos változók esetén Szinguláris Érték Felbontás (SVD) alapon 2.Kategória változók esetén Többszörös korrespondencia Analízis (MCA) alapon 3.Csoportosított sokaság esetén Diszkriminancia Analízis (DA) alapon 6.A Statisztikus szempontjából időigényes, elkerülendő munka 7.A ”már nem kell szűrés” állapot felgyorsítja a szakmai eredmény elérését 8.Megoldás: Data Mining technikák Szerző: Hajdu Ottó

Statisztikai következtetéselméleti probléma: BigData – Minta – Sokaság 1.Folyamatosan bővülő megfigyelések mellett mindig minta marad: 1.a statisztikai elemzés leíró jellegűvé válik, 2.a sokasági következtetés bizonytalanná válik, 2.A statisztikai modell koefficiensei (t_p-value) szinte mindig szignifikánsak: 1.Rossz illeszkedésű heurisztikus (R2) mutató mellett is, 2.De jó illeszkedésű heurisztikus (GoF) mutató is távoli a szaturált modelltől 3.Az utolsó lépés végül: 1.Diszkretizálunk, 2.Faktorizálunk 3.Csoportosítunk, klaszterezünk Szerző: Hajdu Ottó

Releváns és Irreleváns információk keveredése a BigData állományban 1.Egy, csak a későbbiekben definiált statisztikai elemzési cél esetén: 1.Az adatfelvétel előtt nehéz teoretikusan felsorolni a releváns változókat, 2.Az „adatbőség” adatszűrési kényszert okoz, 3.Ezért időigényes a modellalkotás, modellszelektálás 2.Adott esetben nincs is modellezhető tendencia az adattestben 3.Végül az adat nem alkalmas statisztikai konklúziók megfogalmazására 4.Végül a többlet adat csak a méretet növeli Szerző: Hajdu Ottó

Terminológiai (felszíni) különbözőségek Példa: Regresszió és Neurális háló 1.Változó (variable): Feature, attribute 2.Független változó (independent varible): Input 3.Előrejelzett érték (predicted value): Output 4.Függő változó (dependent variable): Target, training value, Class variable 5.Reziduális érték: Error 6.Becslés(estimation): Training, learning, adaptation, self-organization 7.Becslési kritérium (estimation criterion): Error function, cost function, Lyapunov function 8.Megfigyelések (observations): Patterns, instances 9.Paraméterbecslések (parameter estimates): (synaptic) Weights 10.Interakció (interactions): Higher-order neurons 11.Transzformáció (transformation): Functional link 12.Regresszió és klasszifikáció (regression, discriminant analysis): Supervised learning 13.Adatsűrítés (data reduction): Unsupervised learning 14.Klaszteranalízis (cluster analysis): competitive learning 15.Interpoláció, extrapoláció (interpolation, extrapolation): generalization 16.Tengelymetszet (intercept, constant): Bias Szerző: Hajdu Ottó

Az adat-visszasűrítési lépés igénye 1.Bármely statisztikai modell áttekinthető adatokat igényel, melyek a tendenciát vagy annak hiányát megmutatják 2.Ellenben minél nagyobb, annál zajosabb az adatállomány, 3.Az elemzendő adattest legyen tömör, csak a tendenciákat mutató: 1.Klaszterezett skála 2.Gyakorisági hisztogram 3.A klaszterek leíró jellemzőinek megőrzése: méret, átlag, variancia 4.Modellezés: a visszaszűrt, kisimított, „immár small” adatokon történik Szerző: Hajdu Ottó

Revolution R Enterprize: a RevoScaleR package 1.Egy speciális.Xdf bináris file-formátum 1.„Data Chunking” blokk-adatpartíció 1.Horizontális 2.Vertikális 2.Új sorok és oszlopok hozzáadhatók az adatbázishoz, újraszámolás nélkül 3.Az adatpartíciók külön munkahelyekhez irányulnak (lásd: #Core) 4.„A Master” gyűjti össze az információt a „Munkahelyektől”, csökkentve az időt 2.RxDataSource data-handling R-classrxOpenData függvények: 1.rxReadNext: 2.rxReadAll: 3.rxCloseData: 3.Gyorsító, „External Memory” statisztikai algoritmusok alkalmazása: 1.Cél: a fölösleges számítások fölismerése és kihagyása 2.Például: Big Data Decision Trees with R, rxDTree function Szerző: Hajdu Ottó

Frusztrációk (kezelendő adat-problémák) az adatállomány Big –jellegű adottságából következően, Példák 1.Tehergépkocsi balesetek: 1.A kérdésfeltevés: mire figyeljen a sofőr, a balesetet elkerülendő? 1.Érdekes lehet az útkereszteződés részletei, 2.De mire jó a tahográf-adat, ha többnyire „missing” ezért kiesik az elemzésből? 2.A totemoszlop érintés: 1.A kérdésfeltevés: melyik ügyintéző a jó munkaerő: 1.Mekkora a sikeres ügyintézés valószínűsége (logistic model)? 2.Mennyi a várható ügyintézési idő (OLS model)? 1.De milyen nap van aznap ( Hónap, hétnap, napszak, óra: releváns ? ) 2.Ha nem releváns az adat (szerda), jelenléte zavaró Mennyi a valószínűsége az „otthagyott sorszámnak” (mondjuk reggel, délben, vagy délután) ? 3.Diákhitel adatállomány: 1.Mire jó az előtörlesztés adat (nem)ismerete az hónapban, ha ritkán jelenik meg ? Szerző: Hajdu Ottó

Feltételes, egzakt, permutációs eloszlás: adósság szint % 50 cég között 7 cég „kudarc” Adósság skála: 0,1,2,3 Szerző: Hajdu Ottó

Köszönöm a figyelmet! Szerző: Hajdu Ottó