Big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20.

big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20.

A „Big-méret” forrásai: folytonosan bővülő adatállományok, pl.: 1.Tehergépkocsi balesetek adatállománya 732 attributum, változó 2.„Totemoszlop” adatállomány ( Érintőképernyős sorszámkérés ) 76 attributum, változó 3.Diákhitel adatállomány, évenként bővülő, havi törlesztésű panel 118 attributum, változó 4.Háztartási Költségvetési Felvétel (HKF) évenként bővülő panel forrás: KSH 3,700,000 háztartás évente: ( sormilliók, oszloprengeteg ) Szerző: Hajdu Ottó

A „Big-méret” forrásai: small-sample alapú következtetések 1.A dependent (cél) változó diszkrét skálán mért 1.Például: Rosszadós cégek-problémája 2.Adottság: Kicsiny mintaméret = 76 BÉT brókercég 3.Közöttük kevés részarányú a „bedőlt” rosszadós brókercég: csak 8 cég 2.A prediktor „pl. mérleg-eredmény” indikátorok skálája is diszkrét 3.Következésképpen: nem működnek a nagymintás következtetés ML eszközei 4.Konklúzió: generálni kell az összes lehetséges mintát: a MINTATERET 5.Ez egy igen nagy számosságú adatállomány, és a változók száma tovább növeli Szerző: Hajdu Ottó

Praktikus problémák I: Az adatáramlás „Özönvíz” jellege 1.A komputer-kapacitás v.s. üzleti teljesítés sürgősségi kényszere 2.Erős komputernél is probléma lehet a modell „holnapi” átadása 3.Az „Out of memory” vagy „Nem készül el időre” hibák  ekvivalens kudarc 4.Az adatállomány (gyors) bővülése mellett is kell a modell „holnapra” 5.Megoldás: 1. Big Data adatpartíció 2.Külső memória statisztikai algoritmusok Szerző: Hajdu Ottó

Praktikus problémák II: Data Mining alapú adatszűrési kényszer 1.A Megbízó eklektikus, átgondolatlan adatállományt ad át számításra 2.A mérési skála rögzítése programozásra szorul: indikátor változók megadása 3.Az adatállomány kisimításra szorul: outlierek szűrése 4.Imputálási kényszer, v.s. adatvesztés: missing value kezelése 5.Tömörítési igény: sok a sor, sok az oszlop (FÖLÖSLEGESEN) 1.Folytonos változók esetén Szinguláris Érték Felbontás (SVD) alapon 2.Kategória változók esetén Többszörös korrespondencia Analízis (MCA) alapon 3.Csoportosított sokaság esetén Diszkriminancia Analízis (DA) alapon 6.A Statisztikus szempontjából időigényes, elkerülendő munka 7.A ”már nem kell szűrés” állapot felgyorsítja a szakmai eredmény elérését 8.Megoldás: Data Mining technikák Szerző: Hajdu Ottó

Statisztikai következtetéselméleti probléma: BigData – Minta – Sokaság 1.Folyamatosan bővülő megfigyelések mellett mindig minta marad: 1.a statisztikai elemzés leíró jellegűvé válik, 2.a sokasági következtetés bizonytalanná válik, 2.A statisztikai modell koefficiensei (t_p-value) szinte mindig szignifikánsak: 1.Rossz illeszkedésű heurisztikus (R2) mutató mellett is, 2.De jó illeszkedésű heurisztikus (GoF) mutató is távoli a szaturált modelltől 3.Az utolsó lépés végül: 1.Diszkretizálunk, 2.Faktorizálunk 3.Csoportosítunk, klaszterezünk Szerző: Hajdu Ottó

Releváns és Irreleváns információk keveredése a BigData állományban 1.Egy, csak a későbbiekben definiált statisztikai elemzési cél esetén: 1.Az adatfelvétel előtt nehéz teoretikusan felsorolni a releváns változókat, 2.Az „adatbőség” adatszűrési kényszert okoz, 3.Ezért időigényes a modellalkotás, modellszelektálás 2.Adott esetben nincs is modellezhető tendencia az adattestben 3.Végül az adat nem alkalmas statisztikai konklúziók megfogalmazására 4.Végül a többlet adat csak a méretet növeli Szerző: Hajdu Ottó

Terminológiai (felszíni) különbözőségek Példa: Regresszió és Neurális háló 1.Változó (variable): Feature, attribute 2.Független változó (independent varible): Input 3.Előrejelzett érték (predicted value): Output 4.Függő változó (dependent variable): Target, training value, Class variable 5.Reziduális érték: Error 6.Becslés(estimation): Training, learning, adaptation, self-organization 7.Becslési kritérium (estimation criterion): Error function, cost function, Lyapunov function 8.Megfigyelések (observations): Patterns, instances 9.Paraméterbecslések (parameter estimates): (synaptic) Weights 10.Interakció (interactions): Higher-order neurons 11.Transzformáció (transformation): Functional link 12.Regresszió és klasszifikáció (regression, discriminant analysis): Supervised learning 13.Adatsűrítés (data reduction): Unsupervised learning 14.Klaszteranalízis (cluster analysis): competitive learning 15.Interpoláció, extrapoláció (interpolation, extrapolation): generalization 16.Tengelymetszet (intercept, constant): Bias Szerző: Hajdu Ottó

Az adat-visszasűrítési lépés igénye 1.Bármely statisztikai modell áttekinthető adatokat igényel, melyek a tendenciát vagy annak hiányát megmutatják 2.Ellenben minél nagyobb, annál zajosabb az adatállomány, 3.Az elemzendő adattest legyen tömör, csak a tendenciákat mutató: 1.Klaszterezett skála 2.Gyakorisági hisztogram 3.A klaszterek leíró jellemzőinek megőrzése: méret, átlag, variancia 4.Modellezés: a visszaszűrt, kisimított, „immár small” adatokon történik Szerző: Hajdu Ottó

Revolution R Enterprize: a RevoScaleR package 1.Egy speciális.Xdf bináris file-formátum 1.„Data Chunking” blokk-adatpartíció 1.Horizontális 2.Vertikális 2.Új sorok és oszlopok hozzáadhatók az adatbázishoz, újraszámolás nélkül 3.Az adatpartíciók külön munkahelyekhez irányulnak (lásd: #Core) 4.„A Master” gyűjti össze az információt a „Munkahelyektől”, csökkentve az időt 2.RxDataSource data-handling R-classrxOpenData függvények: 1.rxReadNext: 2.rxReadAll: 3.rxCloseData: 3.Gyorsító, „External Memory” statisztikai algoritmusok alkalmazása: 1.Cél: a fölösleges számítások fölismerése és kihagyása 2.Például: Big Data Decision Trees with R, rxDTree function Szerző: Hajdu Ottó

Frusztrációk (kezelendő adat-problémák) az adatállomány Big –jellegű adottságából következően, Példák 1.Tehergépkocsi balesetek: 1.A kérdésfeltevés: mire figyeljen a sofőr, a balesetet elkerülendő? 1.Érdekes lehet az útkereszteződés részletei, 2.De mire jó a tahográf-adat, ha többnyire „missing” ezért kiesik az elemzésből? 2.A totemoszlop érintés: 1.A kérdésfeltevés: melyik ügyintéző a jó munkaerő: 1.Mekkora a sikeres ügyintézés valószínűsége (logistic model)? 2.Mennyi a várható ügyintézési idő (OLS model)? 1.De milyen nap van aznap ( Hónap, hétnap, napszak, óra: releváns ? ) 2.Ha nem releváns az adat (szerda), jelenléte zavaró Mennyi a valószínűsége az „otthagyott sorszámnak” (mondjuk reggel, délben, vagy délután) ? 3.Diákhitel adatállomány: 1.Mire jó az előtörlesztés adat (nem)ismerete az 1-12. hónapban, ha ritkán jelenik meg ? Szerző: Hajdu Ottó

Feltételes, egzakt, permutációs eloszlás: adósság szint % 50 cég között 7 cég „kudarc” Adósság skála: 0,1,2,3 Szerző: Hajdu Ottó

Köszönöm a figyelmet! Szerző: Hajdu Ottó

Big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20.

Hasonló előadás

Az előadások a következő témára: "Big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20.

Hasonló előadás

Az előadások a következő témára: "Big Data, Mining, multivariate Statistics Hajdu Ottó Budapesti Corvinus Egyetem A tudomány napja, MTA, 2014. november 20."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés