Adatbányászati szemelvények MapReduce környezetben

Slides:



Advertisements
Hasonló előadás
Lorem ipsum dolor sit amet, consectetur Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore Közlekedési.
Advertisements

Szabadtéri rendezvények. A TvMI vonatkozik: OTSZ szerinti szabadtéri rendezvényekre szabadtéri rendezvény: az 1000 főt vagy az 5000 m 2 területet meghaladó,
Paraméteres próbák- konzultáció október 21..
Adatbázis normalizálás
Programstruktúrák.
Becslés gyakorlat november 3.
Végeselemes modellezés matematikai alapjai
Lineáris regresszió Adatelemzés.
Scilab programozás alapjai
PHP - függvények.
Kockázat és megbízhatóság
Technológiai folyamatok optimalizálása
Technológiai folyamatok optimalizálása
Struktúra predikció ápr. 6.
Kockázat és megbízhatóság
Kovács Gergely Péter Egyszerű lekérdezések
Monte Carlo integrálás
13. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens
Rangsorolás tanulása ápr. 13..
Kockázat és megbízhatóság
Kvantitatív módszerek
Hipotézisvizsgálat.
Számításelmélet 1.
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Logikai programozás 2..
Adatbázis-kezelés (PL/SQL)
Egy test forgómozgást végez, ha minden pontja ugyanazon pont, vagy egyenes körül kering. Például az óriáskerék kabinjai nem forgómozgást végeznek, mert.
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Szerkezetek Dinamikája
Mi a káosz? Olyan mozgás, mely
Kvantitatív módszerek
Közigazgatási alapvizsga a Probono rendszerben
? A modell illesztése a kísérleti adatokhoz
Kvantitatív módszerek
Grosz imre f. doc. Kombinációs hálózatok /43 kép
Algoritmusok és Adatszerkezetek I.
Regressziós modellek Regressziószámítás.
Algoritmusok és Adatszerkezetek I.
„Mindegy, hogy képességeid mekkorák, fő, hogy a tőled telhető legjobbat formáld belőlük és általuk.” (Weöres Sándor)
Teljes visszalépéses elemzés
STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság
Sztochasztikus kapcsolatok I. Asszociáció
Tilk Bence Konzulens: Dr. Horváth Gábor
A Box-Jenkins féle modellek
„Big Data” elemzési módszerek
3. előadás.
Gauss-eloszlás illesztése adatokra Maximum Likelihood és Bayes-módszer
Statisztika Érettségi feladatok
Megerősítéses tanulás Mély Q-hálók
Alkalmazott statisztikai alapok
Matematika I. BGRMA1GNNC BGRMA1GNNB 8. előadás.
3(+1) osztályozó a Bayes világból
Algoritmusok és Adatszerkezetek I.
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
Járműtelepi rendszermodell 2.
További rendező és kereső algoritmusok
Neuronhálók tanítási módszerei
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
Dr. Varga Beatrix egyetemi docens
Tesztgenerálás a gyakorlatban Az IntelliTest és ami mögötte van
SQL jogosultság-kezelés
Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus
Megerősítéses tanulás Mély Q-hálók
Mesterséges neuronhálók és alkalmazásaik
3. előadás.
Megerősítéses tanulás Mély Q-hálók
Bevezetés Tematika Számonkérés Irodalom
A geometriai transzformációk
Hagyományos megjelenítés
A T-spline felületreprezentáció
Előadás másolata:

Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2018.11.27.

Felügyelt és nem felügyelt tanulás Adott néhány pontra az elvárt kimenet is ≈ a tanuló példákból való általánosítás Output: függvény a meglévő mintapontokra jól képez le megfelelően általánosítható Nem felügyelt tanulás Nincs meg az elvárt kimenet Visszajelzés nélkül építi a modellt ≈ szabályok, összefüggések keresése (ismeretfeltárás) Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük Forrás http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/ Felügyelt: vizsgázol Nem felügyelt:

Osztályozás és csoportosítás alapfeladat Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941

Osztályozás alapfeladat Képosztályozás: a képen látható objektum madár vagy repülő?

Osztályozás alapfeladat Levelek osztályozása: SPAM vagy nem SPAM?

Osztályozás alapfeladat Szabályok alapján Severity osztályozása Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

Csoportosítási alapfeladat Csoportosítás (clustering) – megtalálni az egymáshoz hasonló elemeket Output: klaszterek Egymáshoz hasonló?

k-means Adatpontok: vektortér Klaszter reprezentációja: súlyponttal / ”középponttal” (vektor-átlag) 𝑟(𝐶 𝑖 ): i-edik klaszter reprezentánsa Minimalizálandó a négyzetes távolságösszeg, mint hiba: 𝐸 𝐶 = 𝑖=1 𝑘 𝑢∈ 𝐶 𝑖 𝑑 𝑢,𝑟 𝐶 𝑖 2

Itt rögtön újra is számoljuk Egy megoldás {𝑟 𝐶 1 ,𝑟 𝐶 2 ,…,𝑟( 𝐶 𝑘 )}← repr. kezdeti halmaza while 𝑟( 𝐶 𝑖 ) változik do for ∀𝑢∈𝐷 adott sorrendben do ℎ←𝑢 klaszter-indexe 𝑗←𝑎𝑟𝑔𝑚𝑖 𝑛 𝑖 𝑑(𝑢,𝑟( 𝐶 𝑖 )) if ℎ≠𝑗 then { 𝐶 𝑗 ← 𝐶 𝑗 ∪ 𝑢 𝐶 𝑖 ← 𝐶 𝑖 ∖ 𝑢 𝑟( 𝐶 𝑗 )← 1 | 𝐶 𝑗 | 𝑣∈ 𝐶 𝑗 𝑣 𝑟( 𝐶 ℎ )← 1 | 𝐶 ℎ | 𝑣∈ 𝐶 ℎ 𝑣 } return 𝐶 Régi klaszter Új klaszter Itt rögtön újra is számoljuk

k-means rmr2/blob/master/pkg/tests/kmeans.R dist.fun = function(C, P){ apply(C, 1, function(x) colSums((t(P) - x)^2))} 𝑃 pont 𝐶 𝑖 klasztertől vett távolsága A klaszter középpontok mátrixának minden sorára

k-means: map A Map kap néhány pontot kmeans.map = function(., P) { nearest = { if(is.null(C)) sample(1:num.clusters,nrow(P), replace = T) else { D = dist.fun(C, P) nearest = max.col(-D)}} if(!(combine || in.memory.combine)) keyval(nearest, P) else keyval(nearest, cbind(1, P))} Első kör: inicializálás Legközelebbi klaszter

k-means: map Kulcs: P ponthoz legközelebbi klaszter-centrum Érték: P C „normál” R objektum scoping miatt elérhető a map-ben P: HDFS-ből Érték: P Ha még nincsenek klaszter-centrumok: mintavétel visszahelyezéssel Vektorizált keyval ismét in.memory.combine, combine: nem a mapreduce függvényé!

k-means: reduce kmeans.reduce = { if (!(combine||in.memory.combine)) function(., P) t(as.matrix(apply(P, 2, mean))) else function(k, P) keyval( k, t(as.matrix(apply(P,2,sum))))} 𝑘 klaszterközépponthoz lekérjük az összes 𝑃 pontot Előbb csak összeget számolunk..

k-means: reduce Azonos kulcshoz (középpont) tartozó vektorok átlaga Azaz: Map: a legközelebbi klaszterbe sorol (középpont) Reduce: kialakult új középpontok Szemlétesen: a középpontokat „tologatjuk” Beragadhat lokális minimumba! (aut. megállásnál) Algoritmust lásd (aut. megállással): [8], p 1422

kmeans.mr: törzs (1)

kmeans.mr: törzs (1) Iterációk C felüldefiniálásával Minden menetben mapreduce-szal új középpontok

Regresszió f függvény, bemenet: az attribútumok értéke, kimenet: megfigyelések legjobb közelítése „ökölszabály” Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető,

Regressziós módszerek Alapelv: Véletlen változó Hiba Közelítés Jósolt esemény Megfigyelhető változók Átlagos hiba (mean error) Becsült érték Mért érték

Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra nem vár alapvető változást a rendszer viselkedésében Legkisebb négyzetek módszere keressük azokat az a,b paramétereket, amelyekre cél: minimális (Sum of Squared Errors) minimalizálása

Levezetés (parc. deriválás) Xi, Yi a mért értékpárok (pl. idő, terhelés)

Anscombe négyese Legjobban illeszkedő egyenes mindenre van Minőségileg különböző adatpontokra is

Lineáris regresszió: általános alak 𝑦= Θ T x Solve: Θ ∗ = min Θ 𝑖=1 𝑚 ( Θ 𝑇 𝑥 𝑖 − 𝑦 𝑖 ) 𝑋∈ ℝ 𝑚×𝑛 :„design matrix” - tanító-minták a sorok 𝑦 = 𝑦 1 ,…, 𝑦 𝑚 𝑚 : „target labels” Θ ∗ = 𝑋 𝑇 𝑋 −1 𝑋 𝑇 𝑦

„Summation form” Θ ∗ = 𝑋 𝑇 𝑋 −1 𝑋 𝑇 𝑦 Θ ∗ =𝐴 −1 𝑏 Θ ∗ = 𝑋 𝑇 𝑋 −1 𝑋 𝑇 𝑦 Θ ∗ =𝐴 −1 𝑏 𝐴= 𝑖=1 𝑚 𝑥 𝑖 𝑦 𝑖 𝑇 és 𝑏= 𝑖=1 𝑚 𝑥 𝑖 𝑦 𝑖 … és ezek a szummák már párhuzamosíthatóak m-ben.