Machine Learning, Hálózatelemzés

Slides:



Advertisements
Hasonló előadás
A Floyd-Warshall algoritmus
Advertisements

Összefoglalás Hardver,szoftver,perifériák Memóriák fajtái
Virtualizált Biztonságos BOINC Németh Dénes Deák Szabolcs Szeberényi Imre.
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
INTERNET.
Készítette: Major Máté
Digitális képanalízis
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
SAS Enterprise Miner 1. gyakorlat
SAS Enterprise Miner 2. gyakorlat
Dijkstra algoritmus Irányított gráfban.
13.a CAD-CAM informatikus
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Address Resolution Protocol (ARP)
Klaszterező algoritmusok smart city alkalmazásokhoz Gonda László Témavezető: Dr. Ispány Márton.
Szoftver bonyolultsági mértékek alkalmazási területei Király Roland 2011.
Szintézis Keresztes Péter, 2005 A GAJSKI-KUHN DIAGRAM Alapelv: Rendezzük a digitális- rendszerek leírásait célok és szintek szerint.
SZÁMÍTÓGÉP ARCHITEKTÚRÁK
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
Windows Server 2012 Kiadások, licencelés, lehetőségek
Mesterséges Intelligencia Alapjai II. beadandó Orosz György – Vörös Gyula – Zsiák Gergő Pál.
Mesterséges Intelligencia Alapjai II. beadandó Orosz György – Vörös Gyula – Zsiák Gergő Pál.
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Statisztika a szociológiában
Dijkstra-algoritmus ismertetése
Algoritmusok II. Gyakorlat 3. Feladat Pup Márton.
Mobilis robot (e-puck) robot és a Webots szimulációs rendszer megismerése szimulációs rendszer robot közepesen nehéz feladat megoldása például: vonalkövetés.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból.
A Magyar ClusterGRID projekt Stefán Péter tudományos munkatárs NIIF Iroda
Többváltozós adatelemzés
Többváltozós adatelemzés
Kötvényárazási hibák intelligens javítóalgoritmusának tervezése és fejlesztése GELLÉN ÁGNES IUFQ58.
A Dijkstra algoritmus.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1.
Nevezetes algoritmusok: Fa megvalósítása Készítette: Várkonyi Tibor Zoltán.
Gráf-adatbázis építése twitter adatokból
Podoski Péter és Zabb László. Bevezető Algoritmus-vizualizáció témakörében végeztünk kutatásokat és fejlesztéseket Felmértük a manapság ismert eszközök.
Miért jó nekünk kutatóknak a felhő?
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Háló- (gráf-) algoritmusok
Algoritmus és adatszerkezet Tavaszi félév Tóth Norbert1 Floyd-Warshall-algoritmus Legrövidebb utak keresése.
Bellmann-Ford Algoritmus
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1. Egyetemi konzulens: dr. Dobrowiecki Tadeusz (BME MIT)
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
Morvai Mária-Júlia F3D3D4.  Adott egy G=(V,E)élsúlyozott, irányított vagy irányítás nélküli, negatív élsúlyokat nem tartalmazó,véges gráf. Továbbá adott.
SQL Server 7 installálása. A szükséges hardver és szoftver Processzor Memória Háttértár OS Hálózat Kliensek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Gráfadatbázisok Rácz Gábor.
Készítette : Giligor Dávid Neptun : HSYGGS
A szállítási réteg az OSI modell 4. rétege. Feladata megbízható adatátvitel megvalósítása két hoszt között. Ezt úgy kell megoldani, hogy az független.
Startup felvásárlások multikulturális hátterének elemzése, avagy mesterséges intelligencia alapú ellenőrzőszámítás diszkriminancia-elemzéshez Barta Gergő,
Mesterséges intelligencia
Hálózati rendszerek adminisztrációja JunOS OS alapokon
Adatelemzés a szociális médiában
„Big Data” elemzési módszerek
„Big Data” elemzési módszerek
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Microsoft SQL licenselés a gyakorlatban
A mesterséges neuronhálók alapjai
Szűcs Imre - Dr. Pitlik László (OTKA T049013)
Dijkstra algoritmusa: legrövidebb utak
Dijkstra algoritmusa: legrövidebb utak
Dijkstra algoritmusa: legrövidebb utak
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Machine Learning, Hálózatelemzés BIG DATA Kazi Sándor Machine Learning, Hálózatelemzés 2014.

Data Science & ML Data Science, Gépi tanulás alapok,

Data Science – BIG Data Mintavételezés, mintavételezés, mintavételezés… Sokszor nem jó ötlet a teljes adatsorral dolgozni A túl kis mintával viszont rosszul is járhatunk Data Science ismeret kellhet az architektúratervezéshez is: A hatékonyan felhasználható tárolás fontos kérdés Szintén fontos, hogy mit érdemes egyáltalán tárolni Lehet, hogy aggregátumot is, lehet, hogy csak azt… Szükség lehet a tárolt adatok újrastruktúrálására is Szükséges kompromisszumokat kötni (nem lehet „mindent”) Megnő a „feltáró BI” szerepe is „A Data Understandinget jobb minél előbb megkezdeni” Ha jól tudjuk, mit fogunk az adatokkal csinálni, sokat segíthet … de legalább a skálázódás nem a mi dolgunk.

Machine learning – DATA SCIENCE Forrás: Schutt, O’Neil Doing Data Science 2012. (O’Reilly Media)

Machine learning – Alapok Input adatok  Modell Lehetséges célok: A modell vizsgálata: problématér feltérképezése, kirívó események A modell használata: előrejelzés, vezérlés, … Kapcsolódó területek: Statisztika Mesterséges intelligencia Optimalizáció Négy nagy részhalmaz: Felügyelt tanulás (Supervised Learning) Nem felügyelt tanulás (Unsupervised Learning) Félig felügyelt tanulás (Semi-Supervised Learning) Megerősítéses tanulás (Reinforcement Learning)

Machine Learning – Felügyelt Tanulás Magyarázó változók X Célváltozó(k) Y Bevezető … … Tanításra nem használt minta (validáció, fs, …) Partícionálás Ismert a célváltozó Modelltanítás f(X)Y Mérés … ??? … Modell alkalmazása Ismeretlen a célváltozó Felhasználás

Machine learning – Use case-ek Osztályozás Felügyelt tanulás, a célváltozó kategorikus Regresszió Felügyelt tanulás, a célváltozó folytonos Klaszterezés Nem felügyelt tanulás, cél: homogén csoportokba sorolás Gyakori minták, rendellenes értékek, csalásfelderítés, … Döntéstámogatás, ajánló rendszerek, asszociációs szabályok, … On-line tanulás és akcióválasztás, vezérlés, … (Dimenziócsökkentés, főkomponensanalízis, …) (Statisztikai próbák, rétegzett mintavételezés, …)

Machine learning – Algoritmusok Osztályozás Neurális hálózat (MLP) k legközelebbi szomszéd (k-NN) Döntési fák, véletlen erdők … Regresszió Lineáris regresszió Regressziós döntési fák Klaszterezés Nem felügyelt tanulás, cél: homogén csoportokba sorolás Hierarchikus k-means és k-medoid

Data Science – BIG Data előtt Programozás Matlab Python – SciKit Learn csomag, pandas csomag R Java (Weka) … Vizuális eszközök SPSS Modeler (Clementine) SAS Enterprise Miner, SAS Guide RapidMiner Studio/Server Oracle Miner Knime

Mahout

Mahout – Mi a Mahout? “The Apache Mahout project’s goal is to build a sclable machine learning library.” http://mahout.apache.org Skálázható Gépi tanulási könyvtár 2014. április előtt Eleinte főleg MapReduce implementációk Probléma: jellemzően iteratív algoritmusok 2014. áprilistól Új MapReduce implementációk nem jöhetnek Helyette Spark integráció a kívánatos irány Többféle platform: egygépes környezet, MapReduce, Spark, …

Spark MLLib Machine Learning Library

Spark – Emlékeztető “Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing.” http://spark.apache.org DAG végrehajtó motor  globális belső állapot kezelése Ciklikus adatfolyam  iteratív algoritmusok is In-memory  RDD, perzisztálás NEM MapReduce: csak errőforráskezelő kell neki, futhat: YARN fölött EC2-n (Amazon) Mesos fölött (Apache) … Többféle programozási nyelven API: Java, Scala, Python… MLLib: gépi tanulási csomag a Spark keretrendszerében GraphX: gráf API a Spark felett

Mahout és MLLib – Eszköztár Csoport Algoritmus Mahout MLLib Statisztika Összegzés, Korreláció, Rétegzett mintavételezés - Igen Osztályozás, Regresszió Lineáris modellek (SVM, linreg, logreg) Local (logreg.) Döntési fa Naïve Bayes MR Random Forest Neurális háló (MLP) Local Klaszterezés K-means Local+MR Spektrális klaszterezés Ajánló rendszerek Kollaboratív szűrés Local ill. Local+MR Dimenzó-csökkentés PCA SVD Lánczos-módszer

Hálózatelemzés

Hálózatelemzés – Általános Hálózatelemzés, gráfelemzés… gyakorlatilag ugyanaz. Entitásokat és azok kapcsolatát leíró struktúra: Gráf (csúcsok, élek) és címkék (súlyok, stb.) Lehet statikus gráf vagy időben változó Input adatok  Modell Hálózatelemzés célja: A modell vizsgálata, ezáltal Hálózat vizsgálata Hálózat változásának vizsgálata A struktúra feletti modell használata: előrejelzés, vezérlés, … Google Pregel

BSP Bulk Synchronous Parallel

Bulk Synchronous Parallel Node 𝒊 Node 𝒊+𝟏 Node 𝒊+𝟐 Node 𝒊+𝟑 𝒕 Superstep Worker Master Worker Worker Messages Synchronization Superstep Worker Master Worker Worker Messages + HeartBeat üzenetek („élek” + státusz) Synchronization Superstep Worker Master Worker Worker Messages Synchronization Az üzenetek csak a következő Superstepben válnak elérhetővé!

Számítás, üzenetküldés BSP – csomópont Egy fizikai node-on több virtuális node is futhat egymás után Gráffeldolgozásnál tipikus A végrehajtásnak vége, ha egyszerre mindenki megállásra szavaz Ha folyton üzeneteket küldünk, akkor sosem áll le a végrehajtás… a Superstep számra érdemes lehet limitet tenni Megállásra szavazás Nem érkezett üzenet Számítás, üzenetküldés Aktív Inaktív Üzenet érkezett

BSP – SSSP SSSP: Single Source Shortest Path nincs negatív összsúlyú kör (nincs is értelme) (kb. Bellman-Ford algoritmus) Vertex-Centric (a „csúcsok” számolnak, az „éleken” megy üzenet ) Példa: irányított gráf éllistája (SSSP A-ból) B nyilvánvalóan sosem küld üzenetet… A: {B: 6, C: 2, E: 2} B: - C: {B: 3, D: 1} D: {B: 1} E: {C: 1, F: 1} F: {D: 0} Algoritmus: mindenütt nyilvántartjuk az oda vezető legrövidebb út hosszát (init: végtelen) ha kisebb érték érkezik, átírjuk ha az érték változik, minden élen üzenet aki nem üzen, megállásra szavaz

BSP – SSSP Superstep: 1. SSSP: Single Source Shortest Path nincs negatív összsúlyú kör (nincs is értelme) (kb. Bellman-Ford algoritmus) Vertex-Centric (a „csúcsok” számolnak, az „éleken” megy üzenet ) Példa: irányított gráf éllistája (SSSP A-ból) B nyilvánvalóan sosem küld üzenetet… A: {B: 6, C: 2, E: 2} B: - C: {B: 3, D: 1} D: {B: 1} E: {C: 1, F: 1} F: {D: 0} Superstep: 1. Kiinduló állapot: Végállapot: Fogadott üzenetek: Küldött üzenetek: Algoritmus: mindenütt nyilvántartjuk az oda vezető legrövidebb út hosszát (init: végtelen) ha kisebb érték érkezik, átírjuk ha az érték változik, minden élen üzenet aki nem üzen, megállásra szavaz A B C D E F ∞ A B C D E F ∞ A: {0} A: {B: 6, C: 2, E: 2}

BSP – SSSP Superstep: 2. SSSP: Single Source Shortest Path nincs negatív összsúlyú kör (nincs is értelme) (kb. Bellman-Ford algoritmus) Vertex-Centric (a „csúcsok” számolnak, az „éleken” megy üzenet ) Példa: irányított gráf éllistája (SSSP A-ból) B nyilvánvalóan sosem küld üzenetet… A: {B: 6, C: 2, E: 2} B: - C: {B: 3, D: 1} D: {B: 1} E: {C: 1, F: 1} F: {D: 0} Superstep: 2. Kiinduló állapot: Végállapot: Fogadott üzenetek: Küldött üzenetek: A B C D E F ∞ A B C D E F 6 2 ∞ B: {6} C: {2} E: {2} C: {B: 5, D: 3} E: {C: 3, F: 3}

BSP – SSSP Superstep: 3. SSSP: Single Source Shortest Path nincs negatív összsúlyú kör (nincs is értelme) (kb. Bellman-Ford algoritmus) Vertex-Centric (a „csúcsok” számolnak, az „éleken” megy üzenet ) Példa: irányított gráf éllistája (SSSP A-ból) B nyilvánvalóan sosem küld üzenetet… A: {B: 6, C: 2, E: 2} B: - C: {B: 3, D: 1} D: {B: 1} E: {C: 1, F: 1} F: {D: 0} Superstep: 3. Kiinduló állapot: Végállapot: Fogadott üzenetek: Küldött üzenetek: A B C D E F 6 2 ∞ A B C D E F 5 2 3 B: {5} C: {3} D: {3} F: {3} D: {B: 4} F: {D: 3}

BSP – SSSP Superstep: 4. SSSP: Single Source Shortest Path nincs negatív összsúlyú kör (nincs is értelme) (kb. Bellman-Ford algoritmus) Vertex-Centric (a „csúcsok” számolnak, az „éleken” megy üzenet ) Példa: irányított gráf éllistája (SSSP A-ból) B nyilvánvalóan sosem küld üzenetet… A: {B: 6, C: 2, E: 2} B: - C: {B: 3, D: 1} D: {B: 1} E: {C: 1, F: 1} F: {D: 0} Superstep: 4. Kiinduló állapot: Végállapot: Fogadott üzenetek: Küldött üzenetek: A B C D E F 5 2 3 A B C D E F 4 2 3 mindenki megállásra szavazott… B: {4} D: {3}

SSSP – Pregel (C++)

PageRank – Pregel (C++)

GraphLab PowerGraph és GraphChi

GraphLab – PowerGraph C++ alapú open-source Gráfelemző szoftver Másra is használható, de erre készült A memóriában fut TCP/IP hálózatot használ Vertex-centrikus, de nem BSP Szinkron módban hasonlít a BSP-re Aszinkron módban FIFO ütemezőt használ Hatványeloszlás… GAS-pattern

GraphLab – GraphChi Tulajdonképpen egy egygépes PowerGraph Aszinkron Diszk-alapú Csúszóablakos hozzáférés Ritka eset, hogy nem sorfolytonosan olvassuk a diszket Mikor van rá szükség? Szeretnénk a PowerGraph eszköztárát használni Nincs PowerGraph-hoz klaszterünk Nem fér el a memóriában a gráf De egy-egy csúcs, és a hozzá tartozó információk elférnek