Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Webbányászat RapidMinerben

Hasonló előadás


Az előadások a következő témára: "Webbányászat RapidMinerben"— Előadás másolata:

1 Webbányászat RapidMinerben
Kovács Balázs PTE KTK GMI

2 Web crawling Miket csiripelnek a madarak?
friday inflation european year eurostat reuters february annual central vs eu office month area expectations stays bank street uk sharing day hits journal percent came feb wall ecb s falls dollar low said monetary january africa dipped rate rose danger zone euro countries data statistics bloomberg

3 Twitter üzenetek követése

4 RapidMiner felhasználói felülete
Fő munkamenet input és eredmény csatlakozókkal Main Process res inp Operátor doboz csatlakozókkal, típus-ikonnal és állapotjelzőkkel Megnevezés inp out Csatlakozás, adatfolyam Menük: View Perspectives -> Design, Results, Welcome Gombok: Run, Pause, Stop inp Input csatlakozó, az elvárt input típusával out Output csatlakozó, az output típusával Hiba a csatlakozónál out inp

5 Webes tartalomelemzést segítő könyvtárak

6 A folyamat megvalósítása RapidMinerben

7 emberek vagy pistorius kutatók amerikai között Gazdaság Sport szerint
Makó és Jeruzsálem: Tényleg messze vannak? Menyire különböznek egymástól a hírek? válogatott európai oscar_pistorius bizonyos amely paralimpiai_bajnok tavaly_februárban számos szakértõje Gazdaság kedden alatt mint angol miatt közel lelövõ_paralimpiai tavaly gazdasági lehet csapat nemzeti ügyvédi ben egyre mellett nyert bajnok februárban_lelövõ ezért lesz ügy több bajnok_futó labdarúgó kell ügyvédi_iroda nap hazai lesznek más csak pedig leírt második barátnõjét után vagy iroda iroda_szakértõje fel futó által tartott Sport tanú sem aki emberek héten azt egyik nagyon azonban pistorius így kutatók olyan lelövõ oscar amerikai utolsó óriási két jól föld szerdán között felelõs tartják volt szerint februárban ilyen többet május azok paralimpiai nagy ismert Tudomány össze szövetségi meg majd

8 Asszociációs szabályok

9 Asszociációbányászat

10 Predictive analytics Mikor törik el a korsó?
„A befektetők az Ukrajna és Oroszország közötti feszültség kiéleződése miatt szerte a világon csökkentették részvénypiaci kitettségüket, és a hagyományosan biztonságosnak tartott "menedékeszközökbe", német, amerikai államkötvényekbe, aranyba, japán jenbe, svájci frankba csoportosították át, emiatt Ázsiában, Európában és Amerikában is estek a tőzsdeindexek.” Privátbankár, MTI

11 Tőzsdei hírbányászat

12 Köszönöm a figyelmet!

13 Webes tartalmak bányászata
Webbányászat fajtái Webes tartalmak bányászata Szöveges, html, xml, multimédia tartalmakban Webhasználati szokások bányászata Szerverlogok, alkalmazáslogok elemzése Webstruktúra bányászata Hyperlinkek, HTML/XML tag struktúra felderítése

14 Webes tartalombányászat lépései
Korpusz összeállítása RSS feed, Web crawler Dokumentum-előfeldolgozás HTML/XML feldolgozás Szövegfelbontás (pl. szavakra) Elemzésre alkalmas formára hozás (szóhalmaz, szófelhő, szósorozat, szóvektor) Dokumentumelemzés Témák azonosítása Tartalmak összehasonlítása Együttes említések keresése Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása

15 Korpusz összeállítása
RSS feed Rich Site Summary Metaadatokkal ellátott, gyakran frissülő információ közzétételére alkalmas. XML formátum Web crawler Web robot, web pók Meghatározott időközönként, meghatározott szabályok és irányelvek alapján felkeres HTML oldalakat, követi a rajtuk lévő hyperlinkeket más HTML oldalakra, és tárolja, illetve indexeli ezeket. HTML/XML feldolgozás <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" " <html> <head> <title>Az oldal címe</title> <meta http-equiv="Content-type" content="text/html;charset=iso "> [esetleges további fejléc-információk] </head> <body> <p> első bekezdés </p> <p> második bekezdés </p> </body> </html> <?xml version="1.0" encoding="UTF-8"?> <Recept név="kenyér" elk_idő="5 perc" sütés_idő="3 óra"> <cím>Egyszerű kenyér</cím> <összetevő mennyiség="3" egység="csésze">Liszt</összetevő> <összetevő mennyiség="10" egység="dekagramm">Élesztő</összetevő> <összetevő mennyiség="1.5" egység="csésze">Meleg víz</összetevő> <összetevő mennyiség="1" egység="teáskanál">Só</összetevő> <Utasítások> <lépés>Keverj össze minden összetevőt, aztán jól gyúrd össze!</lépés> <lépés>Fedd le ruhával és hagyd pihenni egy óráig egy meleg szobában!</lépés> <lépés>Gyúrd össze újra, aztán bádogedényben süsd meg a sütőben!</lépés> </Utasítások> </Recept>

16 Dokumentumok előkészítése
Szövegfelbontás (pl. szavakra) Tokenizálás A folytonos szöveg felbontása értelmes egységekre. Elemzésre alkalmas formára hozás Szóhalmaz: a szöveg felfogható szavainak összességeként Szófelhő: a szöveg felfogható szavainak fontosság szerint súlyozott összességeként Szósorozat: a szöveg felfogható a szavakból álló sorozatként Szóvektor: minden szöveg felfogható a korpusz valamennyi szavának súlyozott kombinációjaként

17 Szó-dokumentum mátrix
ID a ha nem és hogy l enne meg sem van az én i gény í gy j obb ke l l már más mer t nyaral ruha spórol szokik vesz 1 4 3 2 5 A fenti mátrix segítségével előálló szöveg-reprezentációt vektor-tér modellnek nevezzük. Mátrixalgebrai műveletek végezhetők a TDM-en (term-document matrix)

18 Dokumentumok elemzési lehetőségei
Témák azonosítása A szövegben lévő témák megállapítása. Tartalmak összehasonlítása Szövegek hasonlóságának mérése. Együttes említések keresése Asszociációs szabályszerűségek kinyerése. Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása Az egymáshoz hasonló szövegű, de a többi dokumentumtól különböző dokumentumok megkeresése. A szöveg létrehozásához kapcsolódó személyek, események, témák, stb. csoportosítására használható. Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása Annak vizsgálata, hogy a dokumentum melyik kategóriába tartozó dokumentumokhoz hasonlít legjobban.

19 A dokumentumtávolságok gráfon szemléltetve

20 Ajánlott irodalmak Dokumentum-előfeldolgozás RSS Web crawler
HTML/XML Szavakra bontás Szöveg átformálása RegEx RSS Web crawler Dokumentumok elemzése

21 Felhasznált anyagok Logók: Szolgáltatások: Package-ek:


Letölteni ppt "Webbányászat RapidMinerben"

Hasonló előadás


Google Hirdetések