Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1.

Hasonló előadás


Az előadások a következő témára: "Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1."— Előadás másolata:

1 Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI KovacsB@ktk.pte.hu 1

2 /12 Web crawling Miket csiripelnek a madarak? 2 journal street ecb low area month dollar africa s bank hits came danger sharing vs reuters rose dipped february euro expectations wall central said eu inflation eurostat january office stays zone monetary data day european falls uk annual rate year statistics feb countries friday bloomberg percent

3 /12 Twitter üzenetek követése 3

4 /12 Fő munkamenet input és eredmény csatlakozókkal Main Process res inp RapidMiner felhasználói felülete 4 inp Input csatlakozó, az elvárt input típusával out Output csatlakozó, az output típusával Hiba a csatlakozónál out inp Operátor doboz csatlakozókkal, típus-ikonnal és állapotjelzőkkel Megnevezés inp out Csatlakozás, adatfolyam

5 /12 Webes tartalomelemzést segítő könyvtárak 5

6 /12 A folyamat megvalósítása RapidMinerben 6

7 /12 Makó és Jeruzsálem: Tényleg messze vannak? Menyire különböznek egymástól a hírek? 7 Gazdaság Sport Tudomány emberek vagy pistorius amerikai kutatók között szerint labdarúgó csak egyre gazdasági szakértõje után bajnok barátnõjét csapat februárban kedden nagyon oscar paralimpiai által héten iroda tartott több ügyvédi két nyert azonban felelõs május tartják össze azok utolsó kell lehet futó hazai lelövõ szövetségi tanú válogatott amely olyan pedig egyik szerdán tavaly meg majd ben angol azt európai fel miatt mint más föld második bizonyos lesznek leírt nemzeti számos nagy sem volt aki közel lesz mellett nap óriási alatt ezért ügy ilyen ismert jól többet így bajnok_futó februárban_lelövõ iroda_szakértõje lelövõ_paralimpiai oscar_pistorius paralimpiai_bajnok tavaly_februárban ügyvédi_iroda

8 /12 Asszociációs szabályok 8

9 /12 Asszociációbányászat 9

10 /12 Predictive analytics Mikor törik el a korsó? „A befektetők az Ukrajna és Oroszország közötti feszültség kiéleződése miatt szerte a világon csökkentették részvénypiaci kitettségüket, és a hagyományosan biztonságosnak tartott "menedékeszközökbe", német, amerikai államkötvényekbe, aranyba, japán jenbe, svájci frankba csoportosították át, emiatt Ázsiában, Európában és Amerikában is estek a tőzsdeindexek.” – Privátbankár, MTI 10

11 /12 Tőzsdei hírbányászat 11

12 /12 Köszönöm a figyelmet! 12

13 /12 Webbányászat fajtái Webes tartalmak bányászata •Szöveges, html, xml, multimédia tartalmakban Webhasználati szokások bányászata •Szerverlogok, alkalmazáslogok elemzése Webstruktúra bányászata •Hyperlinkek, HTML/XML tag struktúra felderítése 13

14 /12 Webes tartalombányászat lépései Korpusz összeállítása •RSS feed, Web crawler Dokumentum-előfeldolgozás •HTML/XML feldolgozás •Szövegfelbontás (pl. szavakra) •Elemzésre alkalmas formára hozás (szóhalmaz, szófelhő, szósorozat, szóvektor) Dokumentumelemzés •Témák azonosítása •Tartalmak összehasonlítása •Együttes említések keresése •Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása •Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása 14

15 /12 Korpusz összeállítása RSS feed •Rich Site Summary •Metaadatokkal ellátott, gyakran frissülő információ közzétételére alkalmas. •XML formátum Web crawler •Web robot, web pók •Meghatározott időközönként, meghatározott szabályok és irányelvek alapján felkeres HTML oldalakat, követi a rajtuk lévő hyperlinkeket más HTML oldalakra, és tárolja, illetve indexeli ezeket. 15

16 /12 Dokumentumok előkészítése Szövegfelbontás (pl. szavakra) •Tokenizálás •A folytonos szöveg felbontása értelmes egységekre. Elemzésre alkalmas formára hozás •Szóhalmaz: a szöveg felfogható szavainak összességeként •Szófelhő: a szöveg felfogható szavainak fontosság szerint súlyozott összességeként •Szósorozat: a szöveg felfogható a szavakból álló sorozatként •Szóvektor: minden szöveg felfogható a korpusz valamennyi szavának súlyozott kombinációjaként 16

17 /12 Szó-dokumentum mátrix  A fenti mátrix segítségével előálló szöveg- reprezentációt vektor-tér modellnek nevezzük.  Mátrixalgebrai műveletek végezhetők a TDM-en (term- document matrix) IDahaha nemnem ésés hogyhogy lennelenne megmeg semsem vanvan azénén igényigény ígyígy jobbjobb kellkell m ár m ás m er t n y ar al ru h a s p ór ol sz o ki k v es z 143210210012002210100111 220113012100110011110110 300000001100110000002000 422200110110000001010001 500010000000000000000000

18 /12 Dokumentumok elemzési lehetőségei Témák azonosítása •A szövegben lévő témák megállapítása. Tartalmak összehasonlítása •Szövegek hasonlóságának mérése. Együttes említések keresése •Asszociációs szabályszerűségek kinyerése. Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása •Az egymáshoz hasonló szövegű, de a többi dokumentumtól különböző dokumentumok megkeresése. A szöveg létrehozásához kapcsolódó személyek, események, témák, stb. csoportosítására használható. Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása •Annak vizsgálata, hogy a dokumentum melyik kategóriába tartozó dokumentumokhoz hasonlít legjobban. 18

19 /12 A dokumentumtávolságok gráfon szemléltetve 19

20 /12 Ajánlott irodalmak • Dokumentum-előfeldolgozás – HTML/XML • http://hu.wikipedia.org/wiki/HTML http://hu.wikipedia.org/wiki/HTML • http://hu.wikipedia.org/wiki/XML http://hu.wikipedia.org/wiki/XML – Szavakra bontás • http://en.wikipedia.org/wiki/Tokeniz ation http://en.wikipedia.org/wiki/Tokeniz ation – Szöveg átformálása • http://en.wikipedia.org/wiki/Tag_clo ud http://en.wikipedia.org/wiki/Tag_clo ud • http://en.wikipedia.org/wiki/Vector_ space_model http://en.wikipedia.org/wiki/Vector_ space_model • http://en.wikipedia.org/wiki/Bag-of- words_model http://en.wikipedia.org/wiki/Bag-of- words_model • http://en.wikipedia.org/wiki/Lexical_ analysis http://en.wikipedia.org/wiki/Lexical_ analysis – RegEx • http://www.regular-expressions.info/ http://www.regular-expressions.info/ • RSS – http://en.wikipedia.org/wiki/RSS http://en.wikipedia.org/wiki/RSS • Web crawler – http://en.wikipedia.org/wiki/Web_ crawler http://en.wikipedia.org/wiki/Web_ crawler – http://en.wikipedia.org/wiki/Web_ scraping http://en.wikipedia.org/wiki/Web_ scraping • Dokumentumok elemzése – http://en.wikipedia.org/wiki/Topic _model http://en.wikipedia.org/wiki/Topic _model – http://en.wikipedia.org/wiki/Sema ntic_similarity http://en.wikipedia.org/wiki/Sema ntic_similarity – http://en.wikipedia.org/wiki/Associ ation_rule_learning http://en.wikipedia.org/wiki/Associ ation_rule_learning – http://en.wikipedia.org/wiki/Docu ment_clustering http://en.wikipedia.org/wiki/Docu ment_clustering – http://en.wikipedia.org/wiki/Docu ment_classification http://en.wikipedia.org/wiki/Docu ment_classification 20

21 /12 Felhasznált anyagok • http://privatbankar.hu/reszveny/vege-putyin-hadgyakorlatanak- megkonnyebbulhetnek-a-piacok-266579 http://privatbankar.hu/reszveny/vege-putyin-hadgyakorlatanak- megkonnyebbulhetnek-a-piacok-266579 • Logók: – http://www.feedicons.com/ http://www.feedicons.com/ – https://about.twitter.com/press/brand-assets https://about.twitter.com/press/brand-assets – http://commons.wikimedia.org/wiki/File:Google-News_logo.png http://commons.wikimedia.org/wiki/File:Google-News_logo.png – http://commons.wikimedia.org/wiki/File:Rapidminer_logo.jpg http://commons.wikimedia.org/wiki/File:Rapidminer_logo.jpg • Szolgáltatások: – http://www.queryfeed.net/ http://www.queryfeed.net/ – http://itouchmap.com/latlong.html http://itouchmap.com/latlong.html – http://www.microsoft-careers.com/ http://www.microsoft-careers.com/ – http://www.origo.hu/index.html http://www.origo.hu/index.html – https://www.google.com/finance https://www.google.com/finance • Package-ek: – http://cran.r-project.org/web/packages/wordcloud/ http://cran.r-project.org/web/packages/wordcloud/ 21


Letölteni ppt "Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1."

Hasonló előadás


Google Hirdetések