Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1.

Hasonló előadás


Az előadások a következő témára: "Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1."— Előadás másolata:

1 Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1

2 /12 Web crawling Miket csiripelnek a madarak? 2 journal street ecb low area month dollar africa s bank hits came danger sharing vs reuters rose dipped february euro expectations wall central said eu inflation eurostat january office stays zone monetary data day european falls uk annual rate year statistics feb countries friday bloomberg percent

3 /12 Twitter üzenetek követése 3

4 /12 Fő munkamenet input és eredmény csatlakozókkal Main Process res inp RapidMiner felhasználói felülete 4 inp Input csatlakozó, az elvárt input típusával out Output csatlakozó, az output típusával Hiba a csatlakozónál out inp Operátor doboz csatlakozókkal, típus-ikonnal és állapotjelzőkkel Megnevezés inp out Csatlakozás, adatfolyam

5 /12 Webes tartalomelemzést segítő könyvtárak 5

6 /12 A folyamat megvalósítása RapidMinerben 6

7 /12 Makó és Jeruzsálem: Tényleg messze vannak? Menyire különböznek egymástól a hírek? 7 Gazdaság Sport Tudomány emberek vagy pistorius amerikai kutatók között szerint labdarúgó csak egyre gazdasági szakértõje után bajnok barátnõjét csapat februárban kedden nagyon oscar paralimpiai által héten iroda tartott több ügyvédi két nyert azonban felelõs május tartják össze azok utolsó kell lehet futó hazai lelövõ szövetségi tanú válogatott amely olyan pedig egyik szerdán tavaly meg majd ben angol azt európai fel miatt mint más föld második bizonyos lesznek leírt nemzeti számos nagy sem volt aki közel lesz mellett nap óriási alatt ezért ügy ilyen ismert jól többet így bajnok_futó februárban_lelövõ iroda_szakértõje lelövõ_paralimpiai oscar_pistorius paralimpiai_bajnok tavaly_februárban ügyvédi_iroda

8 /12 Asszociációs szabályok 8

9 /12 Asszociációbányászat 9

10 /12 Predictive analytics Mikor törik el a korsó? „A befektetők az Ukrajna és Oroszország közötti feszültség kiéleződése miatt szerte a világon csökkentették részvénypiaci kitettségüket, és a hagyományosan biztonságosnak tartott "menedékeszközökbe", német, amerikai államkötvényekbe, aranyba, japán jenbe, svájci frankba csoportosították át, emiatt Ázsiában, Európában és Amerikában is estek a tőzsdeindexek.” – Privátbankár, MTI 10

11 /12 Tőzsdei hírbányászat 11

12 /12 Köszönöm a figyelmet! 12

13 /12 Webbányászat fajtái Webes tartalmak bányászata •Szöveges, html, xml, multimédia tartalmakban Webhasználati szokások bányászata •Szerverlogok, alkalmazáslogok elemzése Webstruktúra bányászata •Hyperlinkek, HTML/XML tag struktúra felderítése 13

14 /12 Webes tartalombányászat lépései Korpusz összeállítása •RSS feed, Web crawler Dokumentum-előfeldolgozás •HTML/XML feldolgozás •Szövegfelbontás (pl. szavakra) •Elemzésre alkalmas formára hozás (szóhalmaz, szófelhő, szósorozat, szóvektor) Dokumentumelemzés •Témák azonosítása •Tartalmak összehasonlítása •Együttes említések keresése •Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása •Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása 14

15 /12 Korpusz összeállítása RSS feed •Rich Site Summary •Metaadatokkal ellátott, gyakran frissülő információ közzétételére alkalmas. •XML formátum Web crawler •Web robot, web pók •Meghatározott időközönként, meghatározott szabályok és irányelvek alapján felkeres HTML oldalakat, követi a rajtuk lévő hyperlinkeket más HTML oldalakra, és tárolja, illetve indexeli ezeket. 15

16 /12 Dokumentumok előkészítése Szövegfelbontás (pl. szavakra) •Tokenizálás •A folytonos szöveg felbontása értelmes egységekre. Elemzésre alkalmas formára hozás •Szóhalmaz: a szöveg felfogható szavainak összességeként •Szófelhő: a szöveg felfogható szavainak fontosság szerint súlyozott összességeként •Szósorozat: a szöveg felfogható a szavakból álló sorozatként •Szóvektor: minden szöveg felfogható a korpusz valamennyi szavának súlyozott kombinációjaként 16

17 /12 Szó-dokumentum mátrix  A fenti mátrix segítségével előálló szöveg- reprezentációt vektor-tér modellnek nevezzük.  Mátrixalgebrai műveletek végezhetők a TDM-en (term- document matrix) IDahaha nemnem ésés hogyhogy lennelenne megmeg semsem vanvan azénén igényigény ígyígy jobbjobb kellkell m ár m ás m er t n y ar al ru h a s p ór ol sz o ki k v es z

18 /12 Dokumentumok elemzési lehetőségei Témák azonosítása •A szövegben lévő témák megállapítása. Tartalmak összehasonlítása •Szövegek hasonlóságának mérése. Együttes említések keresése •Asszociációs szabályszerűségek kinyerése. Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása •Az egymáshoz hasonló szövegű, de a többi dokumentumtól különböző dokumentumok megkeresése. A szöveg létrehozásához kapcsolódó személyek, események, témák, stb. csoportosítására használható. Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása •Annak vizsgálata, hogy a dokumentum melyik kategóriába tartozó dokumentumokhoz hasonlít legjobban. 18

19 /12 A dokumentumtávolságok gráfon szemléltetve 19

20 /12 Ajánlott irodalmak • Dokumentum-előfeldolgozás – HTML/XML • • – Szavakra bontás • ation ation – Szöveg átformálása • ud ud • space_model space_model • words_model words_model • analysis analysis – RegEx • • RSS – • Web crawler – crawler crawler – scraping scraping • Dokumentumok elemzése – _model _model – ntic_similarity ntic_similarity – ation_rule_learning ation_rule_learning – ment_clustering ment_clustering – ment_classification ment_classification 20

21 /12 Felhasznált anyagok • megkonnyebbulhetnek-a-piacok megkonnyebbulhetnek-a-piacok • Logók: – – https://about.twitter.com/press/brand-assets https://about.twitter.com/press/brand-assets – – • Szolgáltatások: – – – – – https://www.google.com/finance https://www.google.com/finance • Package-ek: – 21


Letölteni ppt "Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI 1."

Hasonló előadás


Google Hirdetések