Webbányászat RapidMinerben

Slides:



Advertisements
Hasonló előadás
HTML enhanced for web apps! Fodor Krisztián
Advertisements

Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
ADATBÁZISOK.
Tanyanyagtárházak lépjünk túl egy LMS korlátain Networkshop 2010 Debrecen, április Vágvölgyi Csaba
A videó digitalizálás könyvtári vonatkozásai
Statisztikák. Foursquare • 2014 Januári adatok forrás: foursquare.com/about • Több mint 45 millió felhasználó • Több mint 5 milliárd check-in • Több mint.
A szolgáltatásai Gödöny Péter ELTE IK Pataky István Inf. Szki.
Felhasználói felületek és üzleti logika Bollobás Dávid ASP.NET
Tengeralattjáró győzelmi hírek elmaradása – kilövés
Windows SharePoint Services 3.0
Forrás: Infografika Forrás:
2010/2011.Huszár István1. dia Weboldalak tervezése II. (X)HTML.
A jövő technológiái Kőnig Tibor főmérnök, Microsoft Magyarország blogs.msdn.com/tibork-on-ms blogs.msdn.com/tibork-on-ms.
SQL Server 2005 Reporting Services a gyakorlatban
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Böngészők Internet Explorer Mozilla Firefox
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Új funkciók az EBSCOhost-ban november 21. Egyetemi Könyvtár Szeged.
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
Leírónyelvek: HTML és XHTML
HTML (HiperText Mark-Up Language)
Embléma, logotípia, piktogram, címer.
WSDL alapismeretek A WSDL (Web Services Description Language – Web szolgáltatások leíró nyelv) egy XML-alapú nyelv a Web szolgáltatások leírására és azok.
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
Egy ISA szerver naplója Sárosi György Terméktámogatási Tanácsadó Microsoft Magyarország.
Instant alkalmazások SharePoint platformon. A fejlesztés és a testre szabás határai elmosódtak. A testre szabást végző legtöbbször nem programozó A.
Közösségi portálok használata
Kereső programok használata
Webbányászat (web mining) Mártonffy A: Kutakodom, tehát vagyok cikke nyomán.
Túl magas e Magyarországon a munkanélküliség?(nemek alapján) Készítette:Both Csaba.
Közösségi oldalak használata
AVIR – intézményi adatmodell K+F+I szekció február 2.
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Túrkeve, Digitális gyűjtemény kialakítása Moldován István OSZK Digitális Gyűjtemény
Könyvtár egy kicsit másképp - a Magyar Elektronikus Könyvtárról és legújabb fejlesztéseiről Szombathely, Góczán Andrea OSZK, MEK osztály.
Anyagadatbank c. tárgy gyakorlat Féléves tematika Adatbázis alapfogalmak, rendszerek Adatmodellek, adatbázis tervezés Adatbázis műveletek.
Kockázat, probléma, változás és dokumentumkezelés Készítette: Szentirmai Róbert (minden jog fenntartva)
Szemantikus keresők.
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Vida Andrea SZTE Egyetemi Könyvtár
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
(e)CTD Dr. Zajzon Gergely
WEB 2.0. Amiről szó lesz… Web átalakulóban, a WEB 2.0 –Újszerű weboldalak… –Első a tartalom! –A felhasználók hatalomátvétele?! –A Web mint platform –
Weboldalak tervezése (X)HTML.
AICC, IEEE, SCORM, fogalmak. Tananyagok cseréje (export-import) Támogatja az együttműködéseket Támogatja a felhasználóbarát környezet kialakítását Megoldja.
Többváltozós adatelemzés
Egy szövegszerkesztő legegyszerűbb szolgáltatásai
World Wide Web Szabó Péter Számítástechnika-technika IV. évfolyam.
Topológiák Hálózati eszközök
Lap.hu oldalak dinamizálása Lap.hu találkozó – május 14.
Árvizek gyakorisága, erőssége, okozott kár - európai vonatkozások
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
A GIMP használata Készítette: Kálmán Krisztina Erzsébethelyi
Ez az én művem: Papercraft
A MEK2.0 magyar digitális könyvtári alkalmazása - eleMEK Moldován István OSZK MEK osztály ”Networkshop” Pécs, április
A digitális kötelespéldányok kezelése DIGITALIZÁLÁS LÉPÉSRŐL-LÉPÉSRE Budapest, november Horváth Ádám OSZK.
1.  Szerzői:  Panagiotis Bouros (University of Hong Kong),  Shen Ge (University of Hong Kong),  Nikos Mamoulis (University of Hong Kong)  Esemény:
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Keresés fajtái Matching (szabadszavas)
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
Internet tudományos használata Skultéti Attila 2015.
Internet tudományos használata Skultéti Attila 2015.
Természetes nyelvi interfészek
Szövegszerkesztési alapfogalmak
Kovács Gergely Péter Bevezetés
Kockázat, probléma, változás és dokumentumkezelés
Önkormányzati Fejlesztések Figyelemmel kísérése II.
Internet és kommunikáció
Előadás másolata:

Webbányászat RapidMinerben Kovács Balázs PTE KTK GMI KovacsB@ktk.pte.hu

Web crawling Miket csiripelnek a madarak? friday inflation european year eurostat reuters february annual central vs eu office month area expectations stays bank street uk sharing day hits journal percent came feb wall ecb s falls dollar low said monetary january africa dipped rate rose danger zone euro countries data statistics bloomberg

Twitter üzenetek követése

RapidMiner felhasználói felülete Fő munkamenet input és eredmény csatlakozókkal Main Process res inp Operátor doboz csatlakozókkal, típus-ikonnal és állapotjelzőkkel Megnevezés inp out Csatlakozás, adatfolyam Menük: View Perspectives -> Design, Results, Welcome Gombok: Run, Pause, Stop inp Input csatlakozó, az elvárt input típusával out Output csatlakozó, az output típusával Hiba a csatlakozónál out inp

Webes tartalomelemzést segítő könyvtárak

A folyamat megvalósítása RapidMinerben

emberek vagy pistorius kutatók amerikai között Gazdaság Sport szerint Makó és Jeruzsálem: Tényleg messze vannak? Menyire különböznek egymástól a hírek? válogatott európai oscar_pistorius bizonyos amely paralimpiai_bajnok tavaly_februárban számos szakértõje Gazdaság kedden alatt mint angol miatt közel lelövõ_paralimpiai tavaly gazdasági lehet csapat nemzeti ügyvédi ben egyre mellett nyert bajnok februárban_lelövõ ezért lesz ügy több bajnok_futó labdarúgó kell ügyvédi_iroda nap hazai lesznek más csak pedig leírt második barátnõjét után vagy iroda iroda_szakértõje fel futó által tartott Sport tanú sem aki emberek héten azt egyik nagyon azonban pistorius így kutatók olyan lelövõ oscar amerikai utolsó óriási két jól föld szerdán között felelõs tartják volt szerint februárban ilyen többet május azok paralimpiai nagy ismert Tudomány össze szövetségi meg majd

Asszociációs szabályok

Asszociációbányászat http://www.microsoft-careers.com/xml/category44573.xml

Predictive analytics Mikor törik el a korsó? „A befektetők az Ukrajna és Oroszország közötti feszültség kiéleződése miatt szerte a világon csökkentették részvénypiaci kitettségüket, és a hagyományosan biztonságosnak tartott "menedékeszközökbe", német, amerikai államkötvényekbe, aranyba, japán jenbe, svájci frankba csoportosították át, emiatt Ázsiában, Európában és Amerikában is estek a tőzsdeindexek.” Privátbankár, MTI

Tőzsdei hírbányászat

Köszönöm a figyelmet!

Webes tartalmak bányászata Webbányászat fajtái Webes tartalmak bányászata Szöveges, html, xml, multimédia tartalmakban Webhasználati szokások bányászata Szerverlogok, alkalmazáslogok elemzése Webstruktúra bányászata Hyperlinkek, HTML/XML tag struktúra felderítése

Webes tartalombányászat lépései Korpusz összeállítása RSS feed, Web crawler Dokumentum-előfeldolgozás HTML/XML feldolgozás Szövegfelbontás (pl. szavakra) Elemzésre alkalmas formára hozás (szóhalmaz, szófelhő, szósorozat, szóvektor) Dokumentumelemzés Témák azonosítása Tartalmak összehasonlítása Együttes említések keresése Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása

Korpusz összeállítása RSS feed Rich Site Summary Metaadatokkal ellátott, gyakran frissülő információ közzétételére alkalmas. XML formátum Web crawler Web robot, web pók Meghatározott időközönként, meghatározott szabályok és irányelvek alapján felkeres HTML oldalakat, követi a rajtuk lévő hyperlinkeket más HTML oldalakra, és tárolja, illetve indexeli ezeket. HTML/XML feldolgozás <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html> <head> <title>Az oldal címe</title> <meta http-equiv="Content-type" content="text/html;charset=iso-8859-2"> [esetleges további fejléc-információk] </head> <body> <p> első bekezdés </p> <p> második bekezdés </p> </body> </html> <?xml version="1.0" encoding="UTF-8"?> <Recept név="kenyér" elk_idő="5 perc" sütés_idő="3 óra"> <cím>Egyszerű kenyér</cím> <összetevő mennyiség="3" egység="csésze">Liszt</összetevő> <összetevő mennyiség="10" egység="dekagramm">Élesztő</összetevő> <összetevő mennyiség="1.5" egység="csésze">Meleg víz</összetevő> <összetevő mennyiség="1" egység="teáskanál">Só</összetevő> <Utasítások> <lépés>Keverj össze minden összetevőt, aztán jól gyúrd össze!</lépés> <lépés>Fedd le ruhával és hagyd pihenni egy óráig egy meleg szobában!</lépés> <lépés>Gyúrd össze újra, aztán bádogedényben süsd meg a sütőben!</lépés> </Utasítások> </Recept>

Dokumentumok előkészítése Szövegfelbontás (pl. szavakra) Tokenizálás A folytonos szöveg felbontása értelmes egységekre. Elemzésre alkalmas formára hozás Szóhalmaz: a szöveg felfogható szavainak összességeként Szófelhő: a szöveg felfogható szavainak fontosság szerint súlyozott összességeként Szósorozat: a szöveg felfogható a szavakból álló sorozatként Szóvektor: minden szöveg felfogható a korpusz valamennyi szavának súlyozott kombinációjaként

Szó-dokumentum mátrix ID a ha nem és hogy l enne meg sem van az én i gény í gy j obb ke l l már más mer t nyaral ruha spórol szokik vesz 1 4 3 2 5 A fenti mátrix segítségével előálló szöveg-reprezentációt vektor-tér modellnek nevezzük. Mátrixalgebrai műveletek végezhetők a TDM-en (term-document matrix)

Dokumentumok elemzési lehetőségei Témák azonosítása A szövegben lévő témák megállapítása. Tartalmak összehasonlítása Szövegek hasonlóságának mérése. Együttes említések keresése Asszociációs szabályszerűségek kinyerése. Dokumentumok vagy hozzá kapcsolt objektumok (pl. tulajdonosaik, témáik) csoportosítása Az egymáshoz hasonló szövegű, de a többi dokumentumtól különböző dokumentumok megkeresése. A szöveg létrehozásához kapcsolódó személyek, események, témák, stb. csoportosítására használható. Dokumentumok vagy kapcsolt elemek meglévő kategóriákba sorolása Annak vizsgálata, hogy a dokumentum melyik kategóriába tartozó dokumentumokhoz hasonlít legjobban.

A dokumentumtávolságok gráfon szemléltetve

Ajánlott irodalmak Dokumentum-előfeldolgozás RSS Web crawler HTML/XML http://hu.wikipedia.org/wiki/HTML http://hu.wikipedia.org/wiki/XML Szavakra bontás http://en.wikipedia.org/wiki/Tokenization Szöveg átformálása http://en.wikipedia.org/wiki/Tag_cloud http://en.wikipedia.org/wiki/Vector_space_model http://en.wikipedia.org/wiki/Bag-of-words_model http://en.wikipedia.org/wiki/Lexical_analysis RegEx http://www.regular-expressions.info/ RSS http://en.wikipedia.org/wiki/RSS Web crawler http://en.wikipedia.org/wiki/Web_crawler http://en.wikipedia.org/wiki/Web_scraping Dokumentumok elemzése http://en.wikipedia.org/wiki/Topic_model http://en.wikipedia.org/wiki/Semantic_similarity http://en.wikipedia.org/wiki/Association_rule_learning http://en.wikipedia.org/wiki/Document_clustering http://en.wikipedia.org/wiki/Document_classification

Felhasznált anyagok http://privatbankar.hu/reszveny/vege-putyin-hadgyakorlatanak-megkonnyebbulhetnek-a-piacok-266579 Logók: http://www.feedicons.com/ https://about.twitter.com/press/brand-assets http://commons.wikimedia.org/wiki/File:Google-News_logo.png http://commons.wikimedia.org/wiki/File:Rapidminer_logo.jpg Szolgáltatások: http://www.queryfeed.net/ http://itouchmap.com/latlong.html http://www.microsoft-careers.com/ http://www.origo.hu/index.html https://www.google.com/finance Package-ek: http://cran.r-project.org/web/packages/wordcloud/