Szöveg- és Webbányászat

Slides:



Advertisements
Hasonló előadás
Hogyan jutunk információkhoz az interneten
Advertisements

GRIN: Gráf alapú RDF index
A Floyd-Warshall algoritmus
Keresés a számítógépes katalógusokban
A Savaria Egyetemi Könyvtár Katalógusa Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók.
Orbán Éva SZIE Állatorvos-tudományi Könyvtár Hagyományos és új terápiás eljárások az információhiány kezelésére Tanulságos esetek az Állatorvos-tudományi.
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
Internet ismeretek II..
A BNO10 formális formális reprezentálása a GALEN alapján
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
1 AIBO Robotfoci Bodor László IAR Bevezetés AIBO RoboCup AIBO RoboCup Célok Célok Rendszer elemei Rendszer elemei Megvalósítás terve Megvalósítás.
Képességszintek.
Savaria Egyetemi Könyvtár Katalógusa Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók.
Készítette: Cselényi Szandra Nóra
Címkézett hálózatok modellezése
Információ Visszakeresés
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Információ kinyerés nov. 2.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó.
Szintaktikai elemzés február 23..
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Naïve Bayes, HMM.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Rangsorolás tanulása ápr. 24..
Információ kinyerés november 21.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
A digitális számítás elmélete
{ Közösségi spammelés felismerése és eliminálása Kivonat – Pletser József.
Kereső programok használata
Aki keres, az talál? Igen, talál. Ki ezt, ki azt, de egy szót beütve a google keresőbe (pl.) mindig ugyanazt, hacsak nem kerültek fel új honlapok az adott.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
A Magyar Nemzeti Szövegtár
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Adatbázisrendszerek jövője
Statisztika.
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Vida Andrea SZTE Egyetemi Könyvtár
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Egyszerűsítő megoldások Eddigi problémák: Természetes nyelv kényelmes használat – magas kifejező erő – feldologozhatatlanság Kódrendszerek: feldolgozható.
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Kereső programok levelezés. Google története 1995: Larry Page és Sergey Brin 1996: keresőmotor tervezése 1998 szept. 7: megalakult a Google Inc. Ma: havonta.
Keresőrendszerek.
Az internetes keresési módszerek
Keresés a weben Kulcsszavas keresés: Google (
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
1.  Szerzői:  Panagiotis Bouros (University of Hong Kong),  Shen Ge (University of Hong Kong),  Nikos Mamoulis (University of Hong Kong)  Esemény:
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Keresés fajtái Matching (szabadszavas)
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Adatkeresés az interneten
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
17 ISMERTESSE AZ INTERNETES KERESÉSI MÓDSZEREKET! KONKRÉT GYAKORLATI PÉLDA KERESÉSRE.(KERESÉS, TALÁLATI LISTA ÉRTELMEZÉSE, TALÁLT OLDAL MENTÉSE.) Készítette:
Készítette: Kiss András
Természetes nyelvi interfészek
Mesterséges intelligencia
Internet és kommunikáció
Navigáció az Interneten:
A mesterséges neuronhálók alapjai
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Szöveg- és Webbányászat

tehát a szövegbányászat egy „multidiszciplináris” terület alapfeladatok: információ-visszakeresés webes tartalomkeresés válaszkeresés hasonló dokumentumok keresése személyre szabott megvalósítás információkinyerés dokumentum osztályozás, és kategorizálás kivonatolás vagy összegzéskészítés tehát a szövegbányászat egy „multidiszciplináris” terület NLP (Natural Language Processing, Természetes Nyelvi Feldolgozás) Mesterséges Intelligencia, Gépi Tanulás Adatbázis kezelés Gráfelmélet, ...

Információ visszakeresés (Information Retrieval, IR) Adott egy dokumentumgyűjtemény (szövegkorpusz) lokális webes (időben változhat) Bizonyos dokumentumokat keresünk kulcsszavak megadásával természetes nyelvi kérdéssel, vagy utasítással (ún. válaszkeresés) Keresés: egyszerű, adatbázis alapú relevancia rangsor elengedhetetlen egy nagy dokumentumhalmazban történő kereséskor Legfontosabb tulajdonságok: relevancia, futási idő, tárhely

Keresés dokumentumgyűjteményekben pl. MEDLINE: orvosi, biológiai témájú publikációk gyűjteménye Keresési stratégiák: megadandó egy keresési minta (szavak kifejezések, logikai kifejezések) bináris: a szó előfordulása a dokumentumban nem ad rangsort a hasonló dokumentumok között (rendezés a publikáció dátuma alapján) szógyakoriság alapú rangsor egyszerű szógyakoriság tf-idf (már említettük)

Egy keresőmotor sémája

Indexelés egyszerű index: Szó-dokumentum mátrix (Di,j : i. szó szerepel-e a j-edik dokumentumban) invertált index: a tárhatékonyság miatt ez az elterjedt Minden T tokenre, tároljuk a T-t tartalmazó dokumentumok listáját (indexeit). Tárolás tömbben, v. ún. naplólistában: 2 4 8 16 32 64 128 Szótár Brutus Calpurnia Caesar 1 2 3 5 8 13 21 34 13 16 Napló Dokumentum ID szerint rendezve!

Az ún. stopword-ket nem tároljuk (pl. a, az, volt, lesz, ...) A Dokumentum ID-knek csak a különbségét tároljuk, azt is tömörítve az ún. gamma-kódolással gamma kódolás: K számot egy <hossz, eltolás> párral írjuk le hossz érték unáris kódolású (a számot leíró kód (eltolás) hosszát adja meg, 0-val záródik) az eltolás bináris kódolású (megadja magát a számot, az első egyest elhagyjuk) 9 = <1110,001> (7 bit) 23 = <11110, 0111> (9 bit) 1040 = <11111111110,0000010000> (21 bit) A kód egy kettes szorzó mellett optimális!

WEB-lapok rangsorolása: PageRank 1998, Larry Page, Sergey Brin (Google) Alapja, leegyszerűsítve: a jó lapokra sok (jó) lap mutat rá linkekkel A WEB egy gráffal ábrázolható, ahol az irányított élek a linkeknek felelnek meg. Tfh. egy robot véletlen bolyongást végez a weben Linkek mentén lép tovább Beragadást elkerülendő kis eséllyel (p) véletlen lapra lép tovább Hosszú idő után az egyes lapok relatív látogatottsága beáll egy stabil értékre, ami nagyon jól használható a lap fontosságának mérésére

Az oldalak rangja legyen a hosszú távú látogatottsági rátájuk! Ez pontosan a web-gráfot leíró átmeneti mátrix sajátvektora lesz Az egyes állapotok közti átmenetek valószínűségeit sorsztochasztikus mátrixszal írhatjuk le (P) (a sorösszeg 1) A rangsorolást visszavezettük a sajátérték-sajátvektor problémára Tehát induljunk egy tetszőleges weblapról (mondjuk x=(10…0)). Egy lépés után xP írja le az helyzetünket (valószínűségek) Két lépés után xP2 , utána xP3 … Algoritmus: szorozzuk x-et a P mátrixszal amíg a szorzat kellően nem stabilizálódik Kellően nagy k-ra, xPk = a. Ha a az egyensúlyi állapot, akkor a=aP Megoldva a mátrixegyenletet kapjuk a-t, a a P mátrix baloldali sajátvektora

Egy konkrét kereső, a Google A PageRank mellett más heurisztikákat is használ rangsoroláshoz Query/Hit relevancia (milyen gyakran választják az adott találatot) Hubs/authorities (hub – forrás; authority – szakértő) a gráfstruktúrát használja, de másképp mint a PageRank Hub pontszám h(x) – Attól függ milyen jó szakértőket linkelek Authority pontszám a(x) – Attól függ mennyi, milyen jó forrás mutat rám

Információkinyerés Information Extraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése Folyó szövegből strukturált információ IE vs. IR

Munkalehetőségek kinyerése foodscience.com-Job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services JobLocation: Upper Midwest Contact Phone: 800-488-2611 DateExtracted: January 8, 2001 Source: www.foodscience.com/jobs_midwest.html OtherCompanyJobs: foodscience.com-Job1

Termék információ

Előfeldolgozás, hasznos információk: Egyéb alkalmazások: Log fájlokból statisztikák gyűjtése Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése Előfeldolgozás, hasznos információk: NLP: tokenizálás, morfológiai elemzés, szintaktikai elemzés, dependenciák, jelentés egyértelműsítés, tulajdonnevek felismerése téma detektálás szignifikáns dokumentumok azonosítása (IR)

Keret alapú (szabály alapú) megközelítés: középpontban a célszó (egy célszó több keretben is szerepelhet) egy keretet a célszó és a hozzá kapcsolódó szereplők és az ok szerepei (role) azonosítanak A szereplőkre feltételek definiáltak: jelentés nyelvtani tulajdonság (szófaj, egyes/többes szám) függés másik szereplőtől a szereplése kötelező-e IE: a keretek illesztése a szövegre

Statisztikai megközelítés: HMM Állapotok: lehetséges szavak halmazát modellezik. Pl. „pénz” állapot: millió, Euró, … pl. HMM kutatási témájú publikációkhoz: IE: Viterbi algoritmussal a legvalószínűbb állapotsorozat kiszámítása

Pl.: Bibliográfia bejegyzés Leslie Pack Kaelbling, Michael L. Littman and Andrew W. Moore. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, pages 237-285, May 1996.

IE-nél felmerülő nyelvészeti problémák Morfológiai, szófaji azonosítás Főnévi csoportok azonosítása a felismerni kívánt névelemeket sokszor leíró főnévi frázisok követik, pl. MOL, a legnagyobb közép-európai olajipari vállalat felvásárolta a… Időbeliség azonosítása Tagadás Említés feloldás (névmások, utalószók), pl. Az OTP Bank szóvivője közölte, hogy a cég… Tulajdonnév felismerés

Kivonatolás Rövid részletek megtalálása a dokumentumokban, amelyek releváns információt adnak azok tartalmáról a keresők un. snippet-jei (keresőszavak néhány szavas környezetei) sok esetben erre nem alkalmasak A jelenlegi megoldások néhány nemkívánatos tulajdonsága: Túl hosszú és sokszor lényegtelen mondatok kiválasztása Az elszórt lényeges információk kiválasztásának nehézsége Az ellentmondó információk feldolgozásának nehézsége

Jellemzők, amik befolyásolhatják a mondatokhoz rendelt pontértéket: Kulcsszó előfordulás: a szöveg leggyakoribb szavainak mondatbeli előfordulása címbeli kulcsszavak előfordulása előfordulási hely (pl. híreknél az első pár mondat, tudományos cikkekben az abstract, conclusion, ...) Utaló frázisok (pl. ebben a cikkben, jelen munkában, ...) Tulajdonnév tartalmazás Negatívan befolyásoló jellemzők: rövid mondathossz, feloldatlan utalások (névmások), informális, pontatlan szavak, idézetek

A módszerek kiértékelése? Nehézkes… Tf-idf módszer: 1. minden dokumentumra meghatározza a tf-idf vektorokat 2. az egyes dokumentumokból azokat a mondatokat válogatja ki, amelyek távolsága a dokumentum vektorától (pl. koszinusz távolsággal) legkisebb. MMR módszer: egy mondat kiválasztásakor egyszerre maximalizálja a kulcs és címszavakhoz való hasonlóságot, és az eddig már kiválasztott mondatoktól vett eltérést Gráf alapú módszerek Csomópontok: mondatok; az élek súlya: közös szavak száma Összefüggő komponensek, klikkek keresése, súlyok figyelembevételével… A módszerek kiértékelése? Nehézkes… szakértők felkérése a releváns mondatok kiválasztására, és a gépi választások értékelésére A szakértők között mindkét feladatban nagy az inkoherencia...