Információ kinyerés 2007. november 21.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése.

Slides:



Advertisements
Hasonló előadás
Ó- és középmagyar morfológiai elemző Novák Attila.
Advertisements

Programozási tételek, és „négyzetes” rendezések
ADATBÁZISOK.
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
A normalizálás az adatbázis-tervezés egyik módszere
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
Tengeralattjáró győzelmi hírek elmaradása – kilövés
Képességszintek.
Az Office 2007 tanári szemmel Farkas Csaba. Az Access 2007 újdonságai.
Készítette: Cselényi Szandra Nóra
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
Hatékony gyorsítótár használata legrövidebb utak kereséséhez Bodnár István, Fodor Krisztián, Gyimesi Gábor Jeppe Rishede Thomsen, Man Lung Yiu, Christian.
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Információ kinyerés nov. 2.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó.
Szintaktikai elemzés február 23..
Dialógus rendszerek május 10.. Dialógus rendszerek Discourse, dialogue analysis Ember-gép interakció Tutoring Adatbázis keresések Információkinyerés.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Szöveg- és Webbányászat
Rangsorolás tanulása ápr. 24..
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
[ Internet marketing Logfile elemzés Készítették: Fejős András
{ Közösségi spammelés felismerése és eliminálása Kivonat – Pletser József.
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
XML támogatás adatbázis-kezelő rendszerekben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Statisztika, kutatásmódszertan I.
Adatbázisrendszerek jövője
Budapest, június 28. Ontológia kezelő modul tervezése szöveges információt kezelő informatikai rendszer számára Förhécz András BME Méréstechnika.
Szemantikus keresők.
JEREMIE Programok módosulásai
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Önálló labor munka Csillag Kristóf 2004/2005. tavaszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Vida Andrea SZTE Egyetemi Könyvtár
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Az elektronikus levelezés a számítógép-hálózatok klasszikus szolgáltatása, az Internet alkalmazásának egyik legnépszerűbb formája. Szövegen kívül lehetőség.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
RDF sémák. RDF  URI-val azonosított erőforrások  Hármasok a kapcsolatrendszer leírására  Egyszerű lekérdezések (rdf:type)  Következtetésre nem alkalmas.
XML adatkezelés 1. témakör Az XML szabvány.
Adatbázis fejlesztés állapota Jelenlegi állapot: Elkészültek a legfontosabb kulcslisták, és a hozzájuk tartozó feltöltési módosítási nézetek.
XML Mi az XML?  Extensible Markup Language  Kiterjeszthető jelölő nyelv  Adatok, adatstruktúrák leírására szolgál  A HTML és az SGML tapasztalataira.
Kulcsok meghatározása a táblákban
Adatbázis alapfogalmak
Keresés a weben Kulcsszavas keresés: Google (
Adatbányászati módszerek a weblogfájlok elemzésében
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Prof. Dr. Neményi Miklós tudományos és külügyi rektorhelyettes A doktori és publikációs adatbázis kialakításának elvei és megvalósítása Nyugat-magyarországi.
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Pályázatok értékelésének tapasztalatai Hoffmann Miklós független szakértő.
PÁRHUZAMOS ARCHITEKTÚRÁK – 13 INFORMÁCIÓFELDOLGOZÓ HÁLÓZATOK TUDÁS ALAPÚ MODELLEZÉSE Németh Gábor.
Gráfadatbázisok Rácz Gábor.
Adatbázisszintű adatmodellek
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
SQL aggregálás, csoportosítás és összekapcsolás Adatbázisok 1.
Mesterséges intelligencia Áttekintés. Mesterséges intelligencia (MI) Artificial Intelligence (AI) Filozófia Matematika Pszichológia Nyelvészet Informatika.
Természetes nyelvi interfészek
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Információ kinyerés november 21.

Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó szövegből strukturált információ A felhasználónak nem kell szöveget olvasni, azonnal a keresett információt látja gazdasági példa html, xls BioNLP példa

IE vs IR Link az eredeti dokumentumra csak azért marad meg, hogy a felhasználó ellenőrizhesse a szövegkörnyezetet.

IE vs IR Nehezebb feladat (strukturálatlan input) A ma működő rendszerek csak rögzített típusú információt képesek kigyűjteni, domain függőek Lassabb, sokkal pontatlanabb Az eredmény sokkal gyorsabban feldolgozható az ember számára és gép által is kezelhető

IR vs. IE IE: A felhasználó a (releváns dokumentumokból) kivont tényeket elemzi/használja. Nehezebb feladat, nagyobb szakértői tudást igényel. Az IE-rendszerek általában doménfüggők. Legtöbbször csak rögzített típusú elemeket képesek kigyűjteni (a kérések jellege előre megadott). Lassabb, sokszor pontatlanabb a végeredmény. Jóval hatékonyabb, hiszen a feldolgozásban túlmutat az IR-en: a felhasználónak kevesebb ideig tart feldolgoznia a kimenetet. IR: A felhasználó a releváns dokumentumokat kapja vissza, a feldolgozásukat maga végzi el. Könnyebb feladat, kevesebb háttérismeret kell az elvégzéséhez. Általános eljárások léteznek a megoldására. Tetszőleges lekérdezést tud kezelni. Gyors, kevésbé pontatlan (a felhasználó elemzi a dokumentumokat). Kevésbé hatékony: a felhasználónak több időbe telik feldolgoznia a kimenetet.

IE alkalmazások Automatikus adatbázis és tudásbázis generálás (field search, range based queries) Előfeldolgozó modul Kivonatoló és IR rendszerekhez Logfájlokból statisztikák gyűjtése Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése

Gondolatébresztő alkalmazások Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) Citeseer.org Automatikus címlista gyűjtés ekből (Carnegie Mellon University) ekből naptár bejegyzések generálása (Fair Isaac Corporation)

Információ típusok szereplőkszemélyek, szervezetek 90% tulajdonságoktípus, alias 80% relációkpozíció egy cégnél, rokoni kapcsolatok 60-70% eseményekterrorista támadás, cégvásárlás 50-60%

IE adatbázisok Message Understanding Conferences (MUC) – NE, keret illesztés, koreferencia Automatic Content Extraction (ACE) – attribútumok, relációk, események Text REtrieval Conference (TREC) – alkalmazás orientált – Blog, céges belső dokumentumok, genomikai szövegek

Hasznos input információk tokenizálás morfológiai elemzés szintaktikai elemzés, dependenciák jelentés egyértelműsítés téma detektáció szignifikáns dokumentumok azonosítása (IR)

Keretek középpontban a célszó (egy célszó több keretben is szerepelhet) egy keretet a célszó és a hozzá kapcsolodó szerepek (role) azonosítanak egy relációt számos kerettel írunk le

Keretek a reláció szereplőire megkötések: – nyelvtani (pl. POS code, eset) – szemantikai – függőség a célszótól – szereplése kötelező-e

FrameNet ~10ezer db keret A célszó lehet bármilyen szófajú (külnböző kerettípusok) szerepekre megkötések – milyen típusú a frázis (NP-n belül további 4 kat.) – reláció a célszóhoz (pl.:igénél alany) Az egyes keretek közti relációk is jelölve vannak – például általánosítás (csere – vásárlás)

Függőségi fa A keretleírás egy kiterjesztése – a szereplőknek is lehetnek további függőségei

Megközelítések Először célszavak detektálása majd az ahhoz köthető szerepek megtalálása Adott reláció lehetséges szerepeinek bejelölése majd az összetartozó szerepek összevonása egy egységbe – ez a megközelítés használatos ha csak kevés, nagyon általános keret áll rendelkezésre – feltételezi, hogy a lehetséges szerepek jellemzői definiáltak

Szabály alapú IE szabályok (általában keretek) írnak le egy- egy relációt nyelvész és domain szakértő is szükséges Jól definiált kerethalmaz illesztése viszonylag egyszerű feladat Ez a legjobb megoldás ha ismert a struktúra (wrapper)

Statisztikai módszerek Annotált korpusz (szerepek, célszavak) Általában nyelv függetlenek Nagy méretű korpusz szükséges Az annotálás nagyon költséges (kevesebb szakértői munkát igényel, mint a keretek összeállítása) Jellemzők: – lexikális jellemzők (lemma, POS kód) – szövegkörnyezet – függőségi relációk – kapcsolat más keretekkel/szerepek közti kapcsolatok

Említés feloldás co-reference resolution/mention detection (ACE) Magyar Nemzeti Bank - MNB Kovács János - Jani Az OTP Bank szóvivője közölte, hogy a cég… A HP és Compaq fúziója befejeződött. A cég… Péter itt járt tegnap, ő kereshetett telefonon is. Péterék hárman vannak testvérek. Mindegyikük szeme kék.

Említés feloldás ökölszabályok: – minden típusnak meg van az érvényességi köre NE:egész dokumentum, személyes névmás: előző mondat – néhány szintaktika jellemzőnek stimmelnie kell egyes/többes szám, gender Vannak statisztikai modellek is rá

Normalizálás dátum/idő kifejezések =12/04/07=ez év április hetedike pénznem (kerekítés?) mértékegységek nevek Richard, Farkas = Farkas Richárd

Duplikációk felismerése eszközei: – említések összerendelése – normalizáció célja: – duplikátumok eltávolítása – hiányzó mezők kitöltése Duplikátumai nem csak egyedeknek, minden relációnak vannak!

Új irányzatok Jelenlegi rendszerek (keretillesztés, statisztikai modell) legnagyobb problémája, hogy nagyon költséges a domain adaptáció. Cél domain független, teljesen automatikus rendszerek kidolgozása Eszköz: jelöletlen dokumentumokból (Web) keretek automatikus generálása

KnowItAll University of Washington, 2005 csak egyedek azonosításával és két egyed közti relációval foglalkozik – híres űrhajósok – városok és polgármestereik Web-en keres (Google query-k) Self-Supervised Relation Extraction System

KnowItAll - egyedek input: keresett csoport néhány egyede (hasonló: Google Sets) 1. csoport megnevezések megtalálása SN such as INP SNs including INP legmegbízhatóbb SN-ek kiválasztása 2. egyed lista felbővítése ugyanazok a query sablonok, mint 1. lépésben + constraintek (lexikális)

KnowItAll – relációk input: egyed párok halmaza Relációk automatikus tanulása – Keressünk a Web-en olyan mondatokat amelyekben az egyes egyed-párok előfordulnak – pozitív és negatív példák generálása – keretek generálása a poziív példák általánosításából (közös mintázat - DP) – keretek értékelése a poz/neg példákon

On-demand IE New York University, 2006 Általános (tetszőleges) keretek automatikus tanulását célozza meg Dokumentumok halmazában keres (de kiterjeszthető WWWre) inputja: egyetlen kulcsszó (query)

On-demand IE

Pattern: sub-tree, ahol igei kifejezések és tágan értelmezett névelemek (named entity) vannak Patternek szűrése TF-IDF séma szerint Paraphrase: azonos szemantikájú patternek halmaza – ugyanazon NEk közti relációk valószínűleg ugyanazt jelentik – másik lehetséges út: WordNet