Információ kinyerés 2010. nov. 2.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó.

Slides:



Advertisements
Hasonló előadás
Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
Advertisements

Analitikus, statisztikai és szélsőérték fv-k Hári Veronika
A normalizálás az adatbázis-tervezés egyik módszere
Logók és logfájlok Az online közönségmérés kihívásai.
Közösségi média és a könyvtár Trendek Közösségi média és a könyvtárak Trendek
Integrált Elektronikus osztálynapló
Tanuló (projekt)szervezet a Magyar Nemzeti Bankban
Elektronikus kérelem benyújtás
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
Információ kezelés Az információ visszakeresésének lehetőségei.
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Szintaktikai elemzés február 23..
Dialógus rendszerek május 10.. Dialógus rendszerek Discourse, dialogue analysis Ember-gép interakció Tutoring Adatbázis keresések Információkinyerés.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Rangsorolás tanulása ápr. 24..
Információ kinyerés november 21.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
[ Internet marketing Logfile elemzés Készítették: Fejős András
TARTALOMJEGYZÉK LÉTREHOZÁSA
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
{ Közösségi spammelés felismerése és eliminálása Kivonat – Pletser József.
Aki keres, az talál? Igen, talál. Ki ezt, ki azt, de egy szót beütve a google keresőbe (pl.) mindig ugyanazt, hacsak nem kerültek fel új honlapok az adott.
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
XML támogatás adatbázis-kezelő rendszerekben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Statisztika, kutatásmódszertan I.
Matematikai ismeretek az alapiskolától az egyetemig Part Edit Selye János Egyetem Komárno, Szlovákia.
Budapest, június 28. Ontológia kezelő modul tervezése szöveges információt kezelő informatikai rendszer számára Förhécz András BME Méréstechnika.
Lekérdezések Páll Boglárka A lekérdezés az adatbázisban szereplő adatok kinyerésének leghatékonyabb és legsokrétübb módja A lekérdezés tulajdonképpen.
Szemantikus keresők.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Vida Andrea SZTE Egyetemi Könyvtár
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Az elektronikus levelezés a számítógép-hálózatok klasszikus szolgáltatása, az Internet alkalmazásának egyik legnépszerűbb formája. Szövegen kívül lehetőség.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Alapsokaság (populáció)
Support.ebsco.com Business Source keresés az EBSCOhost felületen Oktatóprogram.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Adatbázis kezelés. Az adatbázis tágabb értelemben egy olyan adathalmaz, amelynek elemei – egy meghatározott tulajdonságuk alapján – összetartozónak tekinthetők.
RDF sémák. RDF  URI-val azonosított erőforrások  Hármasok a kapcsolatrendszer leírására  Egyszerű lekérdezések (rdf:type)  Következtetésre nem alkalmas.
The-i Language Zone Francia nyelvtanfolyam kiegészítő oktatóanyaga – értékelés Rózsa Gábor 2004.
XML adatkezelés 1. témakör Az XML szabvány.
Webprogramozó tanfolyam
Adatbázis fejlesztés állapota Jelenlegi állapot: Elkészültek a legfontosabb kulcslisták, és a hozzájuk tartozó feltöltési módosítási nézetek.
Adatbázisok gyakorlat
Kulcsok meghatározása a táblákban
Adatbázis alapfogalmak
Webprogramozó tanfolyam
Városi Rendészeti Program. Mi a Városi Rendészeti Program célja?  Az Önkormányzat Közterület felügyeletének munkáját segítse azáltal, hogy egy közös.
Funkciós blokkok A funkciós blokkok áttekintése Az alkalmazás előnyei.
Keresés a weben Kulcsszavas keresés: Google (
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Prof. Dr. Neményi Miklós tudományos és külügyi rektorhelyettes A doktori és publikációs adatbázis kialakításának elvei és megvalósítása Nyugat-magyarországi.
Automatikus dokumentum- feldolgozó megoldások
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Chapter 2 Human Information Processing
Gráfadatbázisok Rácz Gábor.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Adatbázisszintű adatmodellek
Turisztikai informatikai alkalmazások BA Turizmus- vendéglátás – Gödöllő Összeállította: Pető István TARTALOMKEZELŐ RENDSZEREK.
Készítette: Kiss András
Természetes nyelvi interfészek
Navigáció az Interneten:
Előadás másolata:

Információ kinyerés nov. 2.

Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó szövegből strukturált információ A felhasználónak nem kell szöveget olvasni, azonnal a keresett információt látja gazdasági példa html, xls

IE vs IR Link az eredeti dokumentumra csak azért marad meg, hogy a felhasználó ellenőrizhesse a szövegkörnyezetet.

IE vs IR Nehezebb feladat (strukturálatlan input) A ma működő rendszerek csak rögzített típusú információt képesek kigyűjteni, domain függőek Lassabb, sokkal pontatlanabb Az eredmény sokkal gyorsabban feldolgozható az ember számára és gép által is kezelhető

IR vs. IE IE: A felhasználó a (releváns dokumentumokból) kivont tényeket elemzi/használja. Nehezebb feladat, nagyobb szakértői tudást igényel. Az IE-rendszerek általában doménfüggők. Legtöbbször csak rögzített típusú elemeket képesek kigyűjteni (a kérések jellege előre megadott). Lassabb, sokszor pontatlanabb a végeredmény. Jóval hatékonyabb, hiszen a feldolgozásban túlmutat az IR-en: a felhasználónak kevesebb ideig tart feldolgoznia a kimenetet. IR: A felhasználó a releváns dokumentumokat kapja vissza, a feldolgozásukat maga végzi el. Könnyebb feladat, kevesebb háttérismeret kell az elvégzéséhez. Általános eljárások léteznek a megoldására. Tetszőleges lekérdezést tud kezelni. Gyors, kevésbé pontatlan (a felhasználó elemzi a dokumentumokat). Kevésbé hatékony: a felhasználónak több időbe telik feldolgoznia a kimenetet.

IE alkalmazások Automatikus adatbázis és tudásbázis generálás (field search, range based queries) Előfeldolgozó modul Kivonatoló rendszerhez Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése [demo]demo Logfájlokból statisztikák gyűjtése

Alkalmazások Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) Citeseer.org Automatikus címlista gyűjtés e- mailekből (Carnegie Mellon University) ekből naptár bejegyzések generálása (Fair Isaac Corporation)

Információ típusok szereplőkszemélyek, szervezetek 90% tulajdonságoktípus, alias 80% relációkpozíció egy cégnél, rokoni kapcsolatok 60-70% eseményekterrorista támadás, cégvásárlás 50-60%

Keretek A kapcsolatok általában jól megfoghatók néhány fogalommal (célszavak) egy keretet a célszó és a hozzá kapcsolódó szerepek (role) azonosítanak egy relációt számos kerettel írunk le

FrameNet ~10ezer db keret A célszó lehet bármilyen szófajú (külnböző kerettípusok) szerepekre megkötések –milyen típusú a frázis (NP-n belül további 4 kat.) –reláció a célszóhoz (pl.:igénél alany) Az egyes keretek közti relációk is jelölve vannak –például általánosítás (csere – vásárlás)

Megközelítések Először célszavak detektálása majd az ahhoz köthető szerepek megtalálása Adott reláció lehetséges szerepeinek bejelölése majd az összetartozó szerepek összevonása egy egységbe –ez a megközelítés használatos ha csak kevés, nagyon általános keret áll rendelkezésre –Tanító adatbázisban sem definiált a célszó

Statisztikai módszerek Annotált korpusz (szerepek, célszavak) Nyelv és domain függő Nagy méretű korpusz szükséges Jellemzők: –lexikális jellemzők (lemma, POS kód) –szövegkörnyezet –függőségi relációk

Dependencia-út tanulás

Részben felügyelt tanulás Ötlet: jelöletlen dokumentumok (Web) felhasználásával keretek automatikus generálása Jelölt és jelöletlen adatból tanulás –Jelöletlen adat nagy mennyiségben –Mintázat kinyerhető –Nagyságrendekkel kevesebb jelölt adat szükséges

Részben felügyelt IE Speciális csoportba tartozó egyedek azonosítása Két egyed közti relációk –híres űrhajósok –városok és polgármestereik Web-en keres (Google query-k)

Egyedcsoportok input: keresett csoport néhány egyede (Google Sets)Google Sets 1.csoport megnevezések megtalálása TYPE such as NE TYPEs including NE legmegbízhatóbb TYPE-ok kiválasztása 2.egyed lista felbővítése ugyanazok a query sablonok, mint 1. lépésben

Relációk input: egyed párok halmaza Relációk automatikus tanulása –Keressünk a Web-en olyan mondatokat amelyekben az egyes egyed-párok előfordulnak –pozitív és negatív példák generálása –keretek generálása a pozitív példák általánosításából (közös mintázat - DP) –keretek értékelése a poz/neg példákon

Említés feloldás co-reference resolution/mention detection Magyar Nemzeti Bank - MNB Kovács János - Jani Az OTP Bank szóvivője közölte, hogy a cég… A HP és Compaq fúziója befejeződött. A cég… Péter itt járt tegnap, ő kereshetett telefonon is. Péterék hárman vannak testvérek. Mindegyikük szeme kék.

Említés feloldás Egyezés, toldalékolt alak Szinonímák Akronímok Hivatkozások (anafora/katafora) –Névmás –Főnévi csoportok

Említés feloldás ökölszabályok: –minden típusnak meg van az érvényességi köre NE: egész dokumentum, személyes névmás: előző mondat –néhány szintaktika jellemzőnek stimmelnie kell egyes/többes szám, gender

Statisztikai említés feloldás Mary helped John in writing the letter. She was kind. The letter has been sent. It was cheap, 50 cents only. Lehetséges jelöltek rangsorolása Jellemzők: –Távolság, szintaktikai távolság –Szemantikai távolság

Normalizálás dátum/idő kifejezések =07/04/09=ez év április hetedike pénznem (kerekítés?) mértékegységek nevek Richard, Farkas = Farkas Richárd University of Szeged = JATE

Duplikációk felismerése Duplikátumai nem csak egyedeknek, minden relációnak vannak! eszközei: –említések összerendelése –normalizáció célja: –duplikátumok eltávolítása –hiányzó mezők kitöltése

IE adatbázisok Message Understanding Conferences (MUC) –NE, keret illesztés, koreferencia Automatic Content Extraction (ACE) –attribútumok, relációk, események Text REtrieval Conference (TREC) –alkalmazás orientált –Blog, céges belső dokumentumok, genomikai szövegek