Tulajdonnév felismerés 2007. 10. 10.. Tulajdonnév felismerés Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai.

Slides:



Advertisements
Hasonló előadás
A szélsőjobboldal magyarországi megerősödése Reiner Roland Országos Tudományos Diákköri Konferencia Április 15.
Advertisements

 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
Az internet és a web A HTML alapjai.  „Úgy gondoljuk, hogy a világpiacon talán öt darab számítógépet tudnánk eladni.” (Thomas Watson, az IBM elnöke,
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A BNO10 formális formális reprezentálása a GALEN alapján
MATEMATIKA Év eleji felmérés 3. évfolyam
Szemiot i ka.
Levelező program beállítása webmail-hez
Tájékoztató az R programról pszichológusoknak. A programról Az R egy nyílt forrású statisztikai és grafikai környezet, egyben programozási nyelv, amelynek.
Az új történelem érettségiről és eredményeiről augusztus Kaposi József.
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
A tételek eljuttatása az iskolákba
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
Dialógus rendszerek május 10.. Dialógus rendszerek Discourse, dialogue analysis Ember-gép interakció Tutoring Adatbázis keresések Információkinyerés.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – április 11.
Rangsorolás tanulása ápr. 24..
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
C A C nyelv utasításai. Ismétlés Utasítások csoportosítása.
Kimeneti követelmények a 8. osztály végén
1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
Hyperuricaemia és hypertonia Hypertonia Központ Óbuda, Budapest
Merre tovább? Tapasztalatok a kétszintű latin nyelvi érettségiről.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Hány szó van a magyarban?
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Adatnyerés a)Térkép b)Helyi megfigyelések c)Digitális adatbázis d)Analóg táblázatok, jelentések e)Távérzékelés.
A évi demográfiai adatok értékelése
A évi demográfiai adatok értékelése
Logikai szita Pomothy Judit 9. B.
Logikai szita Izsó Tímea 9.B.
Szemantikus keresők.
LENDÜLETBEN AZ ORSZÁG A Magyar Köztársaság kormánya.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
GENERALI Alapkezelő Zrt. Az oroszlán erejével GENERALI Alapkezelő Zrt. Milyen új együttműködés szükséges a választható portfoliós rendszer bevezetése során.
Érettségi jelentkezések és érettségi eredmények 2007 Érettségi jelentkezések - érettségi eredmények.
Érettségi jelentkezések és érettségi eredmények 2008 Tanévnyitó értekezlet Érettségi jelentkezések - érettségi eredmények augusztus 29.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
RDF sémák. RDF  URI-val azonosított erőforrások  Hármasok a kapcsolatrendszer leírására  Egyszerű lekérdezések (rdf:type)  Következtetésre nem alkalmas.
Logikai programozás 9.. Programok: EGY KIS ISMERET-TÁGÍTÁS – struktura.pl – operatorok.pl, precedencia.pl – útvonaltervezés – send_more_money (smm1.pl,
World Wide Web Szabó Péter Számítástechnika-technika IV. évfolyam.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Kvantitatív módszerek
Véleménydetekció különböző szinteken Richard Farkas SZTE.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Könyv-és könyvtárhasználat 8. osztály. Könyvtári katalógusok Könyvtári katalógus Könyvtári katalógus 1. leíró betűrendes katalógus - szerző szerinti leíró.
A főnév Mgr. Jakubecz Erika.
Természetes nyelvi interfészek
Fülemüle informatika tehetségkutató verseny
Kovács Gergely Péter Az egyed-kapcsolat modell
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
A mesterséges neuronhálók alapjai
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Tulajdonnév felismerés

Tulajdonnév felismerés Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith …

Mi egy tulajdonnév? Magyar Helyesírási kézikönyv: tulajdonnév pl: Magyar Nemzeti Bank köznév pl: asztal, alma, bank ? File Transfer Protocol, Blootouth, BUX ? Botond étterem Nincs egzakt szabály ennek eldöntésre! named entity: „a szövegnek egy olyan eleme, amely a világ valamely entitására unikusan referál” is egy NE

Tulajdonnév a HLT-ben „Előre definiált osztályokba tartozó tokensorozatok felismerése és klasszifikálása”. Az osztályokat egy tanítóhalmaz manuális annotációjával „definiálják”. Például: helynevek, személynevek, szervezetek, címek Vannak olyan osztályok amik egyszerű szabályokkal (általában reguláris kifejezésekkel) leírhatóak, például címek

A klasszifikáció nehézségei (Felismerés viszonylag egyszerű feladat) Nyílt halmaz, nem fedhető le szótárakkal! Gyakran a szövegkörnyezet dönti el a jelentést pl.: Ford személy, repülőtér, vállalat vagy márkanév? Szintaktikai információkból kell szemantikai döntéseket meghozni.

Gépi tanulási megközelítések Mivel minden feladat más és más, egy szabály alapú rendszer előállítása igen költséges lenne. Milyen jellemzőkkel írhatóak le az osztályok? Két különböző megközelítés: – Token alapú klasszifikáció – Szekvencia jelölés

Jellemzőkészlet Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentum pozició Kifejezés-szintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, betegségek nevei Trigger szótárak keresztnevek, kórházformák, országok, városok

Token szintű osztályozás Az egyes tokeneket klasszifikáljuk. A környezetből nyerhető információkat egy ablakkal felvesszük a token jellemzői közé: pl: elöző szó kisbetűs-e Kérdés: megadhatjuk-e a környezet osztálycímkéit? Általában szükség van egy utófeldolgozó lépésre: Magyar ORG Nemzeti LOC Bank ORG Rt. ORG

Szekvenciális modellek Cél: egész szekvenciára (mondatra) egyszerre megmondani a legvalószínűbb jelölést. P(T|x) : tageloszlás a jellemzőtér felett x: {kisbetűs, gyakori, zárójelben van} T: {nem tulajdonnév, szervezet, helység} P(T t |T t-1 ) : átmenet-valószínűségek P(helység|szervezet)= Ezeket a tanuló adatbázis alapján becsüljük.

Szekvenciális modellek

Alkalmazási területek Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása Lényegében ugyanaz a modell működik: – angolra és magyarra – Két teljesen más feladatra (domainre)

Kiértékelési metrika Csak a tulajdonnév osztályokra számoljuk. Precízió: Amit C-nek jelölünk az hány esetben C Lefedettség: Az összes C-ből hányat találtunk meg. F β=1 a precízió és a lefedettség harmonikus közepe Frázis szintű metrika Token szintű Magyar ORG Nemzeti LOC Bank ORG Rt. ORG P_token ORG =3/3R_token ORG =3/4 P_frázis ORG =0/2R_frázis ORG =0/1

SzegedNE korpusz 200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger- listák letölthetőek (licensz) hamarosan: HUNNER

Eredmények a SzegedNE korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre F β=1 Szervezet95,84% Személy94,67% Hely95,07% Egyéb85,96% mindösszesen94,77%

CoNLL 2003 adatbázis A tulajdonnév-felismerés talán legfontosabb nemzetközi referencia adatbázisa ezer szövegszó Angol nyelvű újsághírek – gazdaság, sport, politika témában Személynév, Szervezet, Hely és Egyéb Ez szolgált mintául a SzegedNE korpuszhoz

Eredmények angol nyelvre e gyéni Szervezet84,53% Személy93,55% Hely92,90% Egyéb79,67% mindösszesen89,02% versenyen győztes 88,89% hibrid 88,32% 96,27% 93,43% 82,29% 91,41% 90,30%

Orvosi rekordok feldolgozása Motiváció: Hasznos információk tűnnek el a szövegben Szöveges adatbázisok megosztása szélesebb körben (kórházak) Adatok gyűjtése, statisztikák készítése Kutatómunka elősegítése A feladatok nagy része automatizálható Ehhez azonban a személyes információkat el kell távolítani, pontosabban le kell őket generált egyedekre cserélni!

Anonimizálás Cél: PHI-k azonosítása és osztályozása a zárójelentésekben – 8 különböző kategória (sok mindent lefed): PATIENT, DOCTOR, HOSPITAL, LOCATION, ID, PHONE, DATE, AGE (csak ha 90 év feletti) – Ezek pont a klasszikus named entity osztályok! Anonimizálás vs De-identifikáció

A felhasznált adatbázis I2B2 nemzetközi nyílt verseny 671 címkézett orvosi zárójelentés – (400 ezer token, tartalmaz strukturált részeket is) Kiértékelés 206 ismeretlen zárójelentésen Orvosi nyelvi feldolgozás „A/P: 64 yo M known CAD, s/p CABG and PCI in '03 presents w NSTEMI in settin of EKG changes s/p cardiac cath and ETT MIBI positive for diffuse disease w mild reversibility in PDA territory cw 100% lesion in SVG.” Anonimizált adatbázis

Kiértékelés (F β=1 ) TokenPhrase NON-PHI99.88 PATIENT DOCTOR HOSPITAL ID DATE PHONE LOCATION AGE100.0 overall

A rendszer adaptálása a három feladatra Szótárak (keresztnevek, cégformák stb.) cseréje angolra Orvosi szövegekhez mindössze a cégforma listát cseréltük le {hospital, clinics, memorial, …}-re A CoNLL és I2B2 adatbázisokon felhasználtuk a dokumentumok struktúrájában rejlő információkat (1-1 plusz jellemző)

A jellemzők jellemzői Próbáltunk POS és szintaktikai kódokat használni, de vagy elhanyagolható volt a jelentőségük vagy csak összekavarták a rendszert Nem használtunk semmilyen domain-specifikus szótárat (mint például MeSH kódok) Csak felszíni információk felhasználásával elérhető versenyképes eredmény!

A jellemzők hatása az anonimizálás feladatnál 1. Alap jellemzők: kezdőbetű, triggerek, előző tokenek címkéi 2. Ortográfiai jellemzők 3. Gyakorisági adatok 4. Struktúra információ 5. Reguláris kifejezések 6. Helység szótárak (országok, városok) 7. Mondat pozíció 8. Idézőjelek / Zárójelek között 9. Keresztnevek 10. Nem-NE listák