Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – április 11.
Bevezetés Névelem-felismerés – named entity recognition (NER) Tulajdonnevek és azonosítók kigyűjtése és osztályokba sorolása Névelem (NE) vs. tulajdonnév
Névelemek Azonosítók: – cím –Weboldal –Rendszám –Telefonszám –… Egyéb entitások –Vegyületek –Génnevek –…
Azonosítók felismerése Reguláris kifejezések (minták) segítségével Rendszám: 3 betű szám Telefonszám: 9 szám Viszonylag könnyű feladat a számítógépes alkalmazások számára is
Tulajdonnevek a nyelvészetben Nyelvészeti definíciók: –azonos fajú egyedek megkülönböztetése –egyedek azonosítása –merev jelölő, mely konstans módon ugyanazt az egyedet azonosítja Azonosító, ill. elkülönítő funkció Egyedítés
Problémák Típusjelölés A Fritzek lerohanták Lengyelországot. Köznevesülés Röntgen - röntgen Tulajdonnévvé válás A vizslát Fügének hívják. Metafora, metonímia Nem volt egy Adonisz. A Barcelona legyőzte a Manchestert.
Nyelvek közti eltérések Napok, hónapok, ünnepek: Monday, June, Christmas Nép- és nemzetiségnevek Hungarian, Spanish Rendszertani nevek Canis lupus Külön NE-kategóriák lehetnek Névelemek, de nem tulajdonnevek?
Formai jellemzők Nagybetűs kezdet (?) PDA, Ft, eBay, 4 Non Blondes Die Tränen greiser Kinderschar ich zieh sie auf ein weißes Haar werf in die Luft die nasse Kette und wünsch mir, dass ich eine Mutter hätte
Terjedelem Mettől meddig tart? névtartozékok Kovács néni Széchenyi tér Bükk hegység New York állam névelők A kőszívű ember fiai Los Angelesből az Offspring, Glasgowból a Snow Patrol, Düsseldorfból a Die Toten Hosen és a világ számos pontjáról további zenekarok jelezték a napokban, hogy elfogadják a Sziget szervezők meghívását.
Kategóriák Személynevek (PER) Helynevek (LOC) Szervezetnevek (ORG) Egyéb (MISC) Ez sokszor nem elégséges…
Kategóriák - 2 Feladatonként / szövegenként más- más osztályok Orvosi szövegek: beteg neve, páciens neve, kórház neve, város… Jogi szövegek: ügyvéd, bíró, vádlott… Hierarchikus osztályozás (fentiek a PER alá tartoznak)
Metonímia Elutazott Pekingbe. Peking után rögtön összeült a MOB. Peking hírzárlatot rendelt el. Peking kategóriája??? Tag-for-tag: állandó kategória Tag-for-meaning: szövegkörnyezettől függő kategória
SzegedNER korpusz 200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-listák letölthetőek:
Bűnügyi NE-korpusz 540 ezer szövegszó Bűnügyekről szóló újságcikkek Tag-for-tag és tag-for-meaning annotáció is 23 ezer tulajdonnév letölthető
Névelem-felismerés A felismerés viszonylag egyszerű jegyekkel megoldható feladat Nem fedhető le teljesen szótárak segítségével Az osztályozás nehezebb Korpuszok mint statisztikai tanító adatbázisok
Jellemzőkészlet Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentumon belüli pozíció Kifejezésszintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, pl. betegségek nevei Trigger szótárak keresztnevek, országok, városok…
Megközelítések Tokenalapú: minden szóról eldöntjük, hogy NE-e Szekvenciális (CRF): egy szekvenciához (mondathoz) egyszerre rendeljük hozzá a legvalószínűbb címkesorozatot
Eredmények a SzegedNER korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre F β=1 Szervezet95,84% Személy94,67% Hely95,07% Egyéb85,96% mindösszesen94,77%
Miért kell a NER? NE-k különleges bánásmódot igényelnek Egy egység (NP) a mondatban: José Manuel Barroso - ő George Bush – György Bokor ? Kovács János – János Kovács ENSZ – UN Beijing – Peking Anonimizálás: azonos típusúra lecserélni
Alkalmazási területek (Szeged NER) Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása Lényegében ugyanaz a modell működik: –angolra és magyarra –Két teljesen más feladatra (doménre)