Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 11.

Hasonló előadás


Az előadások a következő témára: "Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 11."— Előadás másolata:

1 Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – április 11.

2 Bevezetés Névelem-felismerés – named entity recognition (NER) Tulajdonnevek és azonosítók kigyűjtése és osztályokba sorolása Névelem (NE) vs. tulajdonnév

3 Névelemek Azonosítók: – cím –Weboldal –Rendszám –Telefonszám –… Egyéb entitások –Vegyületek –Génnevek –…

4 Azonosítók felismerése Reguláris kifejezések (minták) segítségével Rendszám: 3 betű szám Telefonszám: 9 szám Viszonylag könnyű feladat a számítógépes alkalmazások számára is

5 Tulajdonnevek a nyelvészetben Nyelvészeti definíciók: –azonos fajú egyedek megkülönböztetése –egyedek azonosítása –merev jelölő, mely konstans módon ugyanazt az egyedet azonosítja Azonosító, ill. elkülönítő funkció Egyedítés

6 Problémák Típusjelölés A Fritzek lerohanták Lengyelországot. Köznevesülés Röntgen - röntgen Tulajdonnévvé válás A vizslát Fügének hívják. Metafora, metonímia Nem volt egy Adonisz. A Barcelona legyőzte a Manchestert.

7 Nyelvek közti eltérések Napok, hónapok, ünnepek: Monday, June, Christmas Nép- és nemzetiségnevek Hungarian, Spanish Rendszertani nevek Canis lupus Külön NE-kategóriák lehetnek Névelemek, de nem tulajdonnevek?

8 Formai jellemzők Nagybetűs kezdet (?) PDA, Ft, eBay, 4 Non Blondes Die Tränen greiser Kinderschar ich zieh sie auf ein weißes Haar werf in die Luft die nasse Kette und wünsch mir, dass ich eine Mutter hätte

9 Terjedelem Mettől meddig tart? névtartozékok Kovács néni Széchenyi tér Bükk hegység New York állam névelők A kőszívű ember fiai Los Angelesből az Offspring, Glasgowból a Snow Patrol, Düsseldorfból a Die Toten Hosen és a világ számos pontjáról további zenekarok jelezték a napokban, hogy elfogadják a Sziget szervezők meghívását.

10 Kategóriák Személynevek (PER) Helynevek (LOC) Szervezetnevek (ORG) Egyéb (MISC) Ez sokszor nem elégséges…

11 Kategóriák - 2 Feladatonként / szövegenként más- más osztályok Orvosi szövegek: beteg neve, páciens neve, kórház neve, város… Jogi szövegek: ügyvéd, bíró, vádlott… Hierarchikus osztályozás (fentiek a PER alá tartoznak)

12 Metonímia Elutazott Pekingbe. Peking után rögtön összeült a MOB. Peking hírzárlatot rendelt el. Peking kategóriája??? Tag-for-tag: állandó kategória Tag-for-meaning: szövegkörnyezettől függő kategória

13 SzegedNER korpusz 200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-listák letölthetőek:

14 Bűnügyi NE-korpusz 540 ezer szövegszó Bűnügyekről szóló újságcikkek Tag-for-tag és tag-for-meaning annotáció is 23 ezer tulajdonnév letölthető

15 Névelem-felismerés A felismerés viszonylag egyszerű jegyekkel megoldható feladat Nem fedhető le teljesen szótárak segítségével Az osztályozás nehezebb Korpuszok mint statisztikai tanító adatbázisok

16 Jellemzőkészlet Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentumon belüli pozíció Kifejezésszintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, pl. betegségek nevei Trigger szótárak keresztnevek, országok, városok…

17 Megközelítések Tokenalapú: minden szóról eldöntjük, hogy NE-e Szekvenciális (CRF): egy szekvenciához (mondathoz) egyszerre rendeljük hozzá a legvalószínűbb címkesorozatot

18 Eredmények a SzegedNER korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre F β=1 Szervezet95,84% Személy94,67% Hely95,07% Egyéb85,96% mindösszesen94,77%

19 Miért kell a NER? NE-k különleges bánásmódot igényelnek Egy egység (NP) a mondatban: José Manuel Barroso - ő George Bush – György Bokor ? Kovács János – János Kovács ENSZ – UN Beijing – Peking Anonimizálás: azonos típusúra lecserélni

20 Alkalmazási területek (Szeged NER) Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása Lényegében ugyanaz a modell működik: –angolra és magyarra –Két teljesen más feladatra (doménre)


Letölteni ppt "Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 11."

Hasonló előadás


Google Hirdetések