Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaKinga Papné Megváltozta több, mint 10 éve
1
Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 11.
2
Bevezetés Névelem-felismerés – named entity recognition (NER) Tulajdonnevek és azonosítók kigyűjtése és osztályokba sorolása Névelem (NE) vs. tulajdonnév
3
Névelemek Azonosítók: –E-mail cím –Weboldal –Rendszám –Telefonszám –… Egyéb entitások –Vegyületek –Génnevek –…
4
Azonosítók felismerése Reguláris kifejezések (minták) segítségével Rendszám: 3 betű + - + 3 szám Telefonszám: 9 szám Viszonylag könnyű feladat a számítógépes alkalmazások számára is
5
Tulajdonnevek a nyelvészetben Nyelvészeti definíciók: –azonos fajú egyedek megkülönböztetése –egyedek azonosítása –merev jelölő, mely konstans módon ugyanazt az egyedet azonosítja Azonosító, ill. elkülönítő funkció Egyedítés
6
Problémák Típusjelölés A Fritzek lerohanták Lengyelországot. Köznevesülés Röntgen - röntgen Tulajdonnévvé válás A vizslát Fügének hívják. Metafora, metonímia Nem volt egy Adonisz. A Barcelona legyőzte a Manchestert.
7
Nyelvek közti eltérések Napok, hónapok, ünnepek: Monday, June, Christmas Nép- és nemzetiségnevek Hungarian, Spanish Rendszertani nevek Canis lupus Külön NE-kategóriák lehetnek Névelemek, de nem tulajdonnevek?
8
Formai jellemzők Nagybetűs kezdet (?) PDA, Ft, eBay, 4 Non Blondes Die Tränen greiser Kinderschar ich zieh sie auf ein weißes Haar werf in die Luft die nasse Kette und wünsch mir, dass ich eine Mutter hätte
9
Terjedelem Mettől meddig tart? névtartozékok Kovács néni Széchenyi tér Bükk hegység New York állam névelők A kőszívű ember fiai Los Angelesből az Offspring, Glasgowból a Snow Patrol, Düsseldorfból a Die Toten Hosen és a világ számos pontjáról további zenekarok jelezték a napokban, hogy elfogadják a Sziget szervezők meghívását.
10
Kategóriák Személynevek (PER) Helynevek (LOC) Szervezetnevek (ORG) Egyéb (MISC) Ez sokszor nem elégséges…
11
Kategóriák - 2 Feladatonként / szövegenként más- más osztályok Orvosi szövegek: beteg neve, páciens neve, kórház neve, város… Jogi szövegek: ügyvéd, bíró, vádlott… Hierarchikus osztályozás (fentiek a PER alá tartoznak)
12
Metonímia Elutazott Pekingbe. Peking után rögtön összeült a MOB. Peking hírzárlatot rendelt el. Peking kategóriája??? Tag-for-tag: állandó kategória Tag-for-meaning: szövegkörnyezettől függő kategória
13
SzegedNER korpusz 200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-listák letölthetőek: http://www.inf.u-szeged.hu/rgai/corpus_ne
14
Bűnügyi NE-korpusz 540 ezer szövegszó Bűnügyekről szóló újságcikkek Tag-for-tag és tag-for-meaning annotáció is 23 ezer tulajdonnév letölthető
15
Névelem-felismerés A felismerés viszonylag egyszerű jegyekkel megoldható feladat Nem fedhető le teljesen szótárak segítségével Az osztályozás nehezebb Korpuszok mint statisztikai tanító adatbázisok
16
Jellemzőkészlet Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentumon belüli pozíció Kifejezésszintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, pl. betegségek nevei Trigger szótárak keresztnevek, országok, városok…
17
Megközelítések Tokenalapú: minden szóról eldöntjük, hogy NE-e Szekvenciális (CRF): egy szekvenciához (mondathoz) egyszerre rendeljük hozzá a legvalószínűbb címkesorozatot
18
Eredmények a SzegedNER korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre F β=1 Szervezet95,84% Személy94,67% Hely95,07% Egyéb85,96% mindösszesen94,77%
19
Miért kell a NER? NE-k különleges bánásmódot igényelnek Egy egység (NP) a mondatban: José Manuel Barroso - ő George Bush – György Bokor ? Kovács János – János Kovács ENSZ – UN Beijing – Peking Anonimizálás: azonos típusúra lecserélni
20
Alkalmazási területek (Szeged NER) Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása Lényegében ugyanaz a modell működik: –angolra és magyarra –Két teljesen más feladatra (doménre)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.