Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 11.

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
Zoological Record adatbázis bemutatása A Web of Knowledge platformon Tóth Szász Enikő
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
Internet ismeretek II..
INTERNET.
Adatbázis rendszerek I Relációs kalkulus Általános Informatikai Tsz. Dr. Kovács László.
A BNO10 formális formális reprezentálása a GALEN alapján
Tömbök C#-ban.
Online Katalógus aleph.nyf.hu.
2010/2011.Huszár István1. dia Weboldalak tervezése II. (X)HTML.
Az egyed-kapcsolat modell
Non-profit szervezetek bevételi szerkezetének elemzése.
Kétértékűség és kontextusfüggőség Kijelentéseink igazak vagy hamisak (mindig az egyik és csak az egyik) Kijelentés: kijelentő mondat (tartalma), amivel.
Bevezetés a Java programozásba
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
Adatmodellezés: E-K modell
A mentális betegségek osztályozása,
Miskolci Egyetemi Publikációs Adatbázis Egy új szolgáltatás születése és bevezetésének problémai Kiss Andrea, Miskolci Egytem,
A multilaterális diplomácia sajátosságai
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
SQL, Relációs adatmodell
Objektumok. Az objektum információt tárol, és kérésre feladatokat hajt végre. Az objektum adatok (attribútumok) és metódusok (operációk,műveletek) összessége,
Tulajdonnév felismerés Tulajdonnév felismerés Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Hány szó van a magyarban?
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Statisztika.
Adatszerkezetek 1. előadás
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Alapismeretek Számítógépes adatábrázolás
Weboldalak tervezése (X)HTML.
Vizuális nevelés tantárgypedagógia
Banyár József: Életbiztosítás 5.
Atomi mondatok FOL-ban Atomi mondat általában: amiben egy vagy több dolgot megnevezünk, és ezekről állítunk valamit. Pl: „Jóska átadta a pikk dámát Pistának”
Adatbázis kezelés. Az adatbázis tágabb értelemben egy olyan adathalmaz, amelynek elemei – egy meghatározott tulajdonságuk alapján – összetartozónak tekinthetők.
Adatbázis-kezelés.
Érettségi esszék középszinten
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Adatbázis alapfogalmak
Készítette: Pandur Dániel
Henkin-Hintikka-játék szabályai, kvantoros formulákra, még egyszer: Aki ‘  xA(x)’ igazságára fogad, annak kell mutatnia egy objektumot, amire az ‘A(x)’
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 21.
C Programozási alapok.
DNS. Az interneten használt osztott név adatbázis, a DNS (Domain Name Service) folyton használatos: –minden web lap letöltésnél, –levél közvetítésnél.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Bevezetés az informatikába 11. előadás Internet. Egyetlen nagy egységes elveken működő világhálózat hálózatok összekapcsolása nagy világhálóvá csomagkapcsolt.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Adatbázisszintű adatmodellek
Webszerkesztés. IP cím pl: Domain cím - DNS pl: ország nevehttp:// számítógép címe World Wide Web Webszerverre.
Számítógépes bűnözés.
A házi feladatokhoz: 1.5: Azonosság Jelölések a feladatszám alatt:
Atomi mondatok Nevek Predikátum
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Magyar Orvosi Bibliográfia (MOB) és Magyar Tudományos Művek Tára (MTMT) Áncsán Gizella Központi Könyvtár, 2014.
A évi kompetenciamérés FIT-jelentéseinek új elemei
Adatbázis-kezelés 2. Relációs adatbázisok.
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Absztrakt problémák Q  I  S, az absztrakt probléma kétváltozós reláció az esetek (I) és a megoldások (S) halmazán Példa: legrövidebb út Eset: gráf és.
Előadás másolata:

Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – április 11.

Bevezetés Névelem-felismerés – named entity recognition (NER) Tulajdonnevek és azonosítók kigyűjtése és osztályokba sorolása Névelem (NE) vs. tulajdonnév

Névelemek Azonosítók: – cím –Weboldal –Rendszám –Telefonszám –… Egyéb entitások –Vegyületek –Génnevek –…

Azonosítók felismerése Reguláris kifejezések (minták) segítségével Rendszám: 3 betű szám Telefonszám: 9 szám Viszonylag könnyű feladat a számítógépes alkalmazások számára is

Tulajdonnevek a nyelvészetben Nyelvészeti definíciók: –azonos fajú egyedek megkülönböztetése –egyedek azonosítása –merev jelölő, mely konstans módon ugyanazt az egyedet azonosítja Azonosító, ill. elkülönítő funkció Egyedítés

Problémák Típusjelölés A Fritzek lerohanták Lengyelországot. Köznevesülés Röntgen - röntgen Tulajdonnévvé válás A vizslát Fügének hívják. Metafora, metonímia Nem volt egy Adonisz. A Barcelona legyőzte a Manchestert.

Nyelvek közti eltérések Napok, hónapok, ünnepek: Monday, June, Christmas Nép- és nemzetiségnevek Hungarian, Spanish Rendszertani nevek Canis lupus Külön NE-kategóriák lehetnek Névelemek, de nem tulajdonnevek?

Formai jellemzők Nagybetűs kezdet (?) PDA, Ft, eBay, 4 Non Blondes Die Tränen greiser Kinderschar ich zieh sie auf ein weißes Haar werf in die Luft die nasse Kette und wünsch mir, dass ich eine Mutter hätte

Terjedelem Mettől meddig tart? névtartozékok Kovács néni Széchenyi tér Bükk hegység New York állam névelők A kőszívű ember fiai Los Angelesből az Offspring, Glasgowból a Snow Patrol, Düsseldorfból a Die Toten Hosen és a világ számos pontjáról további zenekarok jelezték a napokban, hogy elfogadják a Sziget szervezők meghívását.

Kategóriák Személynevek (PER) Helynevek (LOC) Szervezetnevek (ORG) Egyéb (MISC) Ez sokszor nem elégséges…

Kategóriák - 2 Feladatonként / szövegenként más- más osztályok Orvosi szövegek: beteg neve, páciens neve, kórház neve, város… Jogi szövegek: ügyvéd, bíró, vádlott… Hierarchikus osztályozás (fentiek a PER alá tartoznak)

Metonímia Elutazott Pekingbe. Peking után rögtön összeült a MOB. Peking hírzárlatot rendelt el. Peking kategóriája??? Tag-for-tag: állandó kategória Tag-for-meaning: szövegkörnyezettől függő kategória

SzegedNER korpusz 200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-listák letölthetőek:

Bűnügyi NE-korpusz 540 ezer szövegszó Bűnügyekről szóló újságcikkek Tag-for-tag és tag-for-meaning annotáció is 23 ezer tulajdonnév letölthető

Névelem-felismerés A felismerés viszonylag egyszerű jegyekkel megoldható feladat Nem fedhető le teljesen szótárak segítségével Az osztályozás nehezebb Korpuszok mint statisztikai tanító adatbázisok

Jellemzőkészlet Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentumon belüli pozíció Kifejezésszintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, pl. betegségek nevei Trigger szótárak keresztnevek, országok, városok…

Megközelítések Tokenalapú: minden szóról eldöntjük, hogy NE-e Szekvenciális (CRF): egy szekvenciához (mondathoz) egyszerre rendeljük hozzá a legvalószínűbb címkesorozatot

Eredmények a SzegedNER korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre F β=1 Szervezet95,84% Személy94,67% Hely95,07% Egyéb85,96% mindösszesen94,77%

Miért kell a NER? NE-k különleges bánásmódot igényelnek Egy egység (NP) a mondatban: José Manuel Barroso - ő George Bush – György Bokor ? Kovács János – János Kovács ENSZ – UN Beijing – Peking Anonimizálás: azonos típusúra lecserélni

Alkalmazási területek (Szeged NER) Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása Lényegében ugyanaz a modell működik: –angolra és magyarra –Két teljesen más feladatra (doménre)