Korpuszok, szegmentálás és szófaji elemzés

Slides:



Advertisements
Hasonló előadás
DEIK nyári ösztöndíj jelentés: a KőPapírMetalFC ”lájtosított” 2D RCSS csapat bemutatása Dóczi Roland Debreceni Egyetem Informatikai kar Mérnök informatikus.
Advertisements

A nyelvek eredete, nyelvtípusok
Ó- és középmagyar morfológiai elemző Novák Attila.
Szövegszerkesztési alapismeretek
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A Magyar Nemzeti Szövegtár
Képességszintek.
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Készítette: Cselényi Szandra Nóra
Készítette: Lakos Péter
Algoritmus és adatszerkezet Tavaszi félév Tóth Norbert1.
Sztringek.
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 14.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Szófajok rendszere.
Szöveg egységei, gépelés
A digitális számítás elmélete
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
A szövegszerkesztés alapjai
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
A szócikk.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Miből tanulnak a számítógépek magyar nyelvtant? Alexin Zoltán, PhD. Szegedi Tudományegyetem,
A Magyar Nemzeti Szövegtár
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
A szövegszerkesztés alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Szintaktikai, szemantikai szabályok
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Összeállította: Dóber Valéria
Nyelvtechnológia Ladányi Enikő
Egy szövegszerkesztő legegyszerűbb szolgáltatásai
Jelek, jelrendszerek.
IKTA-27/2000 Magyar nyelvi szófaji egyértelműsítő módszer fejlesztése gépi tanulási algoritmusok felhasználásával A projekt időtartama: szeptember.
I. Eltér-e az alany-állítmány viselkedése az alárendelő szintagmáktól? Három helyen azt mondhatjuk, igen, ez a régi elmélet mellett szól. (Oda-vissza kérdezhetőség,
Fontos szempontok a glosszárium (MultiTerm adatbázis) elkészítéséhez
Klasszikus héber nyelv 4.: Szintaxis
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
és a Venn-Euler diagrammok
A nyelvi jel és jelrendszer
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Dodekaéder Hamilton köre
Szóelemek, morfémák 10..
Az XML nyelv (Extensible Markup Language). XML  XML: leíró nyelv (metanyelv)  XML alkalmazás: egy megalkotott nyelv  XML dokumentum: egy új nyelv egy.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Webes tartalmakban alkalmazható szteganográfiai módszerek vizsgálata
A generatív nyelvelmélet
Varga Noémi Judit. Mi köze a szövegnek a matematikához?
Bevezetés a nyelvtudományba 3. Nyelvi szintek
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Leíró nyelvtan - adatbázisból
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Korpuszok, szegmentálás és szófaji elemzés 2010. szept. 14.

Korpusz Korpusz: Nagy méretű szöveges adatbázis Annotáció: A szövegek szintaktikai és/vagy szemantikai információval történő kézi jelölése (és kézi ellenőrzése) Például: egy e-mail SPAM/HAM a szöveg minden szava mellé jegyezzük fel annak szófaját

Annotáció formái Egy fájlban a nyers szöveg és a jelölés (leggyakrabban XML) Megettem egy <NE type=„étel”>Győri kekszet</NE> tegnap … Standalone jelölés: külön fájlba kerül (hivatkozás az eredeti fájlbeli pozícióra) type begin end étel 14 28 Melyiknek mi az előnye?

Korpusz Jellemzők: Természetes környezetben előforduló Probléma-specifikus Reprezentatív Mintavételezésre alkalmas Gépileg feldolgozható Tehát korpusz a teljesen nyers szövegből álló adatbázis is…

Korpusz célja 1. Referencia halmaz 2. Tanuló halmaz Tesztelés Összemérés 2. Tanuló halmaz lásd jövő héten „gépi tanulás”…

Korpusz típusok Jelölés szintje szerint: Egynyelvű korpuszok dokumentum minden szó bizonyos információk Egynyelvű korpuszok Párhuzamos korpusz Beszédkorpusz

Néhány külföldi korpusz Szöveg korpuszok British National Corpus (BNC), Wall Street Journal (WSJ), Reuters ~ 100 millió szövegszó, dokumentumok, bekezdések jelöltek + Gigaword ~ 2 milliárd szó Nyelvtani korpusz Penn TreeBank ~ 5 millió szó, szófajilag, teljes szintaxissal jelölt Feladatorientált korpuszok CoNLL, TREC, ACE, SEMEVAL ~ néhány százezer szó Párhuzamos korpuszok Hansard (angol-francia), UN (angol-spanyol-francia) mondatszinten párhuzamosított

Magyar korpuszok Szöveg korpusz: Szószablya ~600 millió szó Szeged TreeBank (TEI4) 1,2 millió szó, szófajilag és szintaktikailag jelölt részei: Szépirodalom, Fogalmazások, Újságcikkek, Számítástechnikai szövegek, Jogi szövegek Tulajdonnév korpusz: SzegedNE korpusz Párhuzamos korpuszok: Multi-East (angol-KKEu), Hunglish, SzegedParalell

Mondat szegmentálás Mondat vége jelek: . ! ? És ezek? „” - ; … És a szövegtagolások? <h1>Vérfürdő Sopronban</h1>Sopronban… Jóska (kiabálva): Ne tedd! Pista: ÁÁÁÁÁÁÁ

Mondat szegmentálás A „mondatvége jelek” állhatnak más szerepben is: Kovács és Társa kft. aláírta tegnap… A „mondatvége jel és utána nagy betű” ~97% Tagmondatok azonosítása… Aznap, amikor megláttam, őt, akit már évekkel azelőtt egyszer láttam, éppen azon gondolkodtam, hogy mi volt a kérdés akkor…

Például A Mersey-parti Vörösök a hazai vezetés után jobban odatették magukat, aminek eredményeként először Craig Bellamy a 38. percben - először még csak - az oldalhálóba fejelt, a játékrész lefújása előtt nem sokkal viszont már a gólvonal mögé tette a labdát: Steven Gerrard álompasszát a walesi csatár csukafejessel küldte kapura, de Victor Valdes kapus már csak bentről tudta kiemelte a labdát (Dirk Kuyt a biztonság kedvéért azért még a hálóba bombázott).

Szó szegmentálás Szó határok azonosítása mindig van space? egy szó-e? Párizs-Dakar rally kínai: Probléma-specifikus: UDP-N-acetylglucosamine-2-epimerase\/N-acetylmann Írásjelek eltávolítása … egy Győrit. -> Győrit … Társa kft. -> kft.

Például neeeeeeeeee mar sracok, hol a link??? leakarom tolteniiiiii :-/»

Nyílt tokenosztályok Nyílt osztály: nem sorolható fel 2007. február 22. kétezer-ötszáz kilóméter Felszíni jegyekkel könnyen kezelhető: telefonszám, dátum, e-mail cím, számok, mennyiségek stb. Szemantika szükséges: Tulajdonnevek (OTP Bank ZRt.)

Morfológia Morféma (wikipedia): „A morféma a nyelv legkisebb olyan egysége, amely önálló jelentést vagy strukturális szerepet hordoz; a szó legkisebb értelmezhető része.” Az agglutináló (ragozó) jelleg toldalékok halmozását is lehetővé teszi (a finnugor nyelvekhez, perzsa nyelvhez, baszk nyelvhez, az ókori sumérhez és a török nyelvhez hasonlóan). Szintén jellemző a többféle alakváltozat mind a szótövek, mind a toldalékok terén, a gazdag esetrendszer és az irányhármasság (honnan? hol? hová?) a helyhatározók használatában.

Morfológiai elemzés Szótő (lemma) meghatározás gyermekeimmel, nevess Szófaj azonosítása Ragok, képzők… egyes/többes szám, személy, múlt idő stb MSD kódolás

Morfológiai elemzés Ez az elemzés nem egyértelmű! fő - ige vagy főnév vagy melléknév? nevet - név főnév tárgyesetben vagy ige? játékos - melléknév, főnév vagy játék|os bolt? eszem – az én agyam vagy eszek? ismeretlen szavakon különösen izgalmas: Torgyán egy név vagy Torgy faluban?

Szófaji egyértelműsítés A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt. Part of Speech Tagger (POS) – szófaji egyérteműsítő Példa XML fájl

Szabály alapú rendszerek Szakértői szabályrendszer (manuális) HA … AKKOR … állapotautomata Szegmentálás, morfológiai elemzés általában szabály alapú

Magyar morfológiai elemző morphdb.hu nyelvi erőforrás

Ismeretlen szavak Szótárban nincsenek felsorolva guessing összetett szavak vámtarifaszám, luxusmárka, műszerfalat tulajdonnevek Torgyán, Szeged McDonald’s, Adidas

TBL POS tagger Transformation Based Learning (TBL) A POS taggelés problémájára első sikeres megoldást adó algoritmus (~95%) Adott egy transzformációs szabályhalmaz Tanítás: Minden szabályra megnézzük milyen javítást hoz egy korpuszon Elért javítás mértéke szerint sorrendbe rakjuk a szabályokat Predikció: A mondat alapértelmezett jelölése Szabályokat sorrendben végrehajtjuk

TBL POS tagger Szabályok például: Ha kettővel korábbi szó javasolt kódja X, a rákövetkező szó ‘is’ és a lehetséges kódok listájában szerepel Y akkor írjuk át az aktuális kódot Y-ra. A szabály jóságának vizsgálatakor figyeljük, hogy hány helyen javít és hány helyen ront!

AT várV egyM erődítményN. AT várN egyM erődítményN. AT várN egyT erődítményN.

Valószínűségi POS taggerek

POS tagger kiértékelés Az esetek hány százalékában találta el jól. Kódolás milyen mélységű? 1. Gold standard morfológiai kódok Mennyire jól tud választani? 2. Nyers szöveg Gépi morfológiai elemzés, nem 100%-os. Életszerűbb probléma.

Próbáld ki! http://www.inf.u-szeged.hu/rgai/magyarlanc