A számítógépes nyelvfeldolgozás alapjai

Slides:



Advertisements
Hasonló előadás
Igeragozás.
Advertisements

SZTE Klebelsberg Könyvtár
A fosztóképző körüli bonyodalmak
Keresés a számítógépes katalógusokban
Ó- és középmagyar morfológiai elemző Novák Attila.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
A normalizálás az adatbázis-tervezés egyik módszere
A mondat szintagmatikus szerkezete
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A BNO10 formális formális reprezentálása a GALEN alapján
A Magyar Nemzeti Szövegtár
Képességszintek.
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Sztringek.
Korpuszok, szegmentálás és szófaji elemzés
Bayes hálók október 20. Farkas Richárd
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Uralisztika Az areális szempont.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
MEMM (Maximum Entrópia Markov Modell). A label-bias probléma Tanító adatbázis gold standard címkéin tanulunk, kiértékelni a generálton. Túl tökéletes,
A BSC tantervek várható struktúrája szakok, képzések a hallgatóknál – ETR3 A hallgató jelentkezik a felvételi tájékoztatóban meghirdetett szakra, és felveszik.
Szófajok rendszere.
Műszaki tudományok az interneten
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
A tárgyas szószerkezet
Készítette: Kiss Vilmos 7/A. osztály
A szófajok.
A nyelv problémája természetes, és mesterséges nyelvek.
A szócikk.
A jelentés.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Miből tanulnak a számítógépek magyar nyelvtant? Alexin Zoltán, PhD. Szegedi Tudományegyetem,
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
A Magyar Nemzeti Szövegtár
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Összeállította: Dóber Valéria
Logika 2. Klasszikus logika Miskolci Egyetem Állam- és Jogtudományi Kar Jogelméleti és Jogszociológiai Tanszék február 17.
Nyelvtechnológia Ladányi Enikő
Uralisztika Az alapnyelvi szófajok. A szófaji kategorizálás morfológiai alapon szintaktikai alapon szemantikai alapon Komplex módon kell vizsgálni!
R statisztikai program
IKTA-27/2000 Magyar nyelvi szófaji egyértelműsítő módszer fejlesztése gépi tanulási algoritmusok felhasználásával A projekt időtartama: szeptember.
A német főnév és a névelői
Szoftverfejlesztés az Informatikus Szakigazgatási Agrármérnök szakon Bakó Mária Várallyai László DE, Gazdaságtudományi Kar.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Az internetes keresési módszerek
Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 21.
2014/15 I.félév Sárközi-Lindner Zsófia.  cél: a szótáron belül (lexémák) m ű köd ő szabályok leírása  fonológiai és morfológiai szabályok ’együttm ű.
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
A generatív nyelvelmélet
Bevezetés a nyelvtudományba 3. Nyelvi szintek
Leíró nyelvtan - adatbázisból
Elektronikus számlázás Kiút a paradicsomból
Bevezetés a nyelvészetbe 3. Alaktan
Többértékű függőségek
A morfémaszerkezet felépítése és elemzése
Előadás másolata:

A számítógépes nyelvfeldolgozás alapjai Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4.

Bevezető Szöveg szavakra bontása megtörtént Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés

Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol Szótári alapalakok Lehetséges szóalakok száma Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) Eltárolható-e minden szóalak?

Morfológiai elemző Lexikon: szótövek és toldalékok Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban

szolgáltatások – szolgáltatás – szolgáltat – szolga Lemmatizálás Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga

Ismeretlen szavak elemzése A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? Ha igen, levágjuk, és a maradékot kezeljük szótőként Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)

Példa: vuvuzeláztál vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét)

Kötőjelet tartalmazó szóalakok Hasonló az összetett szavakhoz A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését A kötőjel után egész szó következik (labdarúgó-világbajnokság) A kötőjel után toldalék következik (GPS-nek)

Problémák és megoldások GPS-szel Igei elemzés? Megszorítások: a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni VERB+NOUN: gyakorolok - *gyakorol+ok PREVERB+NOUN: ellen - *el+len VERB + ADV: Róma - *ró+ma

NE-k elemzése „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n

szemantika – szem+Antika Tulajdonnévlisták Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas Ha túl nagy, túlgenerálás: szemantika – szem+Antika

Tulajdonnevekhez kötőjellel kapcsolt elemek ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév

Morfológiai kódrendszerek Morfológiai elemzés alapja Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y

Kódrendszerek Nyelvfüggetlen (?) Nyelvfüggő Előnyök és hátrányok: nemzetközi összehasonlíthatóság nyelv sajátosságainak figyelembe vétele komplexitás Eltérő mélységű és minőségű információk – példák?

Magyar kódrendszerek HUMOR MSD KR MNSZ-ben Van rá elemző Szeged Korpuszban KR Nincs rá adatbázis Elemző van rá (min mérjük??? – MSD-KR harmonizáció)

HUMor High-speed unification morphology Unifikációs nyelvleíráson alapul Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?)

MSD Morphosyntactic Description Nemzetközi kódrendszer: angol román szlovén cseh bolgár észt magyar

MSD - 2 Pozicionális kódok Adott pozíció adott információtípust kódol 0. pozíció: szófaj 1. pozíció: szófajon belüli (al)típus További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) Ami nem releváns a magyarban, nem írjuk ki (-)

KR Magyarra lett kitalálva Jegy-érték struktúrákban kódolja az információt Vannak default jegyek (E/3., egyes szám stb.) Képzések és összetételek kezelése

KR-MSD harmonizáció Szeged-Pest együttműködésben KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése MSD-ből: névmások elkülönítése, határozószók fokozhatósága Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban…

Magyar morfológiai elemzők HuMOR HuMOR-kódokra épül Nem szabad hozzáférésű Hunmorph KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) Nyílt forráskódú, ingyenes http://mokk.bme.hu/resources/hunmorph Magyarlanc MSD-kódokra épül, harmonizált KR-MSD hamarosan… morphdb.hu-t használja Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc

Szófaji egyértelműsítés POS-tagging – POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC

Morfológiailag többértelmű szavak A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű Szófaji egyértelműsítés fontossága Várnak Népének Művére Faszék Vámpír

Szófaji egyértelműsítők Szabályalapú rendszerek: Szakértői szabályok Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő Statisztikai rendszerek Rejtett Markov-modell (HMM) Maximum Entrópia (MaxEnt) Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra

Magyar szófaji egyértelműsítők hunPOS HMM-alapú Nyílt forráskódú http://mokk.bme.hu/resources/hunpos purePOS http://nlpg.itk.ppke.hu/software/purepos Magyarlanc Maximum entrópia alapú Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc Online demó: http://www.inf.u-szeged.hu/rgai/magyarlanc-service/

Kiértékelés Pontosság (accuracy) Hány %-ban találta el a szófaji elemzést és a lemmát Egyes osztályokra (szófajokra) F-mérték Mostani rendszerek ~96-97% pontosság körül teljesítenek