A számítógépes nyelvfeldolgozás alapjai Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4.
Bevezető Szöveg szavakra bontása megtörtént Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés
Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol Szótári alapalakok Lehetséges szóalakok száma Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) Eltárolható-e minden szóalak?
Morfológiai elemző Lexikon: szótövek és toldalékok Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban
szolgáltatások – szolgáltatás – szolgáltat – szolga Lemmatizálás Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga
Ismeretlen szavak elemzése A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? Ha igen, levágjuk, és a maradékot kezeljük szótőként Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)
Példa: vuvuzeláztál vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét)
Kötőjelet tartalmazó szóalakok Hasonló az összetett szavakhoz A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését A kötőjel után egész szó következik (labdarúgó-világbajnokság) A kötőjel után toldalék következik (GPS-nek)
Problémák és megoldások GPS-szel Igei elemzés? Megszorítások: a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni VERB+NOUN: gyakorolok - *gyakorol+ok PREVERB+NOUN: ellen - *el+len VERB + ADV: Róma - *ró+ma
NE-k elemzése „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n
szemantika – szem+Antika Tulajdonnévlisták Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas Ha túl nagy, túlgenerálás: szemantika – szem+Antika
Tulajdonnevekhez kötőjellel kapcsolt elemek ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév
Morfológiai kódrendszerek Morfológiai elemzés alapja Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y
Kódrendszerek Nyelvfüggetlen (?) Nyelvfüggő Előnyök és hátrányok: nemzetközi összehasonlíthatóság nyelv sajátosságainak figyelembe vétele komplexitás Eltérő mélységű és minőségű információk – példák?
Magyar kódrendszerek HUMOR MSD KR MNSZ-ben Van rá elemző Szeged Korpuszban KR Nincs rá adatbázis Elemző van rá (min mérjük??? – MSD-KR harmonizáció)
HUMor High-speed unification morphology Unifikációs nyelvleíráson alapul Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?)
MSD Morphosyntactic Description Nemzetközi kódrendszer: angol román szlovén cseh bolgár észt magyar
MSD - 2 Pozicionális kódok Adott pozíció adott információtípust kódol 0. pozíció: szófaj 1. pozíció: szófajon belüli (al)típus További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) Ami nem releváns a magyarban, nem írjuk ki (-)
KR Magyarra lett kitalálva Jegy-érték struktúrákban kódolja az információt Vannak default jegyek (E/3., egyes szám stb.) Képzések és összetételek kezelése
KR-MSD harmonizáció Szeged-Pest együttműködésben KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése MSD-ből: névmások elkülönítése, határozószók fokozhatósága Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban…
Magyar morfológiai elemzők HuMOR HuMOR-kódokra épül Nem szabad hozzáférésű Hunmorph KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) Nyílt forráskódú, ingyenes http://mokk.bme.hu/resources/hunmorph Magyarlanc MSD-kódokra épül, harmonizált KR-MSD hamarosan… morphdb.hu-t használja Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc
Szófaji egyértelműsítés POS-tagging – POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC
Morfológiailag többértelmű szavak A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű Szófaji egyértelműsítés fontossága Várnak Népének Művére Faszék Vámpír
Szófaji egyértelműsítők Szabályalapú rendszerek: Szakértői szabályok Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő Statisztikai rendszerek Rejtett Markov-modell (HMM) Maximum Entrópia (MaxEnt) Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra
Magyar szófaji egyértelműsítők hunPOS HMM-alapú Nyílt forráskódú http://mokk.bme.hu/resources/hunpos purePOS http://nlpg.itk.ppke.hu/software/purepos Magyarlanc Maximum entrópia alapú Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc Online demó: http://www.inf.u-szeged.hu/rgai/magyarlanc-service/
Kiértékelés Pontosság (accuracy) Hány %-ban találta el a szófaji elemzést és a lemmát Egyes osztályokra (szófajokra) F-mérték Mostani rendszerek ~96-97% pontosság körül teljesítenek