Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4.

Hasonló előadás


Az előadások a következő témára: "Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4."— Előadás másolata:

1 Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – március 4.

2 Bevezető Szöveg szavakra bontása megtörtént Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés

3 Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol –Szótári alapalakok –Lehetséges szóalakok száma –Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) –Eltárolható-e minden szóalak?

4 Morfológiai elemző Lexikon: szótövek és toldalékok Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban

5 Lemmatizálás Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga

6 Ismeretlen szavak elemzése A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? –Ha igen, levágjuk, és a maradékot kezeljük szótőként –Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)

7 Példa: vuvuzeláztál vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét)

8 Kötőjelet tartalmazó szóalakok Hasonló az összetett szavakhoz A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését A kötőjel után egész szó következik (labdarúgó-világbajnokság) A kötőjel után toldalék következik (GPS-nek)

9 Problémák és megoldások GPS-szel Igei elemzés? Megszorítások: –a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben –az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni VERB+NOUN: gyakorolok - *gyakorol+ok PREVERB+NOUN: ellen - *el+len VERB + ADV: Róma - *ró+ma

10 NE-k elemzése „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n

11 Tulajdonnévlisták Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas Ha túl nagy, túlgenerálás: szemantika – szem+Antika

12 Tulajdonnevekhez kötőjellel kapcsolt elemek ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév

13 Morfológiai kódrendszerek Morfológiai elemzés alapja Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y

14 Kódrendszerek Nyelvfüggetlen (?) Nyelvfüggő Előnyök és hátrányok: –nemzetközi összehasonlíthatóság –nyelv sajátosságainak figyelembe vétele –komplexitás Eltérő mélységű és minőségű információk – példák?

15 Magyar kódrendszerek HUMOR –MNSZ-ben –Van rá elemző MSD –Szeged Korpuszban –Van rá elemző KR –Nincs rá adatbázis –Elemző van rá (min mérjük??? – MSD-KR harmonizáció)

16 HUMor High-speed unification morphology Unifikációs nyelvleíráson alapul Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?)

17 MSD Morphosyntactic Description Nemzetközi kódrendszer: –angol –román –szlovén –cseh –bolgár –észt –magyar

18 MSD - 2 Pozicionális kódok Adott pozíció adott információtípust kódol 0. pozíció: szófaj 1. pozíció: szófajon belüli (al)típus További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) Ami nem releváns a magyarban, nem írjuk ki (-)

19 KR Magyarra lett kitalálva Jegy-érték struktúrákban kódolja az információt Vannak default jegyek (E/3., egyes szám stb.) Képzések és összetételek kezelése

20 KR-MSD harmonizáció Szeged-Pest együttműködésben KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése MSD-ből: névmások elkülönítése, határozószók fokozhatósága Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban…

21 Magyar morfológiai elemzők HuMOR –HuMOR-kódokra épül –Nem szabad hozzáférésű Hunmorph –KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) –Nyílt forráskódú, ingyenes –http://mokk.bme.hu/resources/hunmorphhttp://mokk.bme.hu/resources/hunmorph Magyarlanc –MSD-kódokra épül, harmonizált KR-MSD hamarosan… –morphdb.hu-t használja –Ingyenes –http://www.inf.u-szeged.hu/rgai/magyarlanchttp://www.inf.u-szeged.hu/rgai/magyarlanc

22 Szófaji egyértelműsítés POS-tagging – POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC

23 Morfológiailag többértelmű szavak A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű Szófaji egyértelműsítés fontossága –Várnak –Népének –Művére –Faszék –Vámpír

24 Szófaji egyértelműsítők Szabályalapú rendszerek: –Szakértői szabályok –Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő Statisztikai rendszerek –Rejtett Markov-modell (HMM) –Maximum Entrópia (MaxEnt) –Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra

25 Magyar szófaji egyértelműsítők hunPOS –HMM-alapú –Nyílt forráskódú –http://mokk.bme.hu/resources/hunposhttp://mokk.bme.hu/resources/hunpos purePOS –HMM-alapú –Nyílt forráskódú –http://nlpg.itk.ppke.hu/software/pureposhttp://nlpg.itk.ppke.hu/software/purepos Magyarlanc –Maximum entrópia alapú –Ingyenes –http://www.inf.u-szeged.hu/rgai/magyarlanchttp://www.inf.u-szeged.hu/rgai/magyarlanc –Online demó:

26 Kiértékelés Pontosság (accuracy) Hány %-ban találta el a szófaji elemzést és a lemmát Egyes osztályokra (szófajokra) F- mérték Mostani rendszerek ~96-97% pontosság körül teljesítenek


Letölteni ppt "Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4."

Hasonló előadás


Google Hirdetések