Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
A számítógépes nyelvfeldolgozás alapjai
Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – március 4.
2
Bevezető Szöveg szavakra bontása megtörtént
Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés
3
Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol Szótári alapalakok Lehetséges szóalakok száma Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) Eltárolható-e minden szóalak?
4
Morfológiai elemző Lexikon: szótövek és toldalékok
Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban
5
szolgáltatások – szolgáltatás – szolgáltat – szolga
Lemmatizálás Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga
6
Ismeretlen szavak elemzése
A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? Ha igen, levágjuk, és a maradékot kezeljük szótőként Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)
7
Példa: vuvuzeláztál vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét)
8
Kötőjelet tartalmazó szóalakok
Hasonló az összetett szavakhoz A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését A kötőjel után egész szó következik (labdarúgó-világbajnokság) A kötőjel után toldalék következik (GPS-nek)
9
Problémák és megoldások
GPS-szel Igei elemzés? Megszorítások: a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni VERB+NOUN: gyakorolok - *gyakorol+ok PREVERB+NOUN: ellen - *el+len VERB + ADV: Róma - *ró+ma
10
NE-k elemzése „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n
11
szemantika – szem+Antika
Tulajdonnévlisták Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas Ha túl nagy, túlgenerálás: szemantika – szem+Antika
12
Tulajdonnevekhez kötőjellel kapcsolt elemek
ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév
13
Morfológiai kódrendszerek
Morfológiai elemzés alapja Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y
14
Kódrendszerek Nyelvfüggetlen (?) Nyelvfüggő Előnyök és hátrányok:
nemzetközi összehasonlíthatóság nyelv sajátosságainak figyelembe vétele komplexitás Eltérő mélységű és minőségű információk – példák?
15
Magyar kódrendszerek HUMOR MSD KR MNSZ-ben Van rá elemző
Szeged Korpuszban KR Nincs rá adatbázis Elemző van rá (min mérjük??? – MSD-KR harmonizáció)
16
HUMor High-speed unification morphology
Unifikációs nyelvleíráson alapul Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?)
17
MSD Morphosyntactic Description Nemzetközi kódrendszer: angol román
szlovén cseh bolgár észt magyar
18
MSD - 2 Pozicionális kódok Adott pozíció adott információtípust kódol
0. pozíció: szófaj 1. pozíció: szófajon belüli (al)típus További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) Ami nem releváns a magyarban, nem írjuk ki (-)
19
KR Magyarra lett kitalálva
Jegy-érték struktúrákban kódolja az információt Vannak default jegyek (E/3., egyes szám stb.) Képzések és összetételek kezelése
20
KR-MSD harmonizáció Szeged-Pest együttműködésben
KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése MSD-ből: névmások elkülönítése, határozószók fokozhatósága Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban…
21
Magyar morfológiai elemzők
HuMOR HuMOR-kódokra épül Nem szabad hozzáférésű Hunmorph KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) Nyílt forráskódú, ingyenes Magyarlanc MSD-kódokra épül, harmonizált KR-MSD hamarosan… morphdb.hu-t használja Ingyenes
22
Szófaji egyértelműsítés
POS-tagging – POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC
23
Morfológiailag többértelmű szavak
A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű Szófaji egyértelműsítés fontossága Várnak Népének Művére Faszék Vámpír
24
Szófaji egyértelműsítők
Szabályalapú rendszerek: Szakértői szabályok Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő Statisztikai rendszerek Rejtett Markov-modell (HMM) Maximum Entrópia (MaxEnt) Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra
25
Magyar szófaji egyértelműsítők
hunPOS HMM-alapú Nyílt forráskódú purePOS Magyarlanc Maximum entrópia alapú Ingyenes Online demó:
26
Kiértékelés Pontosság (accuracy)
Hány %-ban találta el a szófaji elemzést és a lemmát Egyes osztályokra (szófajokra) F-mérték Mostani rendszerek ~96-97% pontosság körül teljesítenek
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.