Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A számítógépes nyelvfeldolgozás alapjai

Hasonló előadás


Az előadások a következő témára: "A számítógépes nyelvfeldolgozás alapjai"— Előadás másolata:

1 A számítógépes nyelvfeldolgozás alapjai
Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – március 4.

2 Bevezető Szöveg szavakra bontása megtörtént
Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés

3 Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol Szótári alapalakok Lehetséges szóalakok száma Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) Eltárolható-e minden szóalak?

4 Morfológiai elemző Lexikon: szótövek és toldalékok
Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban

5 szolgáltatások – szolgáltatás – szolgáltat – szolga
Lemmatizálás Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga

6 Ismeretlen szavak elemzése
A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? Ha igen, levágjuk, és a maradékot kezeljük szótőként Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)

7 Példa: vuvuzeláztál vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét)

8 Kötőjelet tartalmazó szóalakok
Hasonló az összetett szavakhoz A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését A kötőjel után egész szó következik (labdarúgó-világbajnokság) A kötőjel után toldalék következik (GPS-nek)

9 Problémák és megoldások
GPS-szel Igei elemzés? Megszorítások: a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni VERB+NOUN: gyakorolok - *gyakorol+ok PREVERB+NOUN: ellen - *el+len VERB + ADV: Róma - *ró+ma

10 NE-k elemzése „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n

11 szemantika – szem+Antika
Tulajdonnévlisták Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas Ha túl nagy, túlgenerálás: szemantika – szem+Antika

12 Tulajdonnevekhez kötőjellel kapcsolt elemek
ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév

13 Morfológiai kódrendszerek
Morfológiai elemzés alapja Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y

14 Kódrendszerek Nyelvfüggetlen (?) Nyelvfüggő Előnyök és hátrányok:
nemzetközi összehasonlíthatóság nyelv sajátosságainak figyelembe vétele komplexitás Eltérő mélységű és minőségű információk – példák?

15 Magyar kódrendszerek HUMOR MSD KR MNSZ-ben Van rá elemző
Szeged Korpuszban KR Nincs rá adatbázis Elemző van rá (min mérjük??? – MSD-KR harmonizáció)

16 HUMor High-speed unification morphology
Unifikációs nyelvleíráson alapul Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?)

17 MSD Morphosyntactic Description Nemzetközi kódrendszer: angol román
szlovén cseh bolgár észt magyar

18 MSD - 2 Pozicionális kódok Adott pozíció adott információtípust kódol
0. pozíció: szófaj 1. pozíció: szófajon belüli (al)típus További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) Ami nem releváns a magyarban, nem írjuk ki (-)

19 KR Magyarra lett kitalálva
Jegy-érték struktúrákban kódolja az információt Vannak default jegyek (E/3., egyes szám stb.) Képzések és összetételek kezelése

20 KR-MSD harmonizáció Szeged-Pest együttműködésben
KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése MSD-ből: névmások elkülönítése, határozószók fokozhatósága Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban…

21 Magyar morfológiai elemzők
HuMOR HuMOR-kódokra épül Nem szabad hozzáférésű Hunmorph KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) Nyílt forráskódú, ingyenes Magyarlanc MSD-kódokra épül, harmonizált KR-MSD hamarosan… morphdb.hu-t használja Ingyenes

22 Szófaji egyértelműsítés
POS-tagging – POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC

23 Morfológiailag többértelmű szavak
A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű Szófaji egyértelműsítés fontossága Várnak Népének Művére Faszék Vámpír

24 Szófaji egyértelműsítők
Szabályalapú rendszerek: Szakértői szabályok Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő Statisztikai rendszerek Rejtett Markov-modell (HMM) Maximum Entrópia (MaxEnt) Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra

25 Magyar szófaji egyértelműsítők
hunPOS HMM-alapú Nyílt forráskódú purePOS Magyarlanc Maximum entrópia alapú Ingyenes Online demó:

26 Kiértékelés Pontosság (accuracy)
Hány %-ban találta el a szófaji elemzést és a lemmát Egyes osztályokra (szófajokra) F-mérték Mostani rendszerek ~96-97% pontosság körül teljesítenek


Letölteni ppt "A számítógépes nyelvfeldolgozás alapjai"

Hasonló előadás


Google Hirdetések