Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Számítógépes morfológia a gyakorlatban A Humor szóalaktani elemzőprogram, a Xerox morfológiai eszközei.

Hasonló előadás


Az előadások a következő témára: "Számítógépes morfológia a gyakorlatban A Humor szóalaktani elemzőprogram, a Xerox morfológiai eszközei."— Előadás másolata:

1 Számítógépes morfológia a gyakorlatban A Humor szóalaktani elemzőprogram, a Xerox morfológiai eszközei

2 A morfológiai elemzésről - Novák Attila2 Bevezetés mire jó egy számítógépes morfológia? történeti áttekintés két elemzőtípus –Humor (unifikációs, MorphoLogic) –xfst, lexc, lookup (véges állapotú, Xerox) a Humor elemző működése hogyan készülnek a morfológiai elemző adatbázisok ismeretlen szavak morfológia gépi tanulással

3 A morfológiai elemzésről - Novák Attila3 A számítógépes morfológia feladata az adott nyelv (írott) szóalakjainak kezelése minden számítógépes nyelvfeldolgozási feladat alapja morfológiai elemzés = a szóalakok felismerése –a szótári alak (a szó töve) és szófaja –az adott alak melyik tagja a szó ragozási paradigmájának (morfoszintaktikai jegyek) –baltáimat > balta[FN][PSe1i][ACC] –képzők, összetételek –baltaélezésnek > szóalak-generálás –a megadott szótári alakhoz és morfoszintaktikai jegyekhez tartozó felszíni szóalak előállítása –balta[FN][PSe1i][ACC] > baltáimat

4 A morfológiai elemzésről - Novák Attila4 Alkalmazások piaci alkalmazások –helyesírás-ellenőrző –szótárprogramok –dokumentumok indexelése és kategorizálása –mondatszintű nyelvhelyesség-ellenőrző –gépi fordítás / megértéstámogató eszközök tudományos alkalmazások –a számítógépes morfológiai készítése során a korábbiaknál pontosabb leírások készülnek –a nyelvtan adekvátságának tesztelése –morfológiailag annotált korpuszok –szintaktikailag annotált korpuszok

5 A morfológiai elemzésről - Novák Attila5

6 A morfológiai elemzésről - Novák Attila6 Miért kell? agglutináló nyelvek: hosszú morfémasorozatok –karácsony+fá+cská+itok+éi+ról rengeteg különböző szóalak bármekkora korpuszt veszünk, a benne levő szótöveknek sokkal több alakja nem szerepel benne, mint amennyi igen különböző szóalakok száma egy 10 millió szavas korpuszban: angol: < finn: >800000

7 A morfológiai elemzésről - Novák Attila7 Egy példa: a Humor elemző ‘item-and-arrangement’ típusú ‘darabolós’ konkatenatív elemzések az elemzések lapos morfsorozatok (reguláris szónyelvtan) morf: felszíni alak, mögöttes alak, kategóriacímke analyser>fejetlenséget fej[S_FN]+etlen[D=MN_FFOSZT]+ség[D=FN_PROP]+et[I_ACC] fej[S_IGE]+etlen[D=MN_IFOSZT]+ség[D=FN_PROP]+et[I_ACC]

8 A morfológiai elemzésről - Novák Attila8 Történeti áttekintés a morfológia együtt jár a fonológiával –teve + vAl → tevével a generatív fonológia alapműve –SPE: Noam Chomsky and Morris Halle. The Sound Pattern of English. Harper & Row. New York: –környezetfüggő formájú újraírószabályok g → k / _ t –szekvenciális szabályrendszerek ilyen szabályok rendezett sora –mögöttes és felszíni alakok – köztük sok szint

9 A morfológiai elemzésről - Novák Attila9 Két probléma Szekvenciális szabályrendszer felismerésre közvetlenül nem alkalmazható –nem-determinizmus a mélységgel exponenciálisan nő (még ha nincsenek is opcionális szabályok) –a lexikon, illetve a „korábbi” szabályok szűrnek, de addigra túl nagyra nőtt az állapottér N → m / _ p p → m / m _ kaNpat → kammat {kaNpat, kampat, kammat} ← kammat a fonológia kontextusfüggő (CS)???

10 A morfológiai elemzésről - Novák Attila10 A fonológia reguláris C. Douglas Johnson [1972] Formal Aspects of Phonological Description. Mouton. a generatív fonológiában alkalmazott környezetfüggő alakú szabályok reguláris nyelvet generálnak, ha teljesül: α → β / γ _ β reguláris, ha a kimenetére nem alkalmazzuk újra ε → ab / _ b (opcionális) alkalmazás helyegenerált nyelvnyelvosztály aa _ bbaibiaibi környezetfüggetlen (CF) aab _ ba(ab) * breguláris

11 A morfológiai elemzésről - Novák Attila11 Reguláris relációk: kompozícióra zárt [1981] Ronald M. Kaplan and Martin Kay Regular models of phonological rule systems. Computational Linguistics, 20(3): –újra felfedezték Johnson eredményét –a reguláris relációk osztálya a kompozícióra zárt az egyes szabályok reguláris relációkká fordíthatók kompozíciójuk is reguláris reláció → egyetlen reguláris reláció, amely a teljes szabályrendszert egy lépésben valósítja meg a lexikonnal is komponálni lehet

12 A morfológiai elemzésről - Novák Attila12 Kétszintű morfológia 1 kompozíció: nagy memóriaigény (a 80-as években nem volt olyan gép) Koskenniemi, Kimmo. Two-level Morphology. A General Computational Model for Word-Form Recognition and Production. Department of General Linguistics. University of Helsinki párhuzamosan működő transzducerek alkalmazásával oldotta meg a problémát (más szabályformalizmus) minden szimbólumpárt mindegyik automatának el kell fogadnia. párhuzamos fordítók is egyesíthetőek: metszet itt ez nem szükséges a használhatósághoz –PC-Kimmo

13 A morfológiai elemzésről - Novák Attila13

14 A morfológiai elemzésről - Novák Attila14 Kétszintű morfológia 2 a párhuzamosan megfogalmazott szabályok konfliktusba kerülhetnek egymással

15 A morfológiai elemzésről - Novák Attila15 Reguláris megoldások komponált szekvenciális szabályrendszer kétszintű szabályok Probléma a 90-es évek végéig: sok memória kell, 16 bites gépeken nem ment

16 A morfológiai elemzésről - Novák Attila16 Unifikációs morfológia másik megközelítés a morfológia leírására a fonológia implementálása helyett –allomorfok (a morfémák alakváltozatai) a lexikonban –szomszédossági megszorítások: jegyek unifikálhatósági teszt item-and-arrangement morfológia –morfok sorozata sokkal kisebb memóriaigény a korai PC-ken is implementálható volt

17 A morfológiai elemzésről - Novák Attila17 A Humor működése (mélységi) keresés: a szóalakra illeszkedő morfsorozatokat keres a lexikonban a morf felszíni alakja illeszkedjen az elemzetlen rész elejére a lexikon nemcsak egyes morfokat, hanem morfsorozatokat is tartalmazhat (rendhagyó szóalakok vagy toldaléksorozatok borítékolt elemzései) lokálisan illeszthető legyen az előzővel (pl. magánhangzó-harmónia) a morfémasorozat a szónyelvtan által megengedett szókonstrukciót valósítson meg

18 A morfológiai elemzésről - Novák Attila18 A Humor adatbázisa a hatékony működéshez egyszerű és gyors ellenőrzési műveletek kellenek az adatbázis minden szükséges redundáns információt explicit formában tartalmaz (így nem kell működés közben kiszámolni) lexikon: allomorfok, a lokális illesztéshez használt absztrakt adatszerkezetek reguláris szónyelvtan: epszilonmentes véges állapotú automata

19 A morfológiai elemzésről - Novák Attila19 ‘Gépközeli’ adatszerkezetek allomorfok bináris tulajdonságvektorok kompatibilitási mátrixok bokor, G, , `, ,bokor, bokor, FN bokorbab, B, , `, ,bokorbab, bokorbab, FN bokorrózsa, C, , `, ,bokorrózsa, bokorrózsa, FN bokorrózsá, D, , `, ,bokorrózsá, bokorrózsa, FN bokorugró, A, , `, ,bokorugró, bokorugró, MN bokr, H, , `, ,bokr, bokor, FN bokros, B, , `, ,bokros, bokros, MN bokros, B, , `, ,bokros, bokros, FN bokrosod, A, , `, ,bokrosod, bokrosodik, IGE bokrosodás, B, , `, ,bokrosodás, bokrosodás, FN bokréta, C, , `, ,bokréta, bokréta, FN bokrétaünnep,B, , `, ,bokrétaünnep,bokrétaünnep,FN bokrétá, D, , `, ,bokrétá, bokréta, FN bokrétás, B, , `, ,bokrétás, bokrétás, MN... at, A, , l, ,at, at, ACC et, A, , l, ,et, et, ACC ot, A, , l, ,ot, ot, ACC t, A, , l, ,t, t, ACC öt, A, , l, ,öt, öt, ACC

20 A morfológiai elemzésről - Novák Attila20 ‘Gépközeli’ adatszerkezetek kompatibilitási mátrix (46×28) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g ` * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * a * * * - * - * - * * - - * * * * - * * * - * * * * * * - * b * * - * - * - * * - - * - * * - - * - * * * * * * * * * * - * * - * - - c * * - * - * - * - * * - - * * - * - - * * - * - * * * * * * * * * * * * d * * - * - * - * * - - * - * * - - * - * * * * * * * * * * - * * - * - - e * * - * - * - * * * * * - * * - * - - * * - * * * * * * * * * - * - - f * * - * - * - * * - - * - * * * * - - * * * * * * * - * * - * - - g * * - * * * * * * - - * - * - * * - - * * * - * - - * * * * * * * * * * h * * * * * - * - * * - * * * * - * * * * * * - * - - * * i * * - * * - * * * * - * - * - * * - - * * * - * * * * * * * - * - - * * j * * - * * - * - * - - * - * - * * * * - * * * * * * * - * - - * * k * * - * * - - * * - - * - * - * * * * * * * * * * * * - - * * l * * - * - * - * * - - * - * * * * * * * * * * - * * - * * * m * - - * * - - * * n - * * * * * * * o * * - * - * - * - * * * - * - - * - - * * - * * * * * * - * * p * - * * * * * * q * * * - * - * * * - - * - - * * * * * - * * * * * * * * - *

21 A morfológiai elemzésről - Novák Attila21 Az adatbázis karbantarthatósága egy ilyen adatbázis –nehezen olvasható –nehéz konzisztens állapotban tartani –nehéz hibát keresni és kijavítani –nehéz új lexikai tételeket felvenni ha mindezt kézzel kéne létrehozni és karbantartani –hibák –hiányok –inkonzisztencia

22 A morfológiai elemzésről - Novák Attila22 A megoldás: többszintű adatbázis redundanciamentes morfémalexikonok (csak megjósolhatatlan tulajdonságok, öröklési mechanizmus) az alternációkat és a tulajdonságok, ill. szelekciós megszorítások közötti implikációs viszonyokat leíró szabályok redundáns allomorflexikonok olvasható formában a tulajdonságok kódolásának definíciója redundáns lexikonok az elemző által olvasható formában + az elemző által használt adatszerkezetek nyelviadatbázis-kezelő keretrendszer könnyű új lexikai tételeket felvenni + konzisztencia + a szabályrendszer helyessége könnyen ellenőrizhető + könnyű áttérni az egyik fajta Humor adatszerkezetről a másikra + könnyen készíthetők egyes megszorításokat figyelmen kívül hagyó verziók Előnyök:

23 A morfológiai elemzésről - Novák Attila23 A redundanciamentes adatbázis kutya[FN]; fa+kutya[FN]; vad+kutya[FN]; Balzac[FN];phon:balzak;... bokor[FN];stemalt:VZA; málna+bokor[FN]; orgona+bokor[FN]; rózsa+bokor[FN];... hát[FN];rp:LOW; barát[FN];rp:=Ai; csak lemma és címke a szabályos szavaknálzárt tőváltakozási osztály rendhagyó kiejtésösszetett szavak: öröklődés a szegmentálás segítségével nyitótő: megjósolhatatlan tulajdonság rendhagyó többes birtokos alak

24 A morfológiai elemzésről - Novák Attila24 A redundáns adatbázis lemma: 'kutya[FN]' root: 'kutya' allomf:'kutya' mcat: 'S_FN' rp: '-Vs -nyi -sÁg =_s =_t =i =jA =vAl VHB Vfin cat_N cmp2 sfxable mcat_stem' rr: ‘!FVL' lp: 'Cini comp2 k_ini' lr: '!cat_vrb' allomf:'kutyá' mcat: 'S_FN' rp: '-Vs -nyi -sÁg =_s =_t =i =jA =vAl VHB Vfin cat_N cmp2 sfxable mcat_stem' rr: 'FVL' lp: 'Cini comp2 k_ini' lr: '!cat_vrb' tőmorféma allomorfok jobb oldali tulajdonságokbal oldali tulajdonságokjobb oldali elvárások bal oldali elvárások

25 A morfológiai elemzésről - Novák Attila25 Egy toldalékolási példa stem allomorphs 'allomf' => 'kutya', 'rp' => 'cat_N Vfin -i -nyi -Vs -sÁg =_t =_s =jA =i =vAl mcat_stem sfxable cmp2 VHB', 'lp' => 'comp2 k_ini Cini', 'rr' => '!FVL', 'lr' => '!cat_vrb' 'allomf' => 'kutyá', 'rp' => 'cat_N Vfin -i -nyi -Vs -sÁg =_t =_s =jA =i =vAl mcat_stem sfxable cmp2 VHB', 'lp' => 'comp2 k_ini Cini', 'rr' => 'FVL', 'lr' => '!cat_vrb' suffix allomorph #1 'allomf' => 't', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Cini', 'lr' => '=_t cat_Nom sfxable' suffix allomorph #2 'allomf' => 'at', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt LOW VHB cat_Nom sfxable' suffix allomorph #3 'allomf' => 'et', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt LOW VHF cat_Nom sfxable' suffix allomorph #4 'allomf' => 'ot', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt !LOW VHB cat_Nom sfxable' suffix allomorph #5 'allomf' => 'öt', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt !LOW VHFR cat_Nom sfxable'

26 A morfológiai elemzésről - Novák Attila26 A szabályok 1-1 szabályfájl a tőallomorfok és toldalékallomorfok létrehozására procedurális leírás, feltételes blokkok a már adott tulajdonságok alapján új tulajdonságok és elvárások hozzáadása allomorfok létrehozása default szabályblokkok: ha az adott elemre nem illeszkedett semelyik specifikus eset allomorfduplikáló szabályok: pl. az ingadozó viselkedés, ill. az elemzőben és a generátorban különbözően viselkedő szavak leírására

27 A morfológiai elemzésről - Novák Attila27 Szabályfájl-példa #an allomorphy rule #final vowel lengthening kutya -> kutyá root:/[aeë]$/&&phon:/[aeë]$/ +;!FVL;; +/a$/á/;FVL;; +/[eë]$/é/;FVL;; +/^([eëöa]dik)[ae]$/$1+i[IKEP]/;;!cat_N cat_Adj LOW; a szabályblokk feltételeiallomorfok i-képzős alak, csak a dátumképző esetében alapalakmegnyúlt tőalak jobb oldali elvárás jobb oldali tulajdonságok

28 A morfológiai elemzésről - Novák Attila28 A Xerox eszközei Xerox lexc és xfst: véges állapotú fordítóautomaták, szekvenciális újraírószabály-formalizmus Kenneth R. Beesley, Lauri Karttunen. Finite State Morphology. CSLI Publications, Ventura Hall, –az SPE típusú újraírószabályok könnyen xfst szabályokká konvertálhatók –morfématárak: lexc lexc lexikonleírás xfst szabálynyelvtan kompozíció Lexikai transzducer a felszíni szóalakok nyelve az elemzések nyelve

29 A morfológiai elemzésről - Novák Attila29 Az xfst formalizmusa véges állapotú fordítóautomaták fonológiai és morfofonológiai szabályok #n1 palatalizes l define l=palat [ l -> l1 || n1 NSeg* _ ]; #nasal deletion before liquids define Nas=del [ Nas -> 0 || _ [Bdry [l|l1]]/NSeg ];

30 A morfológiai elemzésről - Novák Attila30 xfst és twolc xfst: újraírószabályok kompozíciója twolc: kétszintű szabályok metszete az előbbi sokkal könnyebben megy az embereknek a kétszintű szabálykonfliktusokat nehezen látják át az újraírószabályoknál a szabálysorrendezés okoz problémát –„bleeding”: egy szabály eltünteti a később következő szabály által várt bemenetet (vagy környezetet)

31 A morfológiai elemzésről - Novák Attila31 A Humor és a Xerox eszközei Xeroxos eszközök –egyszerű és homogén adatszerkezet, egyszerű bejárás –kb. 1.5–4-szer gyorsabb –nagyobb futási memóriaigény (<10-szer) –sokkal nagyobb memóriaigény kompiláláskor (a nganaszan szabálykomponenst nem lehetett 512 MB- ban kompilálni) Humor eszközök –kevésbé homogén, de tömörebb adatszerkezet, többféle művelet elemzés közben (fellapozás, szomszédossági megszorítások ellenőrzése, szónyelvtan-ellenőrzés, kisbetű-nagybetű konverzió) –lassabb, de kisebb memóriaigény

32 A morfológiai elemzésről - Novák Attila32 A két formalizmus összevetése mindkét formalizmus képes az agglutináló nyelvek bonyolult morfológiai jelenségeinek kezelésére az SPE stílusú újraírószabályok könnyebben lefordíthatók az xfst formalizmusára általában számos részlet homályban marad a nyomtatott nyelvtanokban a számítógépes implementáció feltétele ezen részletek tisztázása az ehhez szükséges kísérletezés kevesebb munkát igényel, ha számítógépes modell formalizmusa közelebb áll az eredetihez

33 A morfológiai elemzésről - Novák Attila33 Nyelvtanfejlesztés az xfst nyelvtanokban nem könnyű a hibakeresés (nehéz megtalálni a hibás szabályt) a nyilvános változatban néhány funkció csak korlátozottan működik bonyolultabb nyelv esetében a nyelvtan nem kompilálható külön a nagy erőforrásigény miatt, a szabályokat egyenként komponálni kell a lexikonnal

34 A morfológiai elemzésről - Novák Attila34 Súlyozott modellek A transzducerek élei súlyozhatóak (‘költség’) ezzel valószínűségi modell hozható létre ez jó modell pl. helyesírásjavításhoz –hibajavítás költsége (~mennyire gyakori az adott hibatípus) –a kapott szó gyakorisága (minél ritkább, annál ‘költségesebb’) A xerox eszközök ilyet nem tudnak, de vannak új nyílt forráskódú alternatívák: –OpenFST, FOMA, HFST A Humor modellt is érdemes lehet átalakítani transzducerré

35 A morfológiai elemzésről - Novák Attila35 Jegyek és unifikáció az FST modellben is xfst ‘flag diacritics’ konstrukciója –nem szomszédos morfémák közötti megszorítások leírásához kell, hogy ne nőjön korlátlanul nagyra az automata pl. igekötő után valamikor ige vagy igeképző kell leg –bb –az állapotteret többdimenzióssá tesszük –sok minden más is kényelmesen leírható vele morfoszintaktikai/szemantikai megszorítások –pl. tranzitivitás morfolexikai jegyek

36 A morfológiai elemzésről - Novák Attila36 Nganaszan lexc lexikonrészlet LEXICON infl_V !verbal mood suffixes (...) infl_VTM_r; infl_VTMR_r; LEXICON Root (...) !some irregular stems !S3 is irregular because it coincides with S1 and S2 !S2 and S3 irregular !S3 irregular with two alternative forms, S1=S2

37 Humor adatbázisok véges állapotú leírássá alakítása Humor allomorflexikonok, mátrixok, szónyelvtan FSA lexc lexikon, ‘flag diacritics’ konstrukció (St flag)

38 A morfológiai elemzésről - Novák Attila38 Integrált magyar morfológiai elemző a Humor és a Morphdb.hu kombinálásával –a Humor tőtár kiegészítése a csak a morphdb.hu-ban levő tövekkel és jegyekkel – hibaellenőrzést kell végezni az annotáció nemzetközivé tétele –a lipcsei jelölésnek (Leipzig Glossing Rules) megfelelő címkék használata az új elemzőben –leképezés a hagyományosan használt magyar kódrendszerekre: Humor, KR-kód, MSD implementáció: HFST –a kiegészített Humor leírást lexc formátumra konvertáljuk, a HFST compilerével kompiláljuk –kódkonverziók xfst-ben megfogalmazott szűrőkkel

39 A morfológiai elemzésről - Novák Attila39 Ismeretlen szavak elemzése (guesser) ha a szótő nincs benne a lexikonban –olyan elemzőt használunk aminek nyitott a tőtára (guesser) az FST-s esetben elvileg viszonylag egyszerű: –az „univerzális lexikon”-nal kell a szabályokat komponálni –a fonotaktikai megszorításokat érdemes lehet leírni (milyen hangok jöhetnek egymás után) Humor: a lexikon adatbázis, nem megy ez a módszer –külön eszköz kell –a végződések ábrázolása szófában megfordítva + az elemzés előállításához szüksége művelet ariéá 5a[FN][POSi][SUB] Tonuzóbáéira → ariéábózunoT → Tonuzóba[FN][POSi][SUB]

40 Paradigmaazonosítás feladat: morfológiai szótáron alapuló számítógépes morfológia bővítése új szavakkal automatikus paradigmaazonosítás alapötlet: Brants TNT taggerében implementált toldalékguesser algoritmus –gyenge eredmény –buta hibák „leghosszabb illeszkedő végződés”-algoritmus –ritkán és „megbocsátható módon” hibázik

41 Rangsorolás Doktori értekezés – nyilvános vita – Novák Attila41

42 гурба|f[N.f] [N.f:50]# [N.f:175]# [N.f:48]# [N.f:105]# [N.f:88]# [N.f:103]# [N.f:396]# [N.f:611]# [N.f:69]# [N.f:121]# дурака|f[N.f] [N.f:88]# [N.f:15]# [N.f:273]# [N.f:36]# [N.f:50]# [N.f:16]# [N.f:39]# [N.f:105]# [N.f:96]# [N.f:103]#

43 Kiértékelés – orosz Leghosszabb végződés Brants guesser Leggyakoribb paradigma f< f> f> „Emberi” hibákat ejt Kevés nem létező alakot jósol Ritka szavakra elég jól működik

44 Szóalak-generálás képzett és összetett tövek alakjait akkor is tudja generálni, ha nincsenek benne a lexikonban generator>félkarúság[N][ACC] félkarúságot generator>félkarú[A][_PROP][ACC] félkarúságot ingadozó esetben megadhatjuk a preferált változatot (tanítasz ~ tanítsz) a szóalak-generátor egy változata megengedi, hogy a ragozást leíró morfoszintaktikai jegyeket rendezetlenül adjuk meg

45 Cikkek Thomas Müller, Ryan Cotterell, Alex Fraser and Hinrich Schütze (2016): Joint Lemmatization and Morphological Tagging with Lemming. Proceedings of EMNLP pp https://www.cs.cmu.edu/~ark/EMNLP- 2016/proceedings/EMNLP/pdf/EMNLP272.pdf M. Ahlberg, M. Forsberg, M. Hulden (2016): Semi- supervised learning of morphological paradigms and lexicons. Proceedings of EACL pp pdf

46 A morfológiai elemzésről - Novák Attila46 vég[S_FN]+e[I_PSe3]+[I_NOM]


Letölteni ppt "Számítógépes morfológia a gyakorlatban A Humor szóalaktani elemzőprogram, a Xerox morfológiai eszközei."

Hasonló előadás


Google Hirdetések