Számítógépes morfológia a gyakorlatban A Humor szóalaktani elemzőprogram, a Xerox morfológiai eszközei.

Slides:



Advertisements
Hasonló előadás
A digitális számítás elmélete
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
Hiteles, elosztott log kezelés
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Prototype Kft. Prototype kft. - Alapítás ban - 8 alkalmazott - A Stratasys Inc. képviselet - MK-Technology GmbH képviselet - GOM GmbH képviselet.
A BNO10 formális formális reprezentálása a GALEN alapján
A Magyar Nemzeti Szövegtár
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
Képességszintek.
3. A programozás eszközei, programozás-technikai alapismeretek
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke A programozás alapjai 1. (VIEEA100) 9. előadás.
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Programozás II. 6. Gyakorlat const, static, dinamikus 2D.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Algoritmizálás Göncziné Kapros Katalin humaninformatika.ektf.hu.
Programozó matematikus szak 2003/2004-es tanév II. félév
Programozó matematikus szak 2003/2004-es tanév II. félév
A digitális számítás elmélete
A digitális számítás elmélete
Determinisztikus véges automaták csukva nyitva m s kbsm csukva nyitva csukva nyitva csukvanyitva 1. Példa: Fotocellás ajtó s b m m= mindkét helyen k= kint.
A digitális számítás elmélete
Szoftvertechnológia Ember-gép rendszerek. Mit értünk rendszer alatt? Kapcsolódó komponensek halmaza – egy közös cél érdekében működnek együtt A rendszer.
ISMERETALAPÚ RENDSZEREK SZAKÉRTŐ RENDSZEREK
4. Gyires Béla Informatikai Nap Debreceni Egyetem Informatikai Kar Új eredmények a Chomsky-féle (formális) nyelvtípusokkal kapcsolatban Dr. Nagy Benedek.
A Magyar Nemzeti Szövegtár
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Gergó Márton Konzulens: Engedy István 2009/2010 tavasz.
Adatszerkezetek 1. előadás
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Minőségtechnikák I. (Megbízhatóság)
3.2. A program készítés folyamata Adatelemzés, adatszerkezetek felépítése Típus, változó, konstans fogalma, szerepe, deklarációja.
Összeállította: Dóber Valéria
Hernyák Zoltán Programozási Nyelvek II.
Vektorterek Definíció. Legyen V Abel-csoport, F test, továbbá
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Funkciós blokkok A funkciós blokkok áttekintése Az alkalmazás előnyei.
Optimalitás elmélet Torma Nóra kiselőadása. Optimality Theory, OT Kortárs elméleti keret Sok mindenben eltér az SPE-től.
2014/15 I.félév Sárközi-Lindner Zsófia.  cél: a szótáron belül (lexémák) m ű köd ő szabályok leírása  fonológiai és morfológiai szabályok ’együttm ű.
Az XML nyelv (Extensible Markup Language). XML  XML: leíró nyelv (metanyelv)  XML alkalmazás: egy megalkotott nyelv  XML dokumentum: egy új nyelv egy.
Klasszikus (lineáris) Generatív Fonológia
.NET FRAMEWORK Röviden Krizsán Zoltán 1.0. Tulajdonságok I Rövidebb fejlesztés 20 támogatott nyelv (nyílt specifikáció) 20 támogatott nyelv (nyílt specifikáció)
Adatszerkezetek és algoritmusok 2008/ Algoritmus Az algoritmus szó eredete a középkori arab matematikáig nyúlik vissza, egy a i.sz. IX. században.
Adatbázisszintű adatmodellek
A generatív nyelvelmélet
LZW tömörítés Akopjan Alex Algoritmusok és adatszerkezetek 2.
LL(1)-elemzés ● az LL(1)-elemzők már jobbak az előzőeknél, bár nem fedik le a programozási nyelvek szükségleteit ● alapötlet: a levezetés következő lépéséhez.
Fordítóprogramok gyakorlat tavaszi félév gyakorlatvezető:Kitlei Róbert szoba:D 2-616B honlap:
A programozás módszertana. Monolitikus programozás Egyszerű feladatok - egyszerű programok Egy program – egy programozó Nincs belső struktúra, lineáris.
Adatstruktúrák Algoritmusok Objektumok
Számítógépes morfológia a gyakorlatban
Adatbázis alapismeretek
Számítógépes algoritmusok
Leíró nyelvtan - adatbázisból
LL(1)-elemzés az LL(1)-elemzők már jobbak az előzőeknél, bár nem fedik le a programozási nyelvek szükségleteit alapötlet: a levezetés következő lépéséhez.
Bevezetés Tematika Számonkérés Irodalom
A mesterséges neuronhálók alapjai
A SzTAKI-tól A MorphoLogicig Naszódi Mátyás
Absztrakt problémák Q  I  S, az absztrakt probléma kétváltozós reláció az esetek (I) és a megoldások (S) halmazán Példa: legrövidebb út Eset: gráf és.
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Számítógépes morfológia a gyakorlatban A Humor szóalaktani elemzőprogram, a Xerox morfológiai eszközei

A morfológiai elemzésről - Novák Attila2 Bevezetés mire jó egy számítógépes morfológia? történeti áttekintés két elemzőtípus –Humor (unifikációs, MorphoLogic) –xfst, lexc, lookup (véges állapotú, Xerox) a Humor elemző működése hogyan készülnek a morfológiai elemző adatbázisok ismeretlen szavak morfológia gépi tanulással

A morfológiai elemzésről - Novák Attila3 A számítógépes morfológia feladata az adott nyelv (írott) szóalakjainak kezelése minden számítógépes nyelvfeldolgozási feladat alapja morfológiai elemzés = a szóalakok felismerése –a szótári alak (a szó töve) és szófaja –az adott alak melyik tagja a szó ragozási paradigmájának (morfoszintaktikai jegyek) –baltáimat > balta[FN][PSe1i][ACC] –képzők, összetételek –baltaélezésnek > szóalak-generálás –a megadott szótári alakhoz és morfoszintaktikai jegyekhez tartozó felszíni szóalak előállítása –balta[FN][PSe1i][ACC] > baltáimat

A morfológiai elemzésről - Novák Attila4 Alkalmazások piaci alkalmazások –helyesírás-ellenőrző –szótárprogramok –dokumentumok indexelése és kategorizálása –mondatszintű nyelvhelyesség-ellenőrző –gépi fordítás / megértéstámogató eszközök tudományos alkalmazások –a számítógépes morfológiai készítése során a korábbiaknál pontosabb leírások készülnek –a nyelvtan adekvátságának tesztelése –morfológiailag annotált korpuszok –szintaktikailag annotált korpuszok

A morfológiai elemzésről - Novák Attila5

A morfológiai elemzésről - Novák Attila6 Miért kell? agglutináló nyelvek: hosszú morfémasorozatok –karácsony+fá+cská+itok+éi+ról rengeteg különböző szóalak bármekkora korpuszt veszünk, a benne levő szótöveknek sokkal több alakja nem szerepel benne, mint amennyi igen különböző szóalakok száma egy 10 millió szavas korpuszban: angol: < finn: >800000

A morfológiai elemzésről - Novák Attila7 Egy példa: a Humor elemző ‘item-and-arrangement’ típusú ‘darabolós’ konkatenatív elemzések az elemzések lapos morfsorozatok (reguláris szónyelvtan) morf: felszíni alak, mögöttes alak, kategóriacímke analyser>fejetlenséget fej[S_FN]+etlen[D=MN_FFOSZT]+ség[D=FN_PROP]+et[I_ACC] fej[S_IGE]+etlen[D=MN_IFOSZT]+ség[D=FN_PROP]+et[I_ACC]

A morfológiai elemzésről - Novák Attila8 Történeti áttekintés a morfológia együtt jár a fonológiával –teve + vAl → tevével a generatív fonológia alapműve –SPE: Noam Chomsky and Morris Halle. The Sound Pattern of English. Harper & Row. New York: –környezetfüggő formájú újraírószabályok g → k / _ t –szekvenciális szabályrendszerek ilyen szabályok rendezett sora –mögöttes és felszíni alakok – köztük sok szint

A morfológiai elemzésről - Novák Attila9 Két probléma Szekvenciális szabályrendszer felismerésre közvetlenül nem alkalmazható –nem-determinizmus a mélységgel exponenciálisan nő (még ha nincsenek is opcionális szabályok) –a lexikon, illetve a „korábbi” szabályok szűrnek, de addigra túl nagyra nőtt az állapottér N → m / _ p p → m / m _ kaNpat → kammat {kaNpat, kampat, kammat} ← kammat a fonológia kontextusfüggő (CS)???

A morfológiai elemzésről - Novák Attila10 A fonológia reguláris C. Douglas Johnson [1972] Formal Aspects of Phonological Description. Mouton. a generatív fonológiában alkalmazott környezetfüggő alakú szabályok reguláris nyelvet generálnak, ha teljesül: α → β / γ _ β reguláris, ha a kimenetére nem alkalmazzuk újra ε → ab / _ b (opcionális) alkalmazás helyegenerált nyelvnyelvosztály aa _ bbaibiaibi környezetfüggetlen (CF) aab _ ba(ab) * breguláris

A morfológiai elemzésről - Novák Attila11 Reguláris relációk: kompozícióra zárt [1981] Ronald M. Kaplan and Martin Kay Regular models of phonological rule systems. Computational Linguistics, 20(3): –újra felfedezték Johnson eredményét –a reguláris relációk osztálya a kompozícióra zárt az egyes szabályok reguláris relációkká fordíthatók kompozíciójuk is reguláris reláció → egyetlen reguláris reláció, amely a teljes szabályrendszert egy lépésben valósítja meg a lexikonnal is komponálni lehet

A morfológiai elemzésről - Novák Attila12 Kétszintű morfológia 1 kompozíció: nagy memóriaigény (a 80-as években nem volt olyan gép) Koskenniemi, Kimmo. Two-level Morphology. A General Computational Model for Word-Form Recognition and Production. Department of General Linguistics. University of Helsinki párhuzamosan működő transzducerek alkalmazásával oldotta meg a problémát (más szabályformalizmus) minden szimbólumpárt mindegyik automatának el kell fogadnia. párhuzamos fordítók is egyesíthetőek: metszet itt ez nem szükséges a használhatósághoz –PC-Kimmo

A morfológiai elemzésről - Novák Attila13

A morfológiai elemzésről - Novák Attila14 Kétszintű morfológia 2 a párhuzamosan megfogalmazott szabályok konfliktusba kerülhetnek egymással

A morfológiai elemzésről - Novák Attila15 Reguláris megoldások komponált szekvenciális szabályrendszer kétszintű szabályok Probléma a 90-es évek végéig: sok memória kell, 16 bites gépeken nem ment

A morfológiai elemzésről - Novák Attila16 Unifikációs morfológia másik megközelítés a morfológia leírására a fonológia implementálása helyett –allomorfok (a morfémák alakváltozatai) a lexikonban –szomszédossági megszorítások: jegyek unifikálhatósági teszt item-and-arrangement morfológia –morfok sorozata sokkal kisebb memóriaigény a korai PC-ken is implementálható volt

A morfológiai elemzésről - Novák Attila17 A Humor működése (mélységi) keresés: a szóalakra illeszkedő morfsorozatokat keres a lexikonban a morf felszíni alakja illeszkedjen az elemzetlen rész elejére a lexikon nemcsak egyes morfokat, hanem morfsorozatokat is tartalmazhat (rendhagyó szóalakok vagy toldaléksorozatok borítékolt elemzései) lokálisan illeszthető legyen az előzővel (pl. magánhangzó-harmónia) a morfémasorozat a szónyelvtan által megengedett szókonstrukciót valósítson meg

A morfológiai elemzésről - Novák Attila18 A Humor adatbázisa a hatékony működéshez egyszerű és gyors ellenőrzési műveletek kellenek az adatbázis minden szükséges redundáns információt explicit formában tartalmaz (így nem kell működés közben kiszámolni) lexikon: allomorfok, a lokális illesztéshez használt absztrakt adatszerkezetek reguláris szónyelvtan: epszilonmentes véges állapotú automata

A morfológiai elemzésről - Novák Attila19 ‘Gépközeli’ adatszerkezetek allomorfok bináris tulajdonságvektorok kompatibilitási mátrixok bokor, G, , `, ,bokor, bokor, FN bokorbab, B, , `, ,bokorbab, bokorbab, FN bokorrózsa, C, , `, ,bokorrózsa, bokorrózsa, FN bokorrózsá, D, , `, ,bokorrózsá, bokorrózsa, FN bokorugró, A, , `, ,bokorugró, bokorugró, MN bokr, H, , `, ,bokr, bokor, FN bokros, B, , `, ,bokros, bokros, MN bokros, B, , `, ,bokros, bokros, FN bokrosod, A, , `, ,bokrosod, bokrosodik, IGE bokrosodás, B, , `, ,bokrosodás, bokrosodás, FN bokréta, C, , `, ,bokréta, bokréta, FN bokrétaünnep,B, , `, ,bokrétaünnep,bokrétaünnep,FN bokrétá, D, , `, ,bokrétá, bokréta, FN bokrétás, B, , `, ,bokrétás, bokrétás, MN... at, A, , l, ,at, at, ACC et, A, , l, ,et, et, ACC ot, A, , l, ,ot, ot, ACC t, A, , l, ,t, t, ACC öt, A, , l, ,öt, öt, ACC

A morfológiai elemzésről - Novák Attila20 ‘Gépközeli’ adatszerkezetek kompatibilitási mátrix (46×28) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g ` * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * a * * * - * - * - * * - - * * * * - * * * - * * * * * * - * b * * - * - * - * * - - * - * * - - * - * * * * * * * * * * - * * - * - - c * * - * - * - * - * * - - * * - * - - * * - * - * * * * * * * * * * * * d * * - * - * - * * - - * - * * - - * - * * * * * * * * * * - * * - * - - e * * - * - * - * * * * * - * * - * - - * * - * * * * * * * * * - * - - f * * - * - * - * * - - * - * * * * - - * * * * * * * - * * - * - - g * * - * * * * * * - - * - * - * * - - * * * - * - - * * * * * * * * * * h * * * * * - * - * * - * * * * - * * * * * * - * - - * * i * * - * * - * * * * - * - * - * * - - * * * - * * * * * * * - * - - * * j * * - * * - * - * - - * - * - * * * * - * * * * * * * - * - - * * k * * - * * - - * * - - * - * - * * * * * * * * * * * * - - * * l * * - * - * - * * - - * - * * * * * * * * * * - * * - * * * m * - - * * - - * * n - * * * * * * * o * * - * - * - * - * * * - * - - * - - * * - * * * * * * - * * p * - * * * * * * q * * * - * - * * * - - * - - * * * * * - * * * * * * * * - *

A morfológiai elemzésről - Novák Attila21 Az adatbázis karbantarthatósága egy ilyen adatbázis –nehezen olvasható –nehéz konzisztens állapotban tartani –nehéz hibát keresni és kijavítani –nehéz új lexikai tételeket felvenni ha mindezt kézzel kéne létrehozni és karbantartani –hibák –hiányok –inkonzisztencia

A morfológiai elemzésről - Novák Attila22 A megoldás: többszintű adatbázis redundanciamentes morfémalexikonok (csak megjósolhatatlan tulajdonságok, öröklési mechanizmus) az alternációkat és a tulajdonságok, ill. szelekciós megszorítások közötti implikációs viszonyokat leíró szabályok redundáns allomorflexikonok olvasható formában a tulajdonságok kódolásának definíciója redundáns lexikonok az elemző által olvasható formában + az elemző által használt adatszerkezetek nyelviadatbázis-kezelő keretrendszer könnyű új lexikai tételeket felvenni + konzisztencia + a szabályrendszer helyessége könnyen ellenőrizhető + könnyű áttérni az egyik fajta Humor adatszerkezetről a másikra + könnyen készíthetők egyes megszorításokat figyelmen kívül hagyó verziók Előnyök:

A morfológiai elemzésről - Novák Attila23 A redundanciamentes adatbázis kutya[FN]; fa+kutya[FN]; vad+kutya[FN]; Balzac[FN];phon:balzak;... bokor[FN];stemalt:VZA; málna+bokor[FN]; orgona+bokor[FN]; rózsa+bokor[FN];... hát[FN];rp:LOW; barát[FN];rp:=Ai; csak lemma és címke a szabályos szavaknálzárt tőváltakozási osztály rendhagyó kiejtésösszetett szavak: öröklődés a szegmentálás segítségével nyitótő: megjósolhatatlan tulajdonság rendhagyó többes birtokos alak

A morfológiai elemzésről - Novák Attila24 A redundáns adatbázis lemma: 'kutya[FN]' root: 'kutya' allomf:'kutya' mcat: 'S_FN' rp: '-Vs -nyi -sÁg =_s =_t =i =jA =vAl VHB Vfin cat_N cmp2 sfxable mcat_stem' rr: ‘!FVL' lp: 'Cini comp2 k_ini' lr: '!cat_vrb' allomf:'kutyá' mcat: 'S_FN' rp: '-Vs -nyi -sÁg =_s =_t =i =jA =vAl VHB Vfin cat_N cmp2 sfxable mcat_stem' rr: 'FVL' lp: 'Cini comp2 k_ini' lr: '!cat_vrb' tőmorféma allomorfok jobb oldali tulajdonságokbal oldali tulajdonságokjobb oldali elvárások bal oldali elvárások

A morfológiai elemzésről - Novák Attila25 Egy toldalékolási példa stem allomorphs 'allomf' => 'kutya', 'rp' => 'cat_N Vfin -i -nyi -Vs -sÁg =_t =_s =jA =i =vAl mcat_stem sfxable cmp2 VHB', 'lp' => 'comp2 k_ini Cini', 'rr' => '!FVL', 'lr' => '!cat_vrb' 'allomf' => 'kutyá', 'rp' => 'cat_N Vfin -i -nyi -Vs -sÁg =_t =_s =jA =i =vAl mcat_stem sfxable cmp2 VHB', 'lp' => 'comp2 k_ini Cini', 'rr' => 'FVL', 'lr' => '!cat_vrb' suffix allomorph #1 'allomf' => 't', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Cini', 'lr' => '=_t cat_Nom sfxable' suffix allomorph #2 'allomf' => 'at', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt LOW VHB cat_Nom sfxable' suffix allomorph #3 'allomf' => 'et', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt LOW VHF cat_Nom sfxable' suffix allomorph #4 'allomf' => 'ot', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt !LOW VHB cat_Nom sfxable' suffix allomorph #5 'allomf' => 'öt', 'rp' => 'mcat_infl', 'lp' => 'FVL VZA SVS vST UDEL CASE ACC Vini', 'lr' => '=Vt !LOW VHFR cat_Nom sfxable'

A morfológiai elemzésről - Novák Attila26 A szabályok 1-1 szabályfájl a tőallomorfok és toldalékallomorfok létrehozására procedurális leírás, feltételes blokkok a már adott tulajdonságok alapján új tulajdonságok és elvárások hozzáadása allomorfok létrehozása default szabályblokkok: ha az adott elemre nem illeszkedett semelyik specifikus eset allomorfduplikáló szabályok: pl. az ingadozó viselkedés, ill. az elemzőben és a generátorban különbözően viselkedő szavak leírására

A morfológiai elemzésről - Novák Attila27 Szabályfájl-példa #an allomorphy rule #final vowel lengthening kutya -> kutyá root:/[aeë]$/&&phon:/[aeë]$/ +;!FVL;; +/a$/á/;FVL;; +/[eë]$/é/;FVL;; +/^([eëöa]dik)[ae]$/$1+i[IKEP]/;;!cat_N cat_Adj LOW; a szabályblokk feltételeiallomorfok i-képzős alak, csak a dátumképző esetében alapalakmegnyúlt tőalak jobb oldali elvárás jobb oldali tulajdonságok

A morfológiai elemzésről - Novák Attila28 A Xerox eszközei Xerox lexc és xfst: véges állapotú fordítóautomaták, szekvenciális újraírószabály-formalizmus Kenneth R. Beesley, Lauri Karttunen. Finite State Morphology. CSLI Publications, Ventura Hall, –az SPE típusú újraírószabályok könnyen xfst szabályokká konvertálhatók –morfématárak: lexc lexc lexikonleírás xfst szabálynyelvtan kompozíció Lexikai transzducer a felszíni szóalakok nyelve az elemzések nyelve

A morfológiai elemzésről - Novák Attila29 Az xfst formalizmusa véges állapotú fordítóautomaták fonológiai és morfofonológiai szabályok #n1 palatalizes l define l=palat [ l -> l1 || n1 NSeg* _ ]; #nasal deletion before liquids define Nas=del [ Nas -> 0 || _ [Bdry [l|l1]]/NSeg ];

A morfológiai elemzésről - Novák Attila30 xfst és twolc xfst: újraírószabályok kompozíciója twolc: kétszintű szabályok metszete az előbbi sokkal könnyebben megy az embereknek a kétszintű szabálykonfliktusokat nehezen látják át az újraírószabályoknál a szabálysorrendezés okoz problémát –„bleeding”: egy szabály eltünteti a később következő szabály által várt bemenetet (vagy környezetet)

A morfológiai elemzésről - Novák Attila31 A Humor és a Xerox eszközei Xeroxos eszközök –egyszerű és homogén adatszerkezet, egyszerű bejárás –kb. 1.5–4-szer gyorsabb –nagyobb futási memóriaigény (<10-szer) –sokkal nagyobb memóriaigény kompiláláskor (a nganaszan szabálykomponenst nem lehetett 512 MB- ban kompilálni) Humor eszközök –kevésbé homogén, de tömörebb adatszerkezet, többféle művelet elemzés közben (fellapozás, szomszédossági megszorítások ellenőrzése, szónyelvtan-ellenőrzés, kisbetű-nagybetű konverzió) –lassabb, de kisebb memóriaigény

A morfológiai elemzésről - Novák Attila32 A két formalizmus összevetése mindkét formalizmus képes az agglutináló nyelvek bonyolult morfológiai jelenségeinek kezelésére az SPE stílusú újraírószabályok könnyebben lefordíthatók az xfst formalizmusára általában számos részlet homályban marad a nyomtatott nyelvtanokban a számítógépes implementáció feltétele ezen részletek tisztázása az ehhez szükséges kísérletezés kevesebb munkát igényel, ha számítógépes modell formalizmusa közelebb áll az eredetihez

A morfológiai elemzésről - Novák Attila33 Nyelvtanfejlesztés az xfst nyelvtanokban nem könnyű a hibakeresés (nehéz megtalálni a hibás szabályt) a nyilvános változatban néhány funkció csak korlátozottan működik bonyolultabb nyelv esetében a nyelvtan nem kompilálható külön a nagy erőforrásigény miatt, a szabályokat egyenként komponálni kell a lexikonnal

A morfológiai elemzésről - Novák Attila34 Súlyozott modellek A transzducerek élei súlyozhatóak (‘költség’) ezzel valószínűségi modell hozható létre ez jó modell pl. helyesírásjavításhoz –hibajavítás költsége (~mennyire gyakori az adott hibatípus) –a kapott szó gyakorisága (minél ritkább, annál ‘költségesebb’) A xerox eszközök ilyet nem tudnak, de vannak új nyílt forráskódú alternatívák: –OpenFST, FOMA, HFST A Humor modellt is érdemes lehet átalakítani transzducerré

A morfológiai elemzésről - Novák Attila35 Jegyek és unifikáció az FST modellben is xfst ‘flag diacritics’ konstrukciója –nem szomszédos morfémák közötti megszorítások leírásához kell, hogy ne nőjön korlátlanul nagyra az automata pl. igekötő után valamikor ige vagy igeképző kell leg –bb –az állapotteret többdimenzióssá tesszük –sok minden más is kényelmesen leírható vele morfoszintaktikai/szemantikai megszorítások –pl. tranzitivitás morfolexikai jegyek

A morfológiai elemzésről - Novák Attila36 Nganaszan lexc lexikonrészlet LEXICON infl_V !verbal mood suffixes (...) infl_VTM_r; infl_VTMR_r; LEXICON Root (...) !some irregular stems !S3 is irregular because it coincides with S1 and S2 !S2 and S3 irregular !S3 irregular with two alternative forms, S1=S2

Humor adatbázisok véges állapotú leírássá alakítása Humor allomorflexikonok, mátrixok, szónyelvtan FSA lexc lexikon, ‘flag diacritics’ konstrukció (St flag)

A morfológiai elemzésről - Novák Attila38 Integrált magyar morfológiai elemző a Humor és a Morphdb.hu kombinálásával –a Humor tőtár kiegészítése a csak a morphdb.hu-ban levő tövekkel és jegyekkel – hibaellenőrzést kell végezni az annotáció nemzetközivé tétele –a lipcsei jelölésnek (Leipzig Glossing Rules) megfelelő címkék használata az új elemzőben –leképezés a hagyományosan használt magyar kódrendszerekre: Humor, KR-kód, MSD implementáció: HFST –a kiegészített Humor leírást lexc formátumra konvertáljuk, a HFST compilerével kompiláljuk –kódkonverziók xfst-ben megfogalmazott szűrőkkel

A morfológiai elemzésről - Novák Attila39 Ismeretlen szavak elemzése (guesser) ha a szótő nincs benne a lexikonban –olyan elemzőt használunk aminek nyitott a tőtára (guesser) az FST-s esetben elvileg viszonylag egyszerű: –az „univerzális lexikon”-nal kell a szabályokat komponálni –a fonotaktikai megszorításokat érdemes lehet leírni (milyen hangok jöhetnek egymás után) Humor: a lexikon adatbázis, nem megy ez a módszer –külön eszköz kell –a végződések ábrázolása szófában megfordítva + az elemzés előállításához szüksége művelet ariéá 5a[FN][POSi][SUB] Tonuzóbáéira → ariéábózunoT → Tonuzóba[FN][POSi][SUB]

Paradigmaazonosítás feladat: morfológiai szótáron alapuló számítógépes morfológia bővítése új szavakkal automatikus paradigmaazonosítás alapötlet: Brants TNT taggerében implementált toldalékguesser algoritmus –gyenge eredmény –buta hibák „leghosszabb illeszkedő végződés”-algoritmus –ritkán és „megbocsátható módon” hibázik

Rangsorolás Doktori értekezés – nyilvános vita – Novák Attila41

гурба|f[N.f] [N.f:50]# [N.f:175]# [N.f:48]# [N.f:105]# [N.f:88]# [N.f:103]# [N.f:396]# [N.f:611]# [N.f:69]# [N.f:121]# дурака|f[N.f] [N.f:88]# [N.f:15]# [N.f:273]# [N.f:36]# [N.f:50]# [N.f:16]# [N.f:39]# [N.f:105]# [N.f:96]# [N.f:103]#

Kiértékelés – orosz Leghosszabb végződés Brants guesser Leggyakoribb paradigma f< f> f> „Emberi” hibákat ejt Kevés nem létező alakot jósol Ritka szavakra elég jól működik

Szóalak-generálás képzett és összetett tövek alakjait akkor is tudja generálni, ha nincsenek benne a lexikonban generator>félkarúság[N][ACC] félkarúságot generator>félkarú[A][_PROP][ACC] félkarúságot ingadozó esetben megadhatjuk a preferált változatot (tanítasz ~ tanítsz) a szóalak-generátor egy változata megengedi, hogy a ragozást leíró morfoszintaktikai jegyeket rendezetlenül adjuk meg

Cikkek Thomas Müller, Ryan Cotterell, Alex Fraser and Hinrich Schütze (2016): Joint Lemmatization and Morphological Tagging with Lemming. Proceedings of EMNLP pp /proceedings/EMNLP/pdf/EMNLP272.pdf M. Ahlberg, M. Forsberg, M. Hulden (2016): Semi- supervised learning of morphological paradigms and lexicons. Proceedings of EACL pp pdf

A morfológiai elemzésről - Novák Attila46 vég[S_FN]+e[I_PSe3]+[I_NOM]