Ó- és középmagyar morfológiai elemző Novák Attila
ÓKM morfológiai elemzés - Novák Attila2 Két projekt •MGTSZ –Magyar generatív történeti szintaxis [OTKA NK78074] –ó- és középmagyar szövegek •TMK –Történeti magánéleti korpusz [OTKA 81189] –középmagyar „beszélt nyelvihez közeli” szövegtípusok: perek, levelek •Feladat –morfológiailag elemzett kereshető korpusz létrehozása
ÓKM morfológiai elemzés - Novák Attila3 Problémák, feladatok 1. •automatikus morfológiai elemzés •„régi”, a mai köznyelvből kihalt morfémák és morfológiai konstrukciók kezelése –toldalékok –tövek •változatos íráskép, sokféle dialektus –a szöveg kézi normalizálása „mai helyesírásra” –a morfémák maradjanak meg •inherens többértelműségek –monda/mondá?
ÓKM morfológiai elemzés - Novák Attila4 Problémák, feladatok 2. •egyértelműsítés –géppel (oroszlánrész) •statisztikai eszközök (HunPos tagger) –kézzel •mivel tanítsuk? •kézzel elemzett források –Jakab László és mtsai., Debrecen •Jókai-, Guary- és Festetics-kódex –nincs bennük normalizált alak –olvashatatlan kódok –inkompatibilis elemzések –sok hiba
ÓKM morfológiai elemzés - Novák Attila5 Problémák, feladatok 3. •menet közbeni változtatások –más tageket szeretnénk –a morfoszintaktikai annotáció tükrözzön bizonyos szintaktikai szerkezeteket –a korábbi munka élje túl a változtatásokat •keresés –grammatikai szerkezeteket keresünk –lehessen még itt is hibát javítani
ÓKM morfológiai elemzés - Novák Attila6 Kihalt toldalékallomorfok
ÓKM morfológiai elemzés - Novák Attila7 Kihalt toldalékmorfémák
ÓKM morfológiai elemzés - Novák Attila8 Megváltozott produktivitás
ÓKM morfológiai elemzés - Novák Attila9 Rendszeres és eldönthetetlen többértelműségek
ÓKM morfológiai elemzés - Novák Attila10 Rendhagyó kihalt paradigmák
ÓKM morfológiai elemzés - Novák Attila11 Normalizálás •A fonológiai és helyesírási változatosságot normalizáljuk •A morfémák maradjanak meg •Bizonyos szövegek normalizálása nem az általunk lefektetett elvek szerint történt –Pl. Székelyudvarhelyi kódex •Sokszor nehéz az értelmezés •Az inherens többértelműségeket őrizzük meg •Mit jelent a morfémahűség?
ÓKM morfológiai elemzés - Novák Attila12 Esettanulmány: bAn/bA
ÓKM morfológiai elemzés - Novák Attila13 Esettanulmány: bAn/bA
ÓKM morfológiai elemzés - Novák Attila14 Esettanulmány: bAn/bA
ÓKM morfológiai elemzés - Novák Attila15 Egyértelműsítés kézzel
ÓKM morfológiai elemzés - Novák Attila16 Egyértelműsítés géppel •HunPos HMM POS Tagger •Meglevő egyértelműsített szövegek morfoszintaktikai címkéiből: –címke–szóalak-statisztika –címkesorozat-statisztika •A új szövegre: –a modell szerint legvalószínűbb címkesorozatot keresi minden mondatra
ÓKM morfológiai elemzés - Novák Attila17 Egyértelműsítés géppel •A következőt optimalizálja: •A töveket a morfológiai elemző adja –a választott címkére legjobban hasonlító elemzést választjuk
ÓKM morfológiai elemzés - Novák Attila18 Min tanítsuk? •Jakab-kódexfeldolgozások –Debrecenben készültek 1978–2002 •Jókai-, Guary-, Apor- és Festetics-kódex –nincs bennük normalizált alak –olvashatatlan kódok –inkompatibilis elemzések –sok hiba
ÓKM morfológiai elemzés - Novák Attila19 Jakab-kódexkiadások
ÓKM morfológiai elemzés - Novák Attila20 Jakab-kódexkiadások
ÓKM morfológiai elemzés - Novák Attila21 Jakab-kódexkiadások
ÓKM morfológiai elemzés - Novák Attila22 Jakab-kódexkiadások
ÓKM morfológiai elemzés - Novák Attila23 Jakab-kódexkiadások
ÓKM morfológiai elemzés - Novák Attila24 Menet közbeni változtatások •Ha már vannak egyértelműsített szövegeink és változik az annotáció: [ne vesszen el a már elvégzett munka] –a leghasonlóbb elemzést választjuk –ha különbözik a korábbitól, megjelöljük –tömeges cserék reguláris kifejezésekkel
ÓKM morfológiai elemzés - Novák Attila25 Az annotáció változásai
ÓKM morfológiai elemzés - Novák Attila26 Keresés az korpuszban
ÓKM morfológiai elemzés - Novák Attila27 Néhány fejlesztés •Lehet mondaton/tagmondaton/adott tulajdonságú szövegen belül keresni •A tagmondatok lehetnek nem folytonosak •A találati egység a mondat •Lehet benne javítani •A javított korpuszt exportálni, a taggert újratanítani
ÓKM morfológiai elemzés - Novák Attila28 Javítás a keresőben
ÓKM morfológiai elemzés - Novák Attila29 Nem folytonos tagmondat
ÓKM morfológiai elemzés - Novák Attila30
ÓKM morfológiai elemzés - Novák Attila31