Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Ó- és középmagyar morfológiai elemző Novák Attila.

Hasonló előadás


Az előadások a következő témára: "Ó- és középmagyar morfológiai elemző Novák Attila."— Előadás másolata:

1 Ó- és középmagyar morfológiai elemző Novák Attila

2 ÓKM morfológiai elemzés - Novák Attila2 Két projekt •MGTSZ –Magyar generatív történeti szintaxis [OTKA NK78074] –ó- és középmagyar szövegek •TMK –Történeti magánéleti korpusz [OTKA 81189] –középmagyar „beszélt nyelvihez közeli” szövegtípusok: perek, levelek •Feladat –morfológiailag elemzett kereshető korpusz létrehozása

3 ÓKM morfológiai elemzés - Novák Attila3 Problémák, feladatok 1. •automatikus morfológiai elemzés •„régi”, a mai köznyelvből kihalt morfémák és morfológiai konstrukciók kezelése –toldalékok –tövek •változatos íráskép, sokféle dialektus –a szöveg kézi normalizálása „mai helyesírásra” –a morfémák maradjanak meg •inherens többértelműségek –monda/mondá?

4 ÓKM morfológiai elemzés - Novák Attila4 Problémák, feladatok 2. •egyértelműsítés –géppel (oroszlánrész) •statisztikai eszközök (HunPos tagger) –kézzel •mivel tanítsuk? •kézzel elemzett források –Jakab László és mtsai., Debrecen •Jókai-, Guary- és Festetics-kódex –nincs bennük normalizált alak –olvashatatlan kódok –inkompatibilis elemzések –sok hiba

5 ÓKM morfológiai elemzés - Novák Attila5 Problémák, feladatok 3. •menet közbeni változtatások –más tageket szeretnénk –a morfoszintaktikai annotáció tükrözzön bizonyos szintaktikai szerkezeteket –a korábbi munka élje túl a változtatásokat •keresés –grammatikai szerkezeteket keresünk –lehessen még itt is hibát javítani

6 ÓKM morfológiai elemzés - Novák Attila6 Kihalt toldalékallomorfok

7 ÓKM morfológiai elemzés - Novák Attila7 Kihalt toldalékmorfémák

8 ÓKM morfológiai elemzés - Novák Attila8 Megváltozott produktivitás

9 ÓKM morfológiai elemzés - Novák Attila9 Rendszeres és eldönthetetlen többértelműségek

10 ÓKM morfológiai elemzés - Novák Attila10 Rendhagyó kihalt paradigmák

11 ÓKM morfológiai elemzés - Novák Attila11 Normalizálás •A fonológiai és helyesírási változatosságot normalizáljuk •A morfémák maradjanak meg •Bizonyos szövegek normalizálása nem az általunk lefektetett elvek szerint történt –Pl. Székelyudvarhelyi kódex •Sokszor nehéz az értelmezés •Az inherens többértelműségeket őrizzük meg •Mit jelent a morfémahűség?

12 ÓKM morfológiai elemzés - Novák Attila12 Esettanulmány: bAn/bA

13 ÓKM morfológiai elemzés - Novák Attila13 Esettanulmány: bAn/bA

14 ÓKM morfológiai elemzés - Novák Attila14 Esettanulmány: bAn/bA

15 ÓKM morfológiai elemzés - Novák Attila15 Egyértelműsítés kézzel

16 ÓKM morfológiai elemzés - Novák Attila16 Egyértelműsítés géppel •HunPos HMM POS Tagger •Meglevő egyértelműsített szövegek morfoszintaktikai címkéiből: –címke–szóalak-statisztika –címkesorozat-statisztika •A új szövegre: –a modell szerint legvalószínűbb címkesorozatot keresi minden mondatra

17 ÓKM morfológiai elemzés - Novák Attila17 Egyértelműsítés géppel •A következőt optimalizálja: •A töveket a morfológiai elemző adja –a választott címkére legjobban hasonlító elemzést választjuk

18 ÓKM morfológiai elemzés - Novák Attila18 Min tanítsuk? •Jakab-kódexfeldolgozások –Debrecenben készültek 1978–2002 •Jókai-, Guary-, Apor- és Festetics-kódex –nincs bennük normalizált alak –olvashatatlan kódok –inkompatibilis elemzések –sok hiba

19 ÓKM morfológiai elemzés - Novák Attila19 Jakab-kódexkiadások

20 ÓKM morfológiai elemzés - Novák Attila20 Jakab-kódexkiadások

21 ÓKM morfológiai elemzés - Novák Attila21 Jakab-kódexkiadások

22 ÓKM morfológiai elemzés - Novák Attila22 Jakab-kódexkiadások

23 ÓKM morfológiai elemzés - Novák Attila23 Jakab-kódexkiadások

24 ÓKM morfológiai elemzés - Novák Attila24 Menet közbeni változtatások •Ha már vannak egyértelműsített szövegeink és változik az annotáció: [ne vesszen el a már elvégzett munka] –a leghasonlóbb elemzést választjuk –ha különbözik a korábbitól, megjelöljük –tömeges cserék reguláris kifejezésekkel

25 ÓKM morfológiai elemzés - Novák Attila25 Az annotáció változásai

26 ÓKM morfológiai elemzés - Novák Attila26 Keresés az korpuszban

27 ÓKM morfológiai elemzés - Novák Attila27 Néhány fejlesztés •Lehet mondaton/tagmondaton/adott tulajdonságú szövegen belül keresni •A tagmondatok lehetnek nem folytonosak •A találati egység a mondat •Lehet benne javítani •A javított korpuszt exportálni, a taggert újratanítani

28 ÓKM morfológiai elemzés - Novák Attila28 Javítás a keresőben

29 ÓKM morfológiai elemzés - Novák Attila29 Nem folytonos tagmondat

30 ÓKM morfológiai elemzés - Novák Attila30

31 ÓKM morfológiai elemzés - Novák Attila31


Letölteni ppt "Ó- és középmagyar morfológiai elemző Novák Attila."

Hasonló előadás


Google Hirdetések