Ó- és középmagyar morfológiai elemző Novák Attila.

Slides:



Advertisements
Hasonló előadás
Kereső program használata Készítette: Berger Nikolett
Advertisements

Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
A bibliai lecke előkészítése és tanítása (3.)
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
INFORMÁCIÓKERESÉS JELENTÉSREPREZENTÁCIÓ ALAPJÁN
Nyelv-ész-gép Új technológiák az információs társadalomban.
A mondat.
A BNO10 formális formális reprezentálása a GALEN alapján
A Magyar Nemzeti Szövegtár
Mondatelemzés Összetett mondatok.
Online Katalógus aleph.nyf.hu.
Az idegen nyelvekről a NAT-BAN
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
A szöveg a kommunikáció eszköze.
2012. február 29. Paulik Áron.  Eddig: összegzés, számlálás  III. Lineáris keresés tétele  Egy bizonyos értéket keresünk egy adatsorban  Benne van-e?
Kereső programok használata
PÉCSI TUDOMÁNYEGYETEM KÖZGAZDASÁGTUDOMÁNYI KAR Regionális Politika és Gazdaságtan Doktori Iskola Régiók fejlesztése Konferencia Pécs Az EMVA.
Szoftvertechnológia Rendszertervezés.
A nyelv problémája természetes, és mesterséges nyelvek.
Egyedül olvasd el... különösen az utolsó részt
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
A szöveg 11..
Óvodáskorú gyermekek szóaktiválásának funkcionális vizsgálata
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
A Magyar Nemzeti Szövegtár
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Összeállította: Dóber Valéria
Nyelvi visszacsatolás karakter-, kézírás- és beszédfelismerő rendszerek számára OM, november 21.
Bevezetés oldal. Bevezetés oldal.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Levéláradat az online levelezésben Tippek, ötletek az átlátható és (általunk) ellenőrzött folyamatokért október 09.
Az Élet Igéje szeptember.
Az internetes keresési módszerek
Metodika és minőségbiztosítás a képesítések OKKR besorolása során: a elv alkalmazása Metodika és minőségbiztosítás a képesítések OKKR besorolása során:
Polinomok.
2014/15 I.félév Sárközi-Lindner Zsófia.  cél: a szótáron belül (lexémák) m ű köd ő szabályok leírása  fonológiai és morfológiai szabályok ’együttm ű.
Gazdasági informatikus - Szövegszerkesztés 1 A munka véglegesítése, nyomtatás.
Keresés fajtái Matching (szabadszavas)
A generatív nyelvelmélet
17 ISMERTESSE AZ INTERNETES KERESÉSI MÓDSZEREKET! KONKRÉT GYAKORLATI PÉLDA KERESÉSRE.(KERESÉS, TALÁLATI LISTA ÉRTELMEZÉSE, TALÁLT OLDAL MENTÉSE.) Készítette:
Fordítóprogramok gyakorlat tavaszi félév gyakorlatvezető:Kitlei Róbert szoba:D 2-616B honlap:
A házi feladatokhoz: 1.5: Azonosság Jelölések a feladatszám alatt:
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Bódis – Kleiber – Szilágyi – Viszket
Leíró nyelvtan - adatbázisból
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
Navigáció az Interneten:
A SzTAKI-tól A MorphoLogicig Naszódi Mátyás
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Ó- és középmagyar morfológiai elemző Novák Attila

ÓKM morfológiai elemzés - Novák Attila2 Két projekt •MGTSZ –Magyar generatív történeti szintaxis [OTKA NK78074] –ó- és középmagyar szövegek •TMK –Történeti magánéleti korpusz [OTKA 81189] –középmagyar „beszélt nyelvihez közeli” szövegtípusok: perek, levelek •Feladat –morfológiailag elemzett kereshető korpusz létrehozása

ÓKM morfológiai elemzés - Novák Attila3 Problémák, feladatok 1. •automatikus morfológiai elemzés •„régi”, a mai köznyelvből kihalt morfémák és morfológiai konstrukciók kezelése –toldalékok –tövek •változatos íráskép, sokféle dialektus –a szöveg kézi normalizálása „mai helyesírásra” –a morfémák maradjanak meg •inherens többértelműségek –monda/mondá?

ÓKM morfológiai elemzés - Novák Attila4 Problémák, feladatok 2. •egyértelműsítés –géppel (oroszlánrész) •statisztikai eszközök (HunPos tagger) –kézzel •mivel tanítsuk? •kézzel elemzett források –Jakab László és mtsai., Debrecen •Jókai-, Guary- és Festetics-kódex –nincs bennük normalizált alak –olvashatatlan kódok –inkompatibilis elemzések –sok hiba

ÓKM morfológiai elemzés - Novák Attila5 Problémák, feladatok 3. •menet közbeni változtatások –más tageket szeretnénk –a morfoszintaktikai annotáció tükrözzön bizonyos szintaktikai szerkezeteket –a korábbi munka élje túl a változtatásokat •keresés –grammatikai szerkezeteket keresünk –lehessen még itt is hibát javítani

ÓKM morfológiai elemzés - Novák Attila6 Kihalt toldalékallomorfok

ÓKM morfológiai elemzés - Novák Attila7 Kihalt toldalékmorfémák

ÓKM morfológiai elemzés - Novák Attila8 Megváltozott produktivitás

ÓKM morfológiai elemzés - Novák Attila9 Rendszeres és eldönthetetlen többértelműségek

ÓKM morfológiai elemzés - Novák Attila10 Rendhagyó kihalt paradigmák

ÓKM morfológiai elemzés - Novák Attila11 Normalizálás •A fonológiai és helyesírási változatosságot normalizáljuk •A morfémák maradjanak meg •Bizonyos szövegek normalizálása nem az általunk lefektetett elvek szerint történt –Pl. Székelyudvarhelyi kódex •Sokszor nehéz az értelmezés •Az inherens többértelműségeket őrizzük meg •Mit jelent a morfémahűség?

ÓKM morfológiai elemzés - Novák Attila12 Esettanulmány: bAn/bA

ÓKM morfológiai elemzés - Novák Attila13 Esettanulmány: bAn/bA

ÓKM morfológiai elemzés - Novák Attila14 Esettanulmány: bAn/bA

ÓKM morfológiai elemzés - Novák Attila15 Egyértelműsítés kézzel

ÓKM morfológiai elemzés - Novák Attila16 Egyértelműsítés géppel •HunPos HMM POS Tagger •Meglevő egyértelműsített szövegek morfoszintaktikai címkéiből: –címke–szóalak-statisztika –címkesorozat-statisztika •A új szövegre: –a modell szerint legvalószínűbb címkesorozatot keresi minden mondatra

ÓKM morfológiai elemzés - Novák Attila17 Egyértelműsítés géppel •A következőt optimalizálja: •A töveket a morfológiai elemző adja –a választott címkére legjobban hasonlító elemzést választjuk

ÓKM morfológiai elemzés - Novák Attila18 Min tanítsuk? •Jakab-kódexfeldolgozások –Debrecenben készültek 1978–2002 •Jókai-, Guary-, Apor- és Festetics-kódex –nincs bennük normalizált alak –olvashatatlan kódok –inkompatibilis elemzések –sok hiba

ÓKM morfológiai elemzés - Novák Attila19 Jakab-kódexkiadások

ÓKM morfológiai elemzés - Novák Attila20 Jakab-kódexkiadások

ÓKM morfológiai elemzés - Novák Attila21 Jakab-kódexkiadások

ÓKM morfológiai elemzés - Novák Attila22 Jakab-kódexkiadások

ÓKM morfológiai elemzés - Novák Attila23 Jakab-kódexkiadások

ÓKM morfológiai elemzés - Novák Attila24 Menet közbeni változtatások •Ha már vannak egyértelműsített szövegeink és változik az annotáció: [ne vesszen el a már elvégzett munka] –a leghasonlóbb elemzést választjuk –ha különbözik a korábbitól, megjelöljük –tömeges cserék reguláris kifejezésekkel

ÓKM morfológiai elemzés - Novák Attila25 Az annotáció változásai

ÓKM morfológiai elemzés - Novák Attila26 Keresés az korpuszban

ÓKM morfológiai elemzés - Novák Attila27 Néhány fejlesztés •Lehet mondaton/tagmondaton/adott tulajdonságú szövegen belül keresni •A tagmondatok lehetnek nem folytonosak •A találati egység a mondat •Lehet benne javítani •A javított korpuszt exportálni, a taggert újratanítani

ÓKM morfológiai elemzés - Novák Attila28 Javítás a keresőben

ÓKM morfológiai elemzés - Novák Attila29 Nem folytonos tagmondat

ÓKM morfológiai elemzés - Novák Attila30

ÓKM morfológiai elemzés - Novák Attila31