Korpuszok létrehozása

Slides:



Advertisements
Hasonló előadás
Ó- és középmagyar morfológiai elemző Novák Attila.
Advertisements

Az OH TÁMOP fejlesztései
Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
Szövegszerkesztési alapismeretek
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Rádai Péter Euro Nyelvvizsga Központ Top tippek az Euroexam nyelvvizsgákra készülőknek Angol B2 / C1.
A mérési rendszer fejlesztése, az érettségi rendszer átvilágítása
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A védés Ősz Rita.
Tájékoztatás a gyakorlatban avagy a gyors információtól az irodalom kutatásig Behálózott irodalom Érd, szeptember 24.
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
Fekvőbeteg adatbázis szervezés GyógyinfokPirisa Levente.
Kétszintű érettségi vizsga Magyar nyelv és irodalom Miről? Hogyan? §?! Tájékoztassuk diákjainkat!
Geodéziai mérések feldolgozása a GeoCalc programmal
Előzmények Sikeres pályázat a kézirat elkészítésére (2004) A könyv megjelenése (2006)
Monit 1 Felügyelő eljárás Modul 03 - lecke 04. Monit 2 FelügyeletFelügyelet A megfigyelések vagy mérések tervezett sorozatának végzésére irányuló tevékenység.
Gazdi László – mérnök informatikus Bsc. Tipikus viselkedési minták felismerése Bsc. Önálló labor téma Készítette: Gazdi László Konzulens:
Táblázat kezelő programok
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 14.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
Mérési pontosság (hőmérő)
A mai nap programja ig Köszöntő Polgármester Úr 5 perce Gyorsított tanév előkészítő információáradat ig integrációt segítő.
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
Adatbázis-kezelés ACCESS program:
Miskolci Egyetemi Publikációs Adatbázis Egy új szolgáltatás születése és bevezetésének problémai Kiss Andrea, Miskolci Egytem,
Eltéréselemzés Beszámolási rendszer
. Droginfo Európai Addikciós Portál Kovács Beatrix Informatio Medicata szeptember 26.
Kurt Wenner, a világ kevés utcafestőinek egyike eredeti festményeit élőben, közönség előtt készíti. Gazdagon díszített, kézzel festett pasztellképein klasszikus.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Központi Érettségi Nyílt Nap Szeptember 24.
A REKORD TIPUS Páll Boglárka. Ismétlés: Feladat Készítsünk kimutatást a XI.B osztály tanulóiról. Minden tanuló esetén a következő adatokat tartjuk nyilván:
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Gyenese Tamás, Kovács Csaba, Lux Zoltán
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Címregiszter építés kataszteri térkép alapján (és szinkronizáció)
Adatbázis-kezelés Probléma: az excel kezelhetetlen túl sok adat esetén
Levéláradat az online levelezésben Tippek, ötletek az átlátható és (általunk) ellenőrzött folyamatokért október 09.
Levelezés a Jedlikben Borbély Balázs rendszergazda-helyettes Jedlik Ányos Gimnázium.
Rádai Péter Euro Nyelvvizsga Központ Top tippek az Euroexam nyelvvizsgákra készülőknek Angol B2 / C1.
Gazdasági informatikus - Szövegszerkesztés 1 A munka véglegesítése, nyomtatás.
Keresés fajtái Matching (szabadszavas)
Szövegszerkesztés.
Digitalizálás a könyvtárban …mit, mivel, hogyan, mikor, miért, mennyire…
Szakdolgozatok kezelése a MIDRA adatbázisban. 1. lépés Feltöltés Az elkészült, végleges szakdolgozatot a szerző, vagy megbízottja feltölti a MIDRA adatbázisba.
Készítette: Kiss András
Adatbázis alapismeretek
Szövegszerkesztési alapfogalmak
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Magyar Tudományos Művek Tára (MTMT)
Cascading Style Sheet.
Elérhető magyar irodalom – olvasás? digitalizálás?
Adatbázis-kezelés 2. Relációs adatbázisok.
OVIDIUS Info-Service Co Ltd.
Vizsgaelőadás útmutató
Az internet minőségi információ halmazainak feltárásáról
MS Office Word 2010 Szövegszerkesztés.
Vizsgaelőadás útmutató
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Vizsgaelőadás útmutató
Előadás másolata:

Korpuszok létrehozása Korpuszok a nyelvészeti kutatásban– 2014. szeptember 22.

Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény” Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése) Gold standard (etalon) vs. silver standard: kézi vagy gépi jelölés

Korpusztípusok Egynyelvű Többnyelvű – párhuzamos korpusz: ugyanazok az adatok egynél több nyelven Beszédkorpusz: hanganyagok Írott nyelvi korpusz: szövegek

Korpuszépítés Mi a cél? Milyen szövegek kerüljenek bele? Tematika (jog, irodalom…) Nyelvi regiszterek (hivatalos, köznyelv, internetes nyelvhasználat…) Homogén/heterogén Milyen egyéb (meta)adatok? (idő, szerző…) Méret Nyelv Hozzáférhetőség (szerzői jogok, anonimizálás)

Annotáció Szöveg/dokumentum szintje Mondat szintje Szó/frázis szintje Levél spam/nem spam Mondat szintje Bizonytalan/tényszerű információt tartalmaz-e? Szó/frázis szintje Morfológiai elemzés Tulajdonnevek Annotáció nélkül Szógyakoriság Együtt előfordulás

Az annotáció típusa kézi félig automatikus: gépi úton bejelölt annotáció kézi javítása automatikus egyszeres: egy szövegen egy annotátor megy végig olcsóbb gyorsabb többszörös: egyazon szövegen több annotátor is teljes egészében végigmegy, egymástól függetlenül időigényesebb drágább egyetértési arány mérése

Egyetértési arány az annotátorok mennyire értettek egyet (=mennyire jelöltek ugyanúgy) adott metrika szerint Pontosság (accuracy) F-mérték (pontosság – precision, fedés – recall) Kappa az annotátorok által egyformán jelölt esetek arányát a gépi alkalmazások által elérhető felső határnak szokták tekinteni a feladat nehézségi fokának jelzése feladatfüggő!

Az annotáció formái Egy fájlban a szöveg és a jelölés (általában XML) Külön fájlban a szöveg és a jelölés (standoff/standalone) Előnyök/hátrányok: Eredeti szöveg visszanyerése Új szövegek hozzáadása Szövegek törlése

<s id="Nepszava.24.2.1">Rövidtávú— féléves— kilátásaikat illetően a cégek egész évben októberben voltak a legoptimistábbak. <choice> <sic> <w>Rövidtávú <ana> <humor><lemma>Rövidtávú</lemma><mscat>[X]</mscat></humor> <msd><lemma>Rövidtávú</lemma><mscat>[X]</mscat></msd> </ana> <anav> </anav> </w> </sic> <corr> <w>rövid <humor><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></humor> <msd><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></msd> <humor><lemma>rövid</lemma><mscat>[Nc-sn]</mscat></humor> <msd><lemma>rövid</lemma><mscat>[Nc-sn]</mscat></msd> <w>távú <humor><lemma>távú</lemma><mscat>[Afp-sn]</mscat></humor> <msd><lemma>távú</lemma><mscat>[Afp-sn]</mscat></msd> </corr> </choice>

1 _ _ _ ELL ELL _ _ 0 0 ROOT ROOT 2 Japánban Japán Japán N N SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none 1 1 OBL OBL 3 , , , , , _ _ 1 1 PUNCT PUNCT 4 ahol ahol ahol R R SubPOS=r|Deg=none|Num=none|Per=none SubPOS=r|Deg=none|Num=none|Per=none 9 9 TLOCY TLOCY 5 1960-ban 1960 1960 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 9 9 OBL OBL 6 közel közel közel R R SubPOS=x|Deg=none|Num=none|Per=none SubPOS=x|Deg=none|Num=none|Per=none 7 7 MODE MODE 7 félmillió félmillió félmillió M M SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none 8 8 ATT ATT 8 válást válás válás N N SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none 9 9 OBJ OBJ 9 mondtak mond mond V V SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n 1 1 ATT ATT 10 ki ki ki R R SubPOS=p|Deg=none|Num=none|Per=none SubPOS=p|Deg=none|Num=none|Per=none 9 9 PREVERB PREVERB 11 , , , , , _ _ 9 9 PUNCT PUNCT 12 1990-ben 1990 1990 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 1 1 OBL OBL 13 már már már R R SubPOS=x|Deg=none|Num=none|Per=none SubPOS=x|Deg=none|Num=none|Per=none 15 15 MODE MODE 14 2,6 2,6 2,6 M M SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none 15 15 NUM NUM 15 milliót millió millió M M SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none 1 1 OBJ OBJ 16 . . . . . _ _ 0 0 PUNCT PUNCT

Shadow_Riders.txt The Shadow Riders, known as the in the original Japanese language version, are a fictional group of villains in the Yu-Gi-Oh! GX anime series, appearing between episodes 29-49. Composed of seven duelists and their leader of varying origins and backgrounds who each have their own agendas, the Shadow Riders serve as the main antagonists of the series' first season, intent on resurrecting the Sacred Beasts. However, one of them returns in the fourth and final season as the true mastermind behind the mysterious attacks that take place in Duel Academy and Domino City. Shadow_Riders.txt.annotation NE_ORG 4 17 NE_MISC 48 56 NE_MISC 116 128 MWE_COMPOUND_NOUN 129 141 SENT_BOUND 170 175 NE_ORG 294 307 NE_MISC 394 407 NE_MISC_SB 401 407 MWE_LVC 527 537 MWE_LVC_VERB 527 531 MWE_LVC_NOUN 532 537 NE_LOC 541 553 NE_LOC 558 569 NE_LOC_SB 565 569 NE_ORG 576 589 NE_PER 626 638 NE_PER_SB 634 638 NE_PER 691 702 SENT_BOUND 794 803 MWE_COMPOUND_NOUN 814 825 MWE_COMPOUND_NOUN 855 872 NE_MISC 873 897 SENT_BOUND 994 1002

Annotációs eszköz előnyei Grafikus kezelői felület Ember számára értelmezhetőbb Átláthatóbb Kisebb a hibázási arány

A korpuszépítés folyamata Szövegek gyűjtése, gépi előkészítése Kézi annotálás kettős jelölés – egyetértés aránya egyszeres jelölés 3. Az eltérések feloldása, ellenőrzés a kétféle annotáció közti eltérések egyértelműsítése 4. Záró munkálatok a korpusz végső formába hozása, formai hibák javítása, a korpusz publikálása

Kézi annotálás Nyelvi háttér kidolgozása Útmutató készítése Próbaannotáció végzése (többszörösen / több emberrel) Jellemző hibák feltérképezése, javítása Útmutató javítása Indulhat az annotáció…

A korpuszok felhasználhatósága Referencia Viszonyítási pont (Gépi tanuló) algoritmusok tanítása Algoritmusok tesztelése Nyelvészeti adatok gyűjtése