Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 14.

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
A mérési rendszer fejlesztése, az érettségi rendszer átvilágítása
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Felhasználói felületek és üzleti logika Bollobás Dávid ASP.NET
Nyelv-ész-gép Új technológiák az információs társadalomban.
A Magyar Nemzeti Szövegtár
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
Kétszintű érettségi vizsga Magyar nyelv és irodalom Miről? Hogyan? §?! Tájékoztassuk diákjainkat!
2010/2011.Huszár István1. dia Weboldalak tervezése II. (X)HTML.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – április 11.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Korpusznyelvészet
Annotáció, annotációs útmutató
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
Informatika tanítása ea.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Kimeneti követelmények a 8. osztály végén
1 A magyar gazdaság helyzete, perspektívái 2008 tavaszán Dr. Papanek Gábor Előadás Egerben május 7.-én.
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
Vizuális és web programozás II.
PHP I. Alapok. Mi a PHP? PHP Hypertext Preprocessor Szkriptnyelv –Egyszerű, gyors fejlesztés –Nincs fordítás (csak értelmező) Alkalmazási lehetőségek:
A könyvtárak szerepe az információs társadalomban
Könyvtár egy kicsit másképp - a Magyar Elektronikus Könyvtárról és legújabb fejlesztéseiről Szombathely, Góczán Andrea OSZK, MEK osztály.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Miből tanulnak a számítógépek magyar nyelvtant? Alexin Zoltán, PhD. Szegedi Tudományegyetem,
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
A Magyar Nemzeti Szövegtár
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Az információ-technológia alapfogalmai
Konzultációs nap – Minőségfejlesztési Iroda szeptember 18. Fekete Krisztina Fókuszban a formahibák.
Idegen nyelvek tanulása
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Vida Andrea SZTE Egyetemi Könyvtár
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Weboldalak tervezése (X)HTML.
Adatbázis-kezelés Probléma: az excel kezelhetetlen túl sok adat esetén
Internet, Elektronikus levelezés
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Levelezés a Jedlikben Borbély Balázs rendszergazda-helyettes Jedlik Ányos Gimnázium.
Korpuszok létrehozása
Fordítás természetes nyelvről FOL-ra Kvantifikáló kifejezések: Néhány/Egy F   x( F(x)  …) Minden G   x( G(x)  …) Két H   x  y( H(x)  H(y)  …)
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 21.
A MEK2.0 magyar digitális könyvtári alkalmazása - eleMEK Moldován István OSZK MEK osztály ”Networkshop” Pécs, április
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Keresés fajtái Matching (szabadszavas)
Digitalizált információk rendszerezése. A publikus hozzáférés biztosítása az Internet segítségével. Dokumentumkezelés, információ digitalizálás OMA konferencia.
Informatika tanítása ea. Csernoch Mária
Digitalizálás a könyvtárban …mit, mivel, hogyan, mikor, miért, mennyire…
Webszerkesztés. IP cím pl: Domain cím - DNS pl: ország nevehttp:// számítógép címe World Wide Web Webszerverre.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
18. óra A Word-ről tanultuk….
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 14.

Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény” Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése)

Korpusztípusok Egynyelvű Többnyelvű – párhuzamos korpusz: ugyanazok az adatok egynél több nyelven Beszédkorpusz: hanganyagok Írott nyelvi korpusz: szövegek

Korpuszépítés Mi a cél? Milyen szövegek kerüljenek bele? –Tematika (jog, irodalom…) –Nyelvi regiszterek (hivatalos, köznyelv…) –Homogén/heterogén Méret Nyelv Hozzáférhetőség (szerzői jogok)

Annotáció Szöveg/dokumentum szintje –Levél spam/nem spam Mondat szintje –Bizonytalan/tényszerű információt tartalmaz- e? Szó/frázis szintje –Morfológiai elemzés –Tulajdonnevek Annotáció nélkül –Szógyakoriság –Együtt előfordulás

Az annotáció típusa kézi félig automatikus: gépi úton bejelölt annotáció kézi javítása automatikus egyszeres: egy szövegen egy annotátor megy végig –olcsóbb –gyorsabb többszörös: egyazon szövegen több annotátor is teljes egészében végigmegy, egymástól függetlenül –időigényesebb –drágább –egyetértési arány mérése

Egyetértési arány az annotátorok mennyire értettek egyet (=mennyire jelöltek ugyanúgy) adott metrika szerint –Pontosság (accuracy) –F-mérték (pontosság – precision, fedés – recall) –Kappa az annotátorok által egyformán jelölt esetek arányát a gépi alkalmazások által elérhető felső határnak szokták tekinteni a feladat nehézségi fokának jelzése feladatfüggő!

Az annotáció formái Egy fájlban a szöveg és a jelölés (általában XML) Külön fájlban a szöveg és a jelölés (standoff/standalone) Előnyök/hátrányok: –Eredeti szöveg visszanyerése –Új szövegek hozzáadása –Szövegek törlése

Rövidtávú— féléves— kilátásaikat illetően a cégek egész évben októberben voltak a legoptimistábbak. Rövidtávú Rövidtávú [X] Rövidtávú [X] rövid rövid [Afp-sn] rövid [Afp-sn] rövid [Nc-sn] távú távú [Afp-sn] távú [Afp-sn]

1___ELLELL__00 ROOTROOT 2JapánbanJapánJapánNN SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none11OBL OBL 3,,,,,__11 PUNCTPUNCT 4aholaholaholRRSubPOS=r|Deg=none|Num=none|Per=none SubPOS=r|Deg=none|Num=none|Per=none99TLOCYTLOCY ban MM SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none99OBL OBL 6közelközelközelRRSubPOS=x|Deg=none|Num=none|Per=none SubPOS=x|Deg=none|Num=none|Per=none77MODEMODE 7félmilliófélmilliófélmillióMM SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none88ATT ATT 8válástválásválásNN SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none99OBJ OBJ 9mondtakmondmondVVSubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n11ATTATT 10kikikiRRSubPOS=p|Deg=none|Num=none|Per=none SubPOS=p|Deg=none|Num=none|Per=none99PREVERBPREVERB 11,,,,,__99 PUNCTPUNCT ben MM SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none11OBL OBL 13mármármárRRSubPOS=x|Deg=none|Num=none|Per=none SubPOS=x|Deg=none|Num=none|Per=none1515MODEMODE 142,62,62,6MM SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none1515NUM NUM 15milliótmilliómillióMM SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none11OBJ OBJ __00 PUNCTPUNCT

Shadow_Riders.txt The Shadow Riders, known as the in the original Japanese language version, are a fictional group of villains in the Yu-Gi-Oh! GX anime series, appearing between episodes Composed of seven duelists and their leader of varying origins and backgrounds who each have their own agendas, the Shadow Riders serve as the main antagonists of the series' first season, intent on resurrecting the Sacred Beasts. However, one of them returns in the fourth and final season as the true mastermind behind the mysterious attacks that take place in Duel Academy and Domino City. Shadow_Riders.txt.annotation NE_ORG417 NE_MISC4856 NE_MISC MWE_COMPOUND_NOUN SENT_BOUND NE_ORG NE_MISC NE_MISC_SB MWE_LVC MWE_LVC_VERB MWE_LVC_NOUN NE_LOC NE_LOC NE_LOC_SB NE_ORG NE_PER NE_PER_SB NE_PER SENT_BOUND MWE_COMPOUND_NOUN MWE_COMPOUND_NOUN NE_MISC SENT_BOUND

Annotációs eszköz előnyei Grafikus kezelői felület Ember számára értelmezhetőbb Átláthatóbb Kisebb a hibázási arány

A korpuszépítés folyamata 1.Szövegek gyűjtése, gépi előkészítése 2.Kézi annotálás –kettős jelölés – egyetértés aránya –egyszeres jelölés 3. Az eltérések feloldása, ellenőrzés –a kétféle annotáció közti eltérések egyértelműsítése 4. Záró munkálatok –a korpusz végső formába hozása, formai hibák javítása, a korpusz publikálása

A korpuszok felhasználhatósága Referencia Viszonyítási pont (Gépi tanuló) algoritmusok tanítása Algoritmusok tesztelése Nyelvészeti adatok gyűjtése

Angol nyelvű korpuszok British National Corpus (BNC) Wall Street Journal (WSJ) Reuters –~100 millió szövegszó –dokumentumok, bekezdések határai Gigaword korpusz –2 milliárd szó Penn TreeBank –5 millió szövegszó –szófaji kód –szintaktikai elemzés (konstituensfa) Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval (szemantika)… –néhány százezer szövegszó

Magyar Nemzeti Szövegtár (MNSZ) 187,6 millió szövegszó Sajtó, szépirodalom, tudományos, hivatalos, személyes szövegek Határon túli nyelvváltozatok is Automatikus szótövezés és szófaji elemzés Gigaword verzió (1 milliárd szövegszó) hamarosan elérhető…

Szeged (Dependencia) Treebank mondat 1,5 millió szövegszó írásjel 6 domén –iskolai fogalmazások –számítógépes szövegek –irodalom –jogi szövegek –újságcikkek –üzleti rövidhírek Kézzel ellenőrzött morfológiai és szintaktikai (konstituens és függőségi) elemzés, névelemek, félig kompozicionális szerkezetek

Webkorpusz több mint 1,48 milliárd szó (szűretlenül, illetve 589 millió megszűrt szó) jelenleg a legnagyobb magyar nyelvű korpusz 18 millió weboldal (.hu) corpushttp://mokk.bme.hu/resources/web corpus

Párhuzamos korpuszok olyan két- vagy többnyelvű korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek Bekezdés-, mondat- vagy szószinten párhuzamosított szövegek Alkalmazási lehetőségek: fordítástudomány, kontrasztív nyelvészet, gépi fordítás…

Néhány párhuzamos korpusz Hansard: angol-francia 1984: közép- és kelet-európai nyelvek Hunglish: magyar-angol SzegedParalell: magyar-angol HunOr: magyar-orosz

Szegedi korpuszok Szeged Treebank Szeged Dependencia Treebank Magyar WordNet Bizonytalanságra annotált korpuszok Tulajdonnévkorpuszok Lemmatizált tulajdonnevek Többszavas kifejezések korpuszai Jelentés-egyértelműsített korpusz Kutatói adatok HTML korpusza SzegedParalell HunOr Véleménydetekciós korpusz Kulcsszókinyerési korpuszok HunLearner