Korpuszok és adatbázisok

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
Tájékoztató az emelt szintű érettségiről a 10-dik évfolyamosoknak
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Pályaválasztás 2014/15.
1 Európai Nukleáris Kutatási Szervezet Európai Részecskefizikai Laboratórium CERN: Tudomány és technológia gyorsítója.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Miért érdemes francia nyelvi képzést választani? Franciául a világ minden részén beszélnek: az öt földrészen összesen több mint 200 millió ember beszél.
Nyelv-ész-gép Új technológiák az információs társadalomban.
A BNO10 formális formális reprezentálása a GALEN alapján
A Magyar Nemzeti Szövegtár
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
Kétszintű érettségi vizsga Magyar nyelv és irodalom Miről? Hogyan? §?! Tájékoztassuk diákjainkat!
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Szemantikai elemzés okt. 4.. Mi a szemantika Eddig tárgyalt problémák / technológiák: –A szöveg / mondat szerkezetével, nyelvtani jellemzőivel foglalkoztak.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 14.
Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – április 11.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Korpusznyelvészet
Annotáció, annotációs útmutató
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Az angol nyelv diadalútja
Kimeneti követelmények a 8. osztály végén
A felsőoktatási intézmények felvételi eljárása A 237/2006. (XI. 27.) Kormányrendelet alapján.
Műszaki tudományok az interneten
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
Bagaméri Zsuzsanna, BME Nyelvvizsgaközpont
Szótárak: fajták és tipologizálás
A könyvtárak szerepe az információs társadalomban
Könyvtár egy kicsit másképp - a Magyar Elektronikus Könyvtárról és legújabb fejlesztéseiről Szombathely, Góczán Andrea OSZK, MEK osztály.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
A Magyar Nemzeti Szövegtár
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Idegen nyelvek tanulása
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
A WEB ARCHÍVUMOK KÉRDÉSKÖRE KÖNYVTÁRI ÉS TÁJÉKOZTATÁSI SZEMPONTBÓL.
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
RDF sémák. RDF  URI-val azonosított erőforrások  Hármasok a kapcsolatrendszer leírására  Egyszerű lekérdezések (rdf:type)  Következtetésre nem alkalmas.
1 A Nyelvi Tesztelés és Értékelés Európai Egyesülete (EALTA)
Klasszikus héber nyelv 4.: Szintaxis
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Vásárhelyi Pál kereskedelmi Szakközépiskola
Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 21.
A MEK2.0 magyar digitális könyvtári alkalmazása - eleMEK Moldován István OSZK MEK osztály ”Networkshop” Pécs, április
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
A Francia Tanszék 50 kredites képzési formái az alapképzésben (BA)
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Korpusznyelvészet és releváns társterületeik Pintér Tibor.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban – 2013. október 24.

Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció Wall Street Journal (WSJ) Üzleti nyelv Egyes részei kézzel annotálva (morfológia, szintaxis) Reuters ~100 millió szövegszó dokumentumok, bekezdések határai Gigaword korpusz 2 milliárd szó Penn TreeBank 5 millió szövegszó szófaji kód szintaktikai elemzés (konstituensfa) Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval (szemantika)… néhány százezer szövegszó

Magyar Nemzeti Szövegtár (MNSZ) 187,6 millió szövegszó Sajtó, szépirodalom, tudományos, hivatalos, személyes szövegek Határon túli nyelvváltozatok is Automatikus szótövezés és szófaji elemzés Gigaword verzió (1 milliárd szövegszó) hamarosan elérhető… http:/corpus.nytud.hu/mnsz

Webkorpusz több mint 1,48 milliárd szó (szűretlenül, illetve 589 millió megszűrt szó) jelenleg a legnagyobb magyar nyelvű korpusz 18 millió weboldal (.hu) http://mokk.bme.hu/resources/webcorpus

Párhuzamos korpuszok olyan két- vagy többnyelvű korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek Bekezdés-, mondat- vagy szószinten párhuzamosított szövegek Alkalmazási lehetőségek: fordítástudomány, kontrasztív nyelvészet, gépi fordítás…

Néhány párhuzamos korpusz Hansard: angol-francia 1984: közép- és kelet-európai nyelvek Hunglish: magyar-angol SzegedParalell: magyar-angol HunOr: magyar-orosz

Szegedi korpuszok Szeged Treebank Szeged Dependencia Treebank Magyar WordNet Bizonytalanságra annotált korpuszok Tulajdonnévkorpuszok Lemmatizált tulajdonnevek Többszavas kifejezések korpuszai Jelentés-egyértelműsített korpusz Kutatói adatok HTML korpusza SzegedParalell HunOr Véleménydetekciós korpusz Kulcsszókinyerési korpuszok HunLearner http://www.inf.u-szeged.hu/rgai/nlp_download

Szeged (Dependencia) Treebank 82 000 mondat 1,5 millió szövegszó 230 000 írásjel 6 domén iskolai fogalmazások számítógépes szövegek irodalom jogi szövegek újságcikkek üzleti rövidhírek Kézzel ellenőrzött morfológiai és szintaktikai (konstituens és függőségi) elemzés, névelemek, félig kompozicionális szerkezetek (FX) http://www.inf.u-szeged.hu/rgai/SzegedTreebank

WordNet Lexikális adatbázis Fogalmak hálóba rendezve különféle relációk alapján Angol: Princeton WordNet (PWN) Más nyelvekre is: EuroWordNet, BalkaNet stb. Magyar: Hungarian WordNet (HuWN)

A HuWN bemutatása 40 000 synset (általános ontológia) + 2000 üzleti nyelvi, ill. 650 jogi nyelvi synset (szakontológia) Főnevek Igék Melléknevek Határozószók Alapelv: ahol csak lehet, a PWN-nek megfeleltetni a synseteket http://www.inf.u-szeged.hu/rgai/HuWN

WSD korpusz Jelentés-egyértelműsítés A WordNet építése mellett elkészült Szegeden az első (Lexical Sample) tanítókorpusz magyarra (finom jelentésmegkülönböztetés) 39 szóalak szóalakonként 300-500 címkézett példa 6 melléknév: anyagi, élő, erős, képes, pontos, szociális 21 főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz 12 ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik http://www.inf.u-szeged.hu/rgai/corpus_hunwsd

NE-korpuszok CoNL-verseny normáit követi ORG / LOC / PER / MISC osztályok ~220 000 szövegszó (SZK üzleti hírek) ~470 000 szövegszó (HVG-cikkek) Szó szerinti (tag-for-tag) Metonimikus jelölés (tag-for-meaning) http://www.inf.u-szeged.hu/rgai/corpus_ne

SzegedParalell Magyar-angol párhuzamos korpusz Kézzel párhuzamosított bekezdés és mondat szinten: nyelvkönyvek EU-s szövegek Kétnyelvű újságok irodalom 99.000 mondatszintű egység Egy része FX-ekre annotálva http://www.inf.u-szeged.hu/rgai/corpus_paralell

Bizonytalanságra annotált korpuszok BioScope (20K mondat) Orvosi szövegek Biológiai absztraktok Biológiai cikkek CoNLL-2010 Shared Task korpuszok (Biológiai cikkek (18K mondat) + Wikipedia-szócikkek (20K mondat) ) Szeged Uncertainty Corpus Újraannotált CoNLL-2010 + FactBank Egységes annotációs elvek WikiWeasel 2.0: diskurzusszintű bizonytalanság hUnCertainty: magyar korpusz (9500 mondat) http://www.inf.u-szeged.hu/rgai/uncertainty

MWE-korpuszok Többszavas kifejezések Wiki50 korpusz: 50 angol Wikipedia-szócikk (4700 mondat) MWE-k és NE-k kézzel jelölve Szeged Treebankben és SzegedParalell egy részében FX-ek JRC-Acquis jogi párhuzamos korpuszban FX-ek angol, német, spanyol és magyar nyelven (~100K token minden nyelven) http://www.inf.u-szeged.hu/rgai/mwe

HunLearner Középhaladó és haladó szintű tanulók fogalmazásai Horvát vagy észt anyanyelv Számítógépen, szótár és nyelvkönyv nélkül írt fogalmazások 1400 mondat Főnévi morfológiai hibák jelölve http://www.inf.u-szeged.hu/rgai/hunlearner

Véleménydetekciós korpusz Népszavazás a kettős állampolgárságról 1294 fórumhozzászólás Igennel/nemmel szavazna – érvénytelenül szavaz – nem releváns kategóriák szerint felcímkézve http://www.inf.u-szeged.hu/rgai/corpus_forum