Vincze Veronika vinczev@inf.u-szeged.hu Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika vinczev@inf.u-szeged.hu Korpuszok a nyelvészeti kutatásban – 2016. szeptember 20.
Bevezetés Nyelvészeti kutatásmódszertan Adatorientált / elméletorientált módszerek Kompetencia / performancia Honnan származnak a nyelvi adatok?
Adatgyűjtés Intuíció alapján Adatközlőktől gyűjtött adatok Korpuszok
Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény” Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése) Korpusznyelvészet: korpuszban található nyelvi adatok elemzése
Korpusztípusok Egynyelvű Többnyelvű – párhuzamos korpusz: ugyanazok az adatok egynél több nyelven Beszédkorpusz: hanganyagok Írott nyelvi korpusz: szövegek
Szegedi korpuszok Szeged Treebank Szeged Dependencia Treebank Bizonytalanságra annotált korpuszok Tulajdonnévkorpuszok Lemmatizált tulajdonnevek Többszavas kifejezések korpuszai Jelentés-egyértelműsített korpusz Kutatói adatok HTML korpusza SzegedParalell HunOr Véleménydetekciós korpusz Kulcsszókinyerési korpuszok HunLearner http://rgai.inf.u-szeged.hu/nlp_download
Kutatási témák Saját BA-szakdolgozat / MA-szakdolgozati téma? Milyen korpusz lenne/lett volna hasznos? Létezik-e?
A kurzus célja Miként használatosak a korpuszok és egyéb nyelvi adatbázisok a nyelvészeti kutatásban? A nyelvi adatgyűjtés módszertani követelményeinek áttekintése A korpuszépítés különböző lépései A korpuszból való adatgyűjtés módjai Adatok statisztikai elemzése
Tematika Nyelvi adatok, az adatgyűjtés módszertana Korpuszok és adatbázisok Korpuszépítés, annotáció, nyelvi elemzés Adatgyűjtés korpuszból Statisztikai elemzések
Követelmények Saját minikorpusz létrehozása Az abból kigyűjtött adatok rendszerezése, statisztikai elemzése A projekt bemutatása a félév végén Beadandó: a kész korpusz + az elemzés leírása
Menetrend Saját korpusz megtervezése: november 11. Beadandó leírás elkészítése: december 4. Bemutató tartása: december 6.
Elérhetőség A kurzus anyaga elérhető: http://www.inf.u-szeged.hu/~vinczev/oktatas.html MTA-SZTE Mesterséges Intelligencia Kutatócsoport 6720 Szeged, Tisza Lajos krt. 103. 45/b szoba Telefon: +36 62 544 140 Fogadóóra: előzetes egyeztetés alapján