Korpusznyelvészet és releváns társterületeik Pintér Tibor.

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

Keresés a számítógépes katalógusokban
Ó- és középmagyar morfológiai elemző Novák Attila.
A korpusz alapú szótár alapja: a korpusz
A művészet autonómiája a tömegkultúra és szépség határán
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tájékoztató az Anglisztika MA-ról Cser András PPKE BTK Angol Intézet október 9.
A Magyar Nemzeti Szövegtár
Az iskolai könyvtár állománya
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
A magyar nyelvtörténet korszakai
Általános könyvtárismeret
A kétnyelvűség kialakulása és fejlődése
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Nyelvi adatok és az adatgyűjtés módszertana
Annotáció, annotációs útmutató
MTA-DE-PTE-SZTE Elméleti Nyelvészeti Kutatócsoport Szegedi Munkacsoport 2007–2011 Bibok Károly, Maleczki Márta, Nagy Katalin, Németh T. Enikő, Vecsey Zoltán.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Operációs rendszerek gyakorlat Reguláris kifejezések.
Operációs rendszerek gyakorlat. Reguláris kifejezések.
Számítógépes lexikográfia.  drámai változás a lexikográfiában: a számítógépek megjelenése  1970-es évek: nyomda és könyvkiadás  computerizált szakasz.
A szócikk.
Szótárak: fajták és tipologizálás
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Óvodáskorú gyermekek szóaktiválásának funkcionális vizsgálata
A Magyar Nemzeti Szövegtár
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1. Bevezetés a tárgy célja: azoknak az eszközöknek és módszereknek a megismertetése és begyakoroltatása, melyek az érvelések megértéséhez, elemzéséhez,
Idegen nyelvek tanulása
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
A dokumentumrögzítés története:
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Bevezetés Előadó: Blasszauer János Kaposvár, január 14.
Az internetes keresési módszerek
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
A szövegértés diagnosztizálása és fejlesztése
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
Szövegszerkesztés.
Adatkeresés az interneten
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
A generatív nyelvelmélet
KERESÉS ELEKTRONIKUS KÖNYVTÁRI KATALÓGUSOKBAN Kiss Annamária Semmelweis Egyetem Központi Könyvtár 2013.
17 ISMERTESSE AZ INTERNETES KERESÉSI MÓDSZEREKET! KONKRÉT GYAKORLATI PÉLDA KERESÉSRE.(KERESÉS, TALÁLATI LISTA ÉRTELMEZÉSE, TALÁLT OLDAL MENTÉSE.) Készítette:
Keresési módszerek könyvtári katalógusokban. A könyvtári katalógus funkciója A könyvtár állományában meglévő dokumentumok feltárása Az egyes példány adatainak.
Bevezetés a nyelvtudományba 1
Flashcards Tátrai Szilveszter 10/2.
Nyelvi adatok és az adatgyűjtés módszertana
Logika szeminárium Barwise-Etchemendy: Language, Proof and Logic
A stílus.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Prószéky Gábor MANYE MTA Magyar Nyelvi Osztályközi Állandó Bizottság
Elektronikus szótárhasználat
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
A gépi beszédfelismerés kezdeti kutatásai
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
A civil szervezetek hatásméréséről
Előadás másolata:

Korpusznyelvészet és releváns társterületeik Pintér Tibor

1. Korpuszok és társterületeik 2. A korpusznyelvészet és szociolingvisztika releváns érintkezési területei 3. A korpusznyelvészet és lexikográfia releváns érintkezési területei 5. EFNILEX-szótárak 6. Korpusznyelvészet és a saját kutatási téma közös vetületei

Korpuszok és társterületeik Felhasználásuk a korpuszok fejlettségétől függ. kézzel készített korpuszok számítógépes korpuszok Annotáltság mértéke morfológia Szintaxis szemantika ?? corpus design (nem, kor, nyelvváltozatok stb.)

Alapvetően a következő társterületek fontosak: Nyelvtörténet (19. század) diakrón változások egy nyelv (HHC) két nyelv (grimm-törvény bizonyítása) Nyelvtanírás (19. század) morfológia, szintaxis (gyakoriság) Somorjába ~ Somorjára, vonzatok, valencia a gyakori a jobb?? Google-helyesírás

Lexikográfia (lexikológia) regiszter, stílus, változatok fecstej (1; ) fn föcstej Mezőg Tehénnek a borjazás utáni első, sűrű teje. | ritk Előtej. [« feccsen+tej] (ÉKSz 2 ) Oxford English Dictionary KWIC-konkordanciák Osiris Helyesírás – gyakoriság egy- és kétnyelvű szótárak (EFNILEX)

Szociolingvisztika változatok minden szinten (annotációtól függ a kutatás tárgya) nyelvváltozatok (MNSz – mo~ht, regiszerek) gendernyelvészet szinkrónia ~ diakrónia diakrónia = ≠ nyelvtörténet

Pszicholingvisztika 20. század – gyermeknyelv, nyelvelsajátítás idegennyelv-elsajátítás affáziakutatás Számítógépes nyelvészet NLP-alkalmazások fejlesztése gépi fordítás tanulókorpuszok párhuzamos koruszok – szövegszintű egyeztetés (alignment)

A korpusznyelvészet és szociolingvisztika relaváns érintkezsi területei A (kvantitatív) szociolingvisztika alapelve az adatorientáltság, így elkerülhetetlenek a korpuszok. Első szociolingvisztikai céllal készüt koruszokat rég a számítógépes korpuszok előtt használták

Korpuszok használatának célja a szociolingvisztikában: változók változatainak keresése szociális státusz, nem, kor, nyelvváltozat, stílus, etnicitás (angol nyelvterület) saját korpus ~ közös korpusz

Általában saját korpusz használatának előnyben részesítése a meglévők előtt. saját kutatási célra készített korpusz Bár általában azonosak a keresés paraméterei: szociális státusz, iskolázottság, nem, kor, nyelvváltozat, stílus, etnicitás (angol nyelvterület) Keresett fenomenon: szó, szókapcsolat, diskurzus, diskurzusjelölő

fő cél a beszélt nyelvi korpusz a leírt szövegekből könnyen lehet mennyiségi mutatót készíteni XML-annotáció bármi kódolható, az látszik, amit akarunk, könnyen kereshető, lekérdezhető

Magyar nemzeti szövegtár struktúrája: regiszterek: publicisztikai szépirodalmi hivatalos nyelvi tudományos „élőnyelvi” területi nyelvváltozat: hu, er, fv, ka, va ??mv, őv, dr

Korlátok, korlátozások mindent azért nem lehet. Miért? 1. a korpuszok általában a nyelv írott változatait dolgozzák fel, és standardközpontúak. Elsősorban grammatikai és lexikológiai kutatásokat segítenek. 2. a korpuszok általában azokat a fontos információkat nem tartalmazzák, amire a szociolingvistának szüksége van státusz, kor, iskolázottság, nem stb

A korpusznyelvészet és lexikográfia releváns érintkezési területei A mai szótárak készítésénél elképzelhetetlen a korpusz használata. 1.kvalitatív és kvantitatív bizonyítás 2.címszóválasztás 3.korpuszkezelő eszközök

A korpuszok használata különbözik/különbözhet szótártípusonként: kommunikáció-orientált szótárak általános korpusz tudásorientált szótárak speciális korpusz A korpusz kiválasztásánál szükséges ismerni a szótár célközönségének kívánalmait

Ezek befolyásolják a korpusz kiválasztását milyen típusú szövegek kellenek egyéb kritériumok: autenticitás, kiegyensúlyozottság, adatgyűjtés módszere, reprezentativitás (??) a kinyert adatok formáját (címszó + jelentések + grammatikai információ)

Mekkora korpusz kell a lexikográfusoknak? Den Danske Odbog – 68 millió token Digitales Wörterbuch der deutschen Sprache – 1000 millió token Magyar értelmező kéziszótár – 187 millió token A magyar nyelv nagyszótára – 400 millió token BNC (British National Corpus) – 100 millió token Käding, F. W. (1897), Häufigkeitswörterbuch der deutschen Sprache. Berlin: Privately published. – 11 millió token (80 ember gyűjtése)

Korpusz kihasználása: a szótár címszavainak nem szabadna a korpuszban 5-nél kevesebbszer előfordulni (kicsit sántít az összehasonlítás, mert nem volt korpusz, sok benne a nyelvjárási szó) Éksz 2 (MNSZ) 0: : : : : :

Korpusz kihasználása: egy – címszavas szótárhoz 60 – 100 millió szavas korpusz elég Éksz 2 : MNSZ = : Speciális szótárak: 1-2 ezer vagy pár száz címszó Ezért fontos a megfelelő célkorpusz kiválasztása

Kétnyelvű szótárak: párhuzamos korpuszok Valóban jók? pontos párhuzamosítás – általában mondatszinten, utána szószinten Valóban jók? a fordítás általában egy vagy kevés számú fordítóhoz kötött a fordítás milyenségét befolyásolja a kontextus

Internet mint potencionális adatforrás: két fő probléma: nem megfelelő minőség kevés és rendszertelen metaadat szövegek inkonzisztenciája sok az ismétlés, redundancia, más szövegek idézése

Címszó kiválasztása: gyakori indok, hogy a friss szóanyagot feldolgozó korpusz friss címszólistát ad felkapott lekszikográfiai reklámfogás az új szavak és divatszavak felvétele Gyakoriság a címszóválasztásnál: így viszont a divatszók nem találhatók meg

Fontos, hogy a gyakorisági mutatók mellett egyéb metaadatokat is tartalmaznak: pl. stílus, regiszter, megjelenés ideje, szerző A gyakorisági listát óvatosan kell kezelni: figyelni kell a betűk proporcionális megoszlására (szófajokéra is) nem kezeli tisztességesen a hominímiát (poliszémiát sem) csak egy-egy szóra ad választ, általában nem kezeli a szintaktikai egységeket (vonzatok)

Viszont segít a peldamondatok kiválasztásánál: teljes átvétel módosítás értelmezőszótár? Éksz 2 ? A magyar nyelv nagyszótára? kétnyelvű szótárak? Irodalmi vs. köznyelvi példák

Korpuszeszközök a lexikográfiában gyakorisági listák konkordanciakészítők kontextus metaadatok (találatokéi) Amit az eszközöknek minimálisan tudni kell: tokenizálás (szó- és mondathatárok felismerése) tövesítés szófajosítás (part-of-speech tagging)

Konkordanciák: általában korpuszonként változik, hogy mire lehet keresni (keresési opciók) fontos, hogy a gyakorisági listák mellett a metaadatokat is közöljék XML + reguláris kifejezések.?*\/^

Korpusznyelvészet profitálása a lexikográfiából: NLP – nyelvtanok és szótárak felhasználása szófajok annotálása, vonzatkeresés

Magyar nemzeti szövegtár corpus.nytud.hu/mnsz Termini magyar-magyar szótár ht.nytud.hu/htonline

Kutatási téma? Kérdések?