Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

A mondatelemzés modern útjai
A mondat szintagmatikus szerkezete
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A Magyar Nemzeti Szövegtár
Könyvtári digitális tartalmak az oktatási multimédiák számára
2010/2011.Huszár István1. dia Weboldalak tervezése II. (X)HTML.
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Történelem az Interneten Aranyi Zoltán SZTE Egyetemi Könyvtár
Történelem az Interneten Aranyi Zoltán SZTE Egyetemi Könyvtár
Annotáció, annotációs útmutató
Történelem az Interneten Aranyi Zoltán SZTE Klebelsberg Könyvtár
Távoli online adatbázisok használata és FTP
HTML (HiperText Mark-Up Language)
A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból,
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
Microsoft szoftverek a szakképzésben
Önleíró adatok: XML INFO ÉRA, Békéscsaba
Készítette: Kiss Vilmos 7/A. osztály
A szófajok.
WEB Technológiák WEB-DB és XML ME Általános Informatikai Tsz. dr. Kovács László.
1 Bevezetés a funkcionális programozásba 2009.
Dr. Kokas Károly, SZTE EK Sajtódigitalizálás: hol tartunk? merre megyünk?
Túrkeve, Digitális gyűjtemény kialakítása Moldován István OSZK Digitális Gyűjtemény
Könyvtár egy kicsit másképp - a Magyar Elektronikus Könyvtárról és legújabb fejlesztéseiről Szombathely, Góczán Andrea OSZK, MEK osztály.
2009. április 24.XVI.Budapesti Nemzetközi Könyvfesztivál Kereslet és kínálat e-book témában Moldován István OSZK.
Bánkeszi Katalin Egyházi Könyvtárak Egyesülése Országos Széchényi Könyvtár Digitalizálás Mit? Miért? Hogyan? Mivel? Továbbképzés Budapest,
Nyílt könyvtári gyűjtemények az Interneten Szabványos metaadatok: átjárhatóság Tapolcai Ágnes MEK Osztály.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Ezúton is szeretnénk felhívni a figyelmeteket a legújabb, a pedagógiai munkátok során is felhasználható Internetes oldalakra és szolgáltatásokra! Ezúton.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Miből tanulnak a számítógépek magyar nyelvtant? Alexin Zoltán, PhD. Szegedi Tudományegyetem,
A Magyar Nemzeti Szövegtár
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
és segíteni az embereket, akik hozzá akarnak férni ezekhez.
A WEB ARCHÍVUMOK KÉRDÉSKÖRE KÖNYVTÁRI ÉS TÁJÉKOZTATÁSI SZEMPONTBÓL.
Weboldalak tervezése (X)HTML.
Összeállította: Dóber Valéria
IKTA-27/2000 Magyar nyelvi szófaji egyértelműsítő módszer fejlesztése gépi tanulási algoritmusok felhasználásával A projekt időtartama: szeptember.
XML adatkezelés 1. témakör Az XML szabvány.
Klasszikus héber nyelv 4.: Szintaxis
XML Mi az XML?  Extensible Markup Language  Kiterjeszthető jelölő nyelv  Adatok, adatstruktúrák leírására szolgál  A HTML és az SGML tapasztalataira.
Egyházi Könyvtárak Egyesülése Pécs, június 28. Szakmai továbbképzés.
Szeged, április 16. CACAO projekt katalógusok, digitális könyvtárak lekérdezése saját nyelven Moldován István Országos.
A MEK2.0 magyar digitális könyvtári alkalmazása - eleMEK Moldován István OSZK MEK osztály ”Networkshop” Pécs, április
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
A digitális kötelespéldányok kezelése DIGITALIZÁLÁS LÉPÉSRŐL-LÉPÉSRE Budapest, november Horváth Ádám OSZK.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
A digitális kompetencia mérése. IKT-alapú értékelés
Káldos János Országos Széchényi Könyvtár Magyar Elektronikus Könyvtár.
TÁMOP B.2-13/ Szakmai szolgáltató és kutatást támogató regionális hálózatok a pedagógusképzésért az Észak-Alföldi régióban SZÖVEGKOMPETENCIA-FEJLESZTÉS.
Informatika tanítása ea. Csernoch Mária
E-könyvtári újdonságok Drótos László Drótos László OSZK MEK Osztály.
Rétegmentesítés megvalósítása XML segítségével Kovács Máté.
Lente Tamás Méliusz Juhász Péter Könyvtár
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Leíró nyelvtan - adatbázisból
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt 2017.04.04.

Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés Főnévi csoportok (NP) felismerés 2017.04.04.

A Szövegfeldolgozás célja Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat 2017.04.04.

Nyelvi adatbázisok I. A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2017.04.04.

Nyelvi adatbázisok II. Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat. A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár. BNC (British National Corpus, http://www.natcorp.ox.ac.uk) OTA (Oxford Text Archive, http://ota.ahds.ac.uk) Gutenberg project, http://www.gutenberg.org) ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) PubMed (http://www.pubmed.gov) JRC Acquis Corpus (http://langtech.jrc.it/JRC-Acquis.html) 2017.04.04.

Nyelvi adatbázisok III. Magyar szövegtárak MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) Szószablya (http://www.szoszablya.hu) eMagyarország (http://www.magyarorszag.hu) Parlament (http://www.parlament.hu) Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu) 2017.04.04.

Nyelvi adatbázisok IV. Számítógépes nyelvészeti adatbázisok LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu), ELRA (European Language Resources Association, http://www.elra.info), MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) Szeged Korpusz (http://www.inf.u-szeged.hu/hlt) 2017.04.04.

Nyelvi adatbázisok IV. A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2017.04.04.

Szófaji kódolás Multext-East EU projekt 1995-97. (http://nl.ijs.si/ME/) A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata Jellemzői: Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik Az értékek egyetlen karakterrel vannak kódolva 2017.04.04.

MSD kódrendszer Példa: Főnevek (Noun) – N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd Pozíció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2 Típus köznév (common) tulajdonnév (proper) c p 3 Nem - 4 Szám egyes (singular) többes (plural) s p Ø -k; -i, -ai/-ei, -jai/-jei; -ék asztal(om) asztalok, asztalaim szomszédék 5 Eset alany (nominative) tárgy (accusative) birtokos (genitive) részes (dative) n a g d Ø -t Ø, -nak/-nek -nak/-nek asztal(om) asztal(oma)t asztalnak asztalnak 2017.04.04.

MSD kódrendszer Példa: Igék (Verb) – V foglalnának: Vmcp3p Pozíció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2 Típus fő (main) segéd (auxiliary) m a fog 3 Mód/forma kijelentő (indicative) felszólító (imperative) feltételes (conditional) főnévi igenév (infinitive) i m c n Ø -j, -jj, -gy, -ggy -(n)na/-(n)ne, -ana/-ene -ni 4 Idő jelen (present) múlt (past) p s -t/-tt/-ott/-ett 5 Személy első (1) második (2) harmadik (3) 1 2 3 várok vársz vár 2017.04.04.

A Szintaxis modellezése Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet, 2017.04.04.

Speciális (nyílt) tokenosztályok 2017.04.04.

Tulajdonnevek Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRK http://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése. személynevek (a kereszt és vezetéknevek adatbázisát felhasználva, az id. ifj. özv. dr. prof. asszonynév (-né), ... képzési formákat cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]). Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal, ...) földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor, ... egyéb tulajdonnevek

Annotáció Többszintű NP struktúrák jelölése <NP> és </NP> A tagmondatok jelölése <CP> tagekkel A nem egyértelmű annotáció jele <XP comment=„”> Részletes útmutató alapján dolgozó annotátorok Egy fájlt 2 személy egymástól függetlenül annotált

Az NP (névszói szerkezet) annotálásának fontosabb alapelvei Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. A főnév bővítményei a névelő, számnevek és a jelzők. A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

Egy NP-szerkezet ágrajza NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} . 2017.04.04.

Az NP-annotált szövegrészlet vázlata 1 Ritkán 2 vette <NP> 3 tudomásul </NP> 4 az 5 ablak 6 előtt 7 ülő 8 asszony 9 jelenlétét 10 . 2017.04.04.

Az gazdagított szerkezet ágrajza ADVP V’ NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} . 2017.04.04.

A gazdagított annotálás XML-struktúrája <ADVP> 1 Ritkán </ADVP> <V'> <HEAD VERB_INDEX="#8875"> <V> 2 vette </V> </HEAD> <CHILDREN> <NODE ARGS=„3" type="NP"/> <NODE ARGS=„4 5 6 7 8 9" type="NP"/> </CHILDREN> </V'> <NP> 3 tudomásul </NP> <ADJP> <PP> 4,5 az ablak 6 előtt </PP> 7 ülő </ADJP> 8 asszony 9 jelenlétét 10 . 2017.04.04.