Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás

Hasonló előadás


Az előadások a következő témára: "2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás"— Előadás másolata:

1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás

2 Tartalom  A számítógépes szövegfeldolgozás célja  Nyelvi adatbázisok szerepe  Szófaji kódolás - MSD kódrendszer  Korpuszok és a treebank  Szófaji egyértelműsítés  Főnévi csoportok (NP) felismerés

3 A Szövegfeldolgozás célja  Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web)  Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés  Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat

4 Nyelvi adatbázisok I.  A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése  A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.)  Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML)  Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

5 Nyelvi adatbázisok II.  Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat.  A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár.  BNC (British National Corpus,  OTA (Oxford Text Archive,  Gutenberg project,  ETCSL (Electronic Text Corpus of Sumerian Literature,  PubMed (http://www.pubmed.gov)  JRC Acquis Corpus (http://langtech.jrc.it/JRC- Acquis.html) Acquis.htmlhttp://langtech.jrc.it/JRC- Acquis.html

6 Nyelvi adatbázisok III.  MTSZ (Magyar Történelmi Szövegtár  DIA (Digitális Irodalmi Akadémia,  MEK (Magyar Elektronikus Könyvtár,  Szószablya (http://www.szoszablya.hu)  eMagyarország (http://www.magyarorszag.hu)  Parlament (http://www.parlament.hu)  Újságok (http://www.hvg.hu, Magyar szövegtárak

7 Nyelvi adatbázisok IV.  LDC (Linguistic Data Consortium,  ELRA (European Language Resources Association,  MNSZ (Magyar Nemzeti Szövegtár,  Szeged Korpusz (http://www.inf.u-szeged.hu/hlt) Számítógépes nyelvészeti adatbázisok

8 Nyelvi adatbázisok IV.  A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése  A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.)  Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML)  Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

9 Szófaji kódolás  Multext-East EU projekt (http://nl.ijs.si/ME/)  A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata  Jellemzői: Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történikAz MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik Az értékek egyetlen karakterrel vannak kódolvaAz értékek egyetlen karakterrel vannak kódolva

10 MSD kódrendszer Példa: Főnevek (Noun) – N PozícióAttribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2Típus köznév (common) tulajdonnév (proper) cpcpcpcp 3Nem-- 4Szám egyes (singular) többes (plural) spspspsp Ø -k; -i, -ai/-ei, - jai/-jei; -ék asztal(om) asztalok, asztalaim szomszédék 5Eset alany (nominative) tárgy (accusative) birtokos (genitive) részes (dative) nagdnagdnagdnagd Ø -t Ø, -nak/-nek -nak/-nek asztal(om) asztal(oma)t asztalnak asztalnak asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd

11 MSD kódrendszer Példa: Igék (Verb) – V Pozí ció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2Típus fő (main) segéd (auxiliary) mamamamafog 3Mód/forma kijelentő (indicative) felszólító (imperative) feltételes (conditional) főnévi igenév (infinitive) imcnØ -j, -jj, -gy, -ggy -(n)na/-(n)ne, -ana/-ene -ni 4Idő jelen (present) múlt (past) pspspspsØ-t/-tt/-ott/-ett 5Személy első (1) második (2) harmadik (3) várok vársz vár foglalnának: Vmcp3p

12 A Szintaxis modellezése  Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába.  Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet,

13 Speciális (nyílt) tokenosztályok

14 Tulajdonnevek   Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRK (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése.   személynevek (a kereszt és vezetéknevek adatbázisát felhasználva, az id. ifj. özv. dr. prof. asszonynév (- né),... képzési formákat   cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]).   Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal,...)   földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor,...   egyéb tulajdonnevek

15

16 Annotáció Többszintű NP struktúrák jelölése és A tagmondatok jelölése tagekkel A nem egyértelmű annotáció jele Részletes útmutató alapján dolgozó annotátorok Egy fájlt 2 személy egymástól függetlenül annotált

17 Az NP (névszói szerkezet) annotálásának fontosabb alapelvei Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. A főnév bővítményei a névelő, számnevek és a jelzők. A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

18 Egy NP-szerkezet ágrajza NP NP NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}. Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}.

19 Az NP-annotált szövegrészlet vázlata 1Ritkán 2vette 3tudomásul 4az 5ablak 6előtt 7ülő 8asszony 9jelenlétét 10.

20 Az gazdagított szerkezet ágrajza ADVP V’ NP* NP** ADVP V’ NP* NP** HEAD CHILDREN NP HEAD CHILDREN NP v NODE NODE ADJP v NODE NODE ADJP NP*NP** PP NP*NP** PP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}.

21 A gazdagított annotálás XML- struktúrája 1Ritkán 2vette 3tudomásul 4,5az ablak 6előtt 7ülő 8asszony 9jelenlétét 10.

22

23


Letölteni ppt "2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás"

Hasonló előadás


Google Hirdetések