Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás

Hasonló előadás


Az előadások a következő témára: "2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás"— Előadás másolata:

1 2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt

2 2014. 07. 15.2014. 07. 15.2014. 07. 15.2 Tartalom  A számítógépes szövegfeldolgozás célja  Nyelvi adatbázisok szerepe  Szófaji kódolás - MSD kódrendszer  Korpuszok és a treebank  Szófaji egyértelműsítés  Főnévi csoportok (NP) felismerés

3 2014. 07. 15.2014. 07. 15.2014. 07. 15.3 A Szövegfeldolgozás célja  Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web)  Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés  Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat

4 2014. 07. 15.2014. 07. 15.2014. 07. 15.4 Nyelvi adatbázisok I.  A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése  A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.)  Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML)  Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

5 2014. 07. 15.2014. 07. 15.2014. 07. 15.5 Nyelvi adatbázisok II.  Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat.  A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár.  BNC (British National Corpus, http://www.natcorp.ox.ac.uk) http://www.natcorp.ox.ac.uk  OTA (Oxford Text Archive, http://ota.ahds.ac.uk) http://ota.ahds.ac.uk  Gutenberg project, http://www.gutenberg.org) http://www.gutenberg.org  ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) http://www-etcsl.orient.ox.ac.uk  PubMed (http://www.pubmed.gov) http://www.pubmed.gov  JRC Acquis Corpus (http://langtech.jrc.it/JRC- Acquis.html) http://langtech.jrc.it/JRC- Acquis.htmlhttp://langtech.jrc.it/JRC- Acquis.html

6 2014. 07. 15.2014. 07. 15.2014. 07. 15.6 Nyelvi adatbázisok III.  MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) http://www.nytud.hu/hhc  DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) http://www.pim.hu  MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) http://mek.oszk.hu  Szószablya (http://www.szoszablya.hu) http://www.szoszablya.hu  eMagyarország (http://www.magyarorszag.hu) http://www.magyarorszag.hu  Parlament (http://www.parlament.hu) http://www.parlament.hu  Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu) http://www.hvg.huhttp://www.nol.hu http://www.mno.huhttp://www.magyarhirlap.huhttp://www.hvg.huhttp://www.nol.hu http://www.mno.huhttp://www.magyarhirlap.hu Magyar szövegtárak

7 2014. 07. 15.2014. 07. 15.2014. 07. 15.7 Nyelvi adatbázisok IV.  LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu), http://www.ldc.upenn.edu  ELRA (European Language Resources Association, http://www.elra.info), http://www.elra.info  MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) http://www.nytud.hu/mnsz  Szeged Korpusz (http://www.inf.u-szeged.hu/hlt) http://www.inf.u-szeged.hu/hlt Számítógépes nyelvészeti adatbázisok

8 2014. 07. 15.2014. 07. 15.2014. 07. 15.8 Nyelvi adatbázisok IV.  A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése  A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.)  Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML)  Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

9 2014. 07. 15.2014. 07. 15.2014. 07. 15.9 Szófaji kódolás  Multext-East EU projekt 1995-97. (http://nl.ijs.si/ME/) http://nl.ijs.si/ME/  A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata  Jellemzői: Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történikAz MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik Az értékek egyetlen karakterrel vannak kódolvaAz értékek egyetlen karakterrel vannak kódolva

10 2014. 07. 15.2014. 07. 15.2014. 07. 15.10 MSD kódrendszer Példa: Főnevek (Noun) – N PozícióAttribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2Típus köznév (common) tulajdonnév (proper) cpcpcpcp 3Nem-- 4Szám egyes (singular) többes (plural) spspspsp Ø -k; -i, -ai/-ei, - jai/-jei; -ék asztal(om) asztalok, asztalaim szomszédék 5Eset alany (nominative) tárgy (accusative) birtokos (genitive) részes (dative) nagdnagdnagdnagd Ø -t Ø, -nak/-nek -nak/-nek asztal(om) asztal(oma)t asztalnak asztalnak asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd

11 2014. 07. 15.2014. 07. 15.2014. 07. 15.11 MSD kódrendszer Példa: Igék (Verb) – V Pozí ció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2Típus fő (main) segéd (auxiliary) mamamamafog 3Mód/forma kijelentő (indicative) felszólító (imperative) feltételes (conditional) főnévi igenév (infinitive) imcnØ -j, -jj, -gy, -ggy -(n)na/-(n)ne, -ana/-ene -ni 4Idő jelen (present) múlt (past) pspspspsØ-t/-tt/-ott/-ett 5Személy első (1) második (2) harmadik (3) 123123123123 várok vársz vár foglalnának: Vmcp3p

12 2014. 07. 15.2014. 07. 15.2014. 07. 15.12 A Szintaxis modellezése  Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába.  Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet,

13 2014. 07. 15.2014. 07. 15.2014. 07. 15.13 Speciális (nyílt) tokenosztályok

14 Tulajdonnevek   Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRK http://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése. http://btb.math.bas.bg/clark/index.html   személynevek (a kereszt és vezetéknevek adatbázisát felhasználva, az id. ifj. özv. dr. prof. asszonynév (- né),... képzési formákat   cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]).   Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal,...)   földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor,...   egyéb tulajdonnevek

15

16 Annotáció Többszintű NP struktúrák jelölése és A tagmondatok jelölése tagekkel A nem egyértelmű annotáció jele Részletes útmutató alapján dolgozó annotátorok Egy fájlt 2 személy egymástól függetlenül annotált

17 Az NP (névszói szerkezet) annotálásának fontosabb alapelvei Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. A főnév bővítményei a névelő, számnevek és a jelzők. A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

18 2014. 07. 15.2014. 07. 15.2014. 07. 15.18 Egy NP-szerkezet ágrajza NP NP NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}. Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}.

19 2014. 07. 15.2014. 07. 15.2014. 07. 15.19 Az NP-annotált szövegrészlet vázlata 1Ritkán 2vette 3tudomásul 4az 5ablak 6előtt 7ülő 8asszony 9jelenlétét 10.

20 2014. 07. 15.2014. 07. 15.2014. 07. 15.20 Az gazdagított szerkezet ágrajza ADVP V’ NP* NP** ADVP V’ NP* NP** HEAD CHILDREN NP HEAD CHILDREN NP v NODE NODE ADJP v NODE NODE ADJP NP*NP** PP NP*NP** PP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}.

21 2014. 07. 15.2014. 07. 15.2014. 07. 15.21 A gazdagított annotálás XML- struktúrája 1Ritkán 2vette 3tudomásul 4,5az ablak 6előtt 7ülő 8asszony 9jelenlétét 10.

22

23


Letölteni ppt "2014. 07. 15.1 Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás"

Hasonló előadás


Google Hirdetések