A számítógépes nyelvfeldolgozás alapjai

Slides:



Advertisements
Hasonló előadás
A digitális számítás elmélete
Advertisements

GRIN: Gráf alapú RDF index
Ó- és középmagyar morfológiai elemző Novák Attila.
A mondatelemzés modern útjai
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
A mondat szintagmatikus szerkezete
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tájékoztató az Anglisztika MA-ról Cser András PPKE BTK Angol Intézet október 9.
Az állandó határozó és a vonzat
A BNO10 formális formális reprezentálása a GALEN alapján
Alárendelő és mellérendelő viszonyok a nyelvben
Mondatelemzés Összetett mondatok.
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Kétértékűség és kontextusfüggőség Kijelentéseink igazak vagy hamisak (mindig az egyik és csak az egyik) Kijelentés: kijelentő mondat (tartalma), amivel.
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Információ kinyerés november 21.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Szófajok rendszere.
Programozó matematikus szak 2003/2004-es tanév II. félév
A digitális számítás elmélete
Tájékoztató az Anglisztika MA-ról Cser András PPKE BTK Angol Intézet október 18.
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
A tárgyas szószerkezet
Lekérdezésfordító Adatbázisok tervezése, megvalósítása, menedzselése.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
4. Gyires Béla Informatikai Nap Debreceni Egyetem Informatikai Kar Új eredmények a Chomsky-féle (formális) nyelvtípusokkal kapcsolatban Dr. Nagy Benedek.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
A szintagmák 18. tétel.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Szintaktikai, szemantikai szabályok
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Logika 2. Klasszikus logika Miskolci Egyetem Állam- és Jogtudományi Kar Jogelméleti és Jogszociológiai Tanszék február 17.
Kötvényárazási hibák intelligens javítóalgoritmusának tervezése és fejlesztése GELLÉN ÁGNES IUFQ58.
Nyelvtechnológia Ladányi Enikő
Nyelvi nevelés 5-8. évfolyam 1. rész: A koncepció Molnár Cecília alapján aug
Klasszikus héber nyelv 4.: Szintaxis
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Prozódikus fonológia ●a fonológiai tartományok elmélete ●prozodikus tartomány - melyben az adott szabály működésbe lép, szegmentumok szintje.
Pályázatok értékelésének tapasztalatai Hoffmann Miklós független szakértő.
Algoritmusok és adatszerkezetek
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
AZ AFÁZIÁK TIPOLÓGIAI OSZTÁLYOZÁSA
A generatív nyelvelmélet
A szintagmák (szószerkezetek).
Precedencia-nyelvtanok
A házi feladatokhoz: 1.5: Azonosság Jelölések a feladatszám alatt:
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Leíró nyelvtan - adatbázisból
Toborzás forrásának azonosítása, tervezése (sourcing)
Informatikai gyakorlatok 11. évfolyam
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

A számítógépes nyelvfeldolgozás alapjai Szintaxis A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 14.

Bevezetés Szintaxis: mondat szavai között levő nyelvtani kapcsolatok (alany-ige, főnév-névutó stb.) azonosítása (gépi úton) Tokenizálás és szófaji egyértelműsítés eredményének felhasználásával Parsing – parser

Mondatbeli egységek Frázisok: szorosabban összetartozó elemek Főnévi csoportok (NP): én, a sárga ház, Pisti kutyája… Ezek töltik be a különféle nyelvtani szerepeket (alany, tárgy…) predikátum-argumentum viszonyok nem csak ige lehet predikátum (melléknevek (féltékeny vkire), esemény jelentésű főnevek (vkik közötti háború)…)

Szintaxis az alkalmazásokban A szintaktikai elemzés általában előfeldolgozó lépés egy magasabb rendű feladathoz A folyó szövegek mélyebb nyelvi elemzéséhez elengedhetetlen a mondatok szintaktikai elemzése Információkinyeréshez is szükséges a jó minőségű szintaktikai elemzés: A SPAR felvásárolta a PLUS-t. Vásárló: SPAR Áru: PLUS

Szintaxis az alkalmazásokban Gépi fordítás Tegnap az irodában Péter öt levelet írt. TEMP LOC SUBJ OBJ VERB Peter wrote five letters in the office yesterday. SUBJ VERB OBJ LOC TEMP

Számítógépes szintaxis Szabályalapú elemzés Szakértők kézzel írnak szabályokat Statisztikai elemzés Nagyméretű adatbázisok (treebankek) Elemzők (parserek) Treebankekből automatikusan kinyert szabályok alapján zajlik az elemzés

Statisztikai szintaktikai elemzés Angol nyelvre kifejlesztett technológiák Konstituens- (összetevős) és függőségi (dependencia)alapú elemzők Kötött szórend vs. szabad szórend

Függőségi vs. konstituenselemzés Minden csomópont egy szónak felel meg -> nincsenek művi csomópontok (CP, I’…) a függőségi fákban Konstituens-nyelvtanok általában kötött szórendű nyelvekre jók Mi határozza meg a szintaktikai viszonyokat? a fában való elhelyezkedés (konstituens) függőségi viszonyok (címkézett élek) (dependencia)

Elemzés mint keresés adott mondathoz az elemzési fákat megtalálni és kiválasztani a legjobbat Megszorítások a keresésben: A fa gyökere a kezdő szimbólum (S) A fa levelein az input szavai találhatók

Konstituenselemzés Terminálisok: szavak Nemterminálisok: konstituensek Szabályok: baloldal egyetlen nemterminális

Elemzés fentről lefelé célirányos S-ből kiindulva építi a fát szabályok bal oldalát illeszti

Elemzés lentről felfelé adatorientált input szavaiból indul ki szabályok jobb oldalát illeszti

Összehasonlítás fentről lefelé: lentről felfelé: csak jó (S-ben végződő) fákat állít elő sok fa nem felel meg az inputnak lentről felfelé: csak a szavaknak megfelelő fák állnak elő számos rossz fa is előáll

Konstituensfák a Szeged Treebankben Generatív szintaxison alapul (É. Kiss et al. 1999) A magyar nyelv szintaktikai sajátságai szintén figyelembe vannak véve (nem „hardcore” Chomsky-féle nyelvtan) Az ige-argumentum viszonyokat címkék kódolják Nagyon részletes információk: minden esetraghoz külön nyelvtani szerep tartozik Szemantikai információ is megjelenik (idő- és helyhatározók)

Függőségi elemzés Tranzakcióalapú Gráfalapú Minden lépésben egy új él felvétele Osztályozási probléma: egyedek: szópárok jellemzők: szavak, POS-kódok akció: új él behúzása vagy semmi Gráfalapú Legjobb gráf megtalálása

Függőségi fák a Szeged Dependencia Treebankben A szavak a fa csomópontjai A főnévi argumentumok sokkal kevesebb szereppel rendelkeznek: SUBJ, OBJ, DAT,OBL, ATT -> morfológia kódolja már az esetragot Szemantikai információ megőrződik Lehetnek keresztező élek (A fiúnak látta a kutyáját.)

Virtuális csomópontok Kijelentő mód, jelen idő, 3. személyben nincs létige András katona (*van). András legyen katona! András katona lesz. A SzT-ben nincs jelölve ezeknek a mondatoknak a grammatikai szerkezete SzDT-ben virtuális csomópontok

Szeged Treebank vs. Szeged Dependencia Treebank Címkézett relációk mindkettőben -> nem olyan nagy az eltérés Virtuális csomópontok SzDT-ben -> minden mondat nyelvtani szerkezettel rendelkezik (IE, MT) Nincsenek szórendi megszorítások a SzDT-ben Szóalakok szerepelnek a fákban Egyéb lehetőség: morfémaalapú szintaxis (Prószéky et al. (1989), Koutny, Wacha (1991))

Hol tartunk jelenleg? Szeged (Dependencia) Treebank: konstituens és függőségi reprezentáció egyaránt (kézi annotáció) Magyarra adaptált statisztikai elemzők: konstituens (Berkeley parser) függőségi (Bohnet-parser) Szeged (Dependencia) Treebanken tanítva Sztenderd magyar szövegeken viszonylag jól működnek Nyelvspecifikus hibák

Alanyesetű, nem alanyi szerepet betöltő főnevek Birtokos: a kisfiú labdája Predikatív névszó: István juhász maradt. Tárgy: A kutyám kergeti a macska. (kerti ösvény mondat) A fiam szereti a lányod.

Lehetséges megoldások Birtokos: SzT: egy NP tartalmazza a birtokost és a birtokot ((a kisfiú) labdája) SzDT: ATT reláció Predikatív névszó: PRED reláció SzDT: virtuális csomópont Tárgy: OBJ reláció Néha nem elég a szövegkörnyezet… -> többértelműség

Áltárgyak Formailag tárgynak látszó határozók: Futottam egy jót. Nagyot aludtam. Tárgyatlan ige -> nem lehet tárgy -> MODE reláció

Részes esetnek látszó esetek Nem minden szemantikai alany áll alanyesetben: Részes esetű alany: Sándornak kell elrendeznie az ügyeket. Mindkét treebankben DAT Bizonyos segédigék részes esetű alannyal állnak (kivételek) DAT-NOM párhuzam: birtokos szerkezet

Többértelműség morfológiai többértelműség: szemét – szem+é+t szerkezeti többértelműség: Reggel lelőttem egy elefántot a pizsamámban. Kin van a pizsama? lexikális többértelműség: „megveted még hideg ágyamat” Visszautasítod vagy megágyazol? szemantikai többértelműség: Minden férfi szeret egy nőt. Ugyanazt a nőt vagy mindenki másikat?

Szintaktikai többértelműség bővítmények csatolása: Láttam a lányt a távcsővel. Kinél van a távcső? mellérendelés: (Sikoltozó (gyerekek és anyukák)) szaladgáltak a játszótéren. ((Sikoltozó gyerekek) és (anyukák)) szaladgáltak a játszótéren. szintaktikai egyértelműsítés: az összes lehetséges fa előállítása a mondathoz és a legjobb kiválasztása lokális többértelműség: a mondat egy része többértelmű (több elemzés rendelhető hozzá), de a mondat maga nem (a fiú kutyája – az „a” hova csatlakozik?)

Többértelműség az angolban Time flies like an arrow. VB VBZ VB DT NN NN NNS IN VB NNP NN RB CC

Time flies like an arrow. Az időlegyek szeretnek egy nyilat. Úgy repül az idő, mint egy nyílvessző. A Time magazin úgy száll, mint egy nyílvessző. Az idő úgy menekül, mint egy nyílvessző. A Time magazin kiadója úgy száll, mint egy nyílvessző. Mérd a legyek sebességét úgy, mint egy nyílét. Mérd a legyek sebességét úgy, mint egy nyíl. Mérd meg nyílsebesen a legyek sebességét. Mérd meg azoknak a legyeknek a sebességét, amelyek egy nyílra hasonlítanak.

Szintaktikai elemzés jóságának mérése Konstituenselemzés Minden konstituenst hasonlítunk (címkézve vagy anélkül) Egyes szavak őseinek sorozatát hasonlítjuk Dependenciaelemzés minden szóra ős és/vagy reláció típusának eltalálása

Kiértékelés pontosság fedés F-mérték LAS (labeled accuracy score): szülő és címke ULA (unlabeled accuracy score): csak szülő elemzési hibák lehetséges okai: rossz szófaji elemzés hiba a tanító adatbázisban többértelműség