Nyelvtechnológia Ladányi Enikő

Slides:



Advertisements
Hasonló előadás
A fosztóképző körüli bonyodalmak
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
A mondatelemzés modern útjai
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
A mondat szintagmatikus szerkezete
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Az állandó határozó és a vonzat
A BNO10 formális formális reprezentálása a GALEN alapján
Alárendelő és mellérendelő viszonyok a nyelvben
Mondatelemzés Összetett mondatok.
Képességszintek.
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
A főnév-főnévi összetételek feldolgozásának dekompozíciós és integrációs folyamatai Ladányi Enikő Kognitív tanulmányok MA II. évfolyam.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
Szófajok rendszere.
Mesterséges intelligencia
Egyszerű mondat elemzése
A szófajok.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
Orvosi kódrendszerek. Élő és élettelen Környezeti hatás  szerkezetváltozás.
A nyelv problémája természetes, és mesterséges nyelvek.
A szócikk.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Óvodáskorú gyermekek szóaktiválásának funkcionális vizsgálata
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
A szöveg lekérdezése A NooJ rendszer alapjai
MEGÚJULÓ ENERGIAFORRÁSOK BIOMASSZA
Idegen nyelvek tanulása
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Logika 2. Klasszikus logika Miskolci Egyetem Állam- és Jogtudományi Kar Jogelméleti és Jogszociológiai Tanszék február 17.
Nyelvi nevelés 5-8. évfolyam 1. rész: A koncepció Molnár Cecília alapján aug
Uralisztika Az alapnyelvi szófajok. A szófaji kategorizálás morfológiai alapon szintaktikai alapon szemantikai alapon Komplex módon kell vizsgálni!
Ekvivalenciák nyitott mondatok között Két nyitott mondatot ekvivalensnek mondunk, hha tetszőleges világban ugyanazok az objektumok teszik őket igazzá.
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Klasszikus héber nyelv 4.: Szintaxis
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Prozódikus fonológia ●a fonológiai tartományok elmélete ●prozodikus tartomány - melyben az adott szabály működésbe lép, szegmentumok szintje.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
A generatív nyelvelmélet
A szintagmák (szószerkezetek).
Fordítóprogramok gyakorlat tavaszi félév gyakorlatvezető:Kitlei Róbert szoba:D 2-616B honlap:
Természetes nyelvi interfészek
Programozás alapjai Készítette: Csiszár Nóra Anita
Logika szeminárium Barwise-Etchemendy: Language, Proof and Logic
Kognitív és emotív jelentés
Leíró nyelvtan - adatbázisból
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
A határozószó (adverbium)
Előadás másolata:

Nyelvtechnológia Ladányi Enikő Látás, nyelv, emlékezet BSc kurzus

Mire jó a nyelvtechnológia? Szöveg-felolvasó rendszerek (text-to-speech) Beszédfelismerés Gépi fordítás Gépi összegzés, szövegkivonatolás Kérdés-válaszoló rendszerek Gépi összegzés, szövegkivonatolás: Egy hosszú egybefüggő szöveget rövidít le, jobbik esetben a lényeget kiragadva. Ezt úgy teszi, hogy megnézi, hogy melyek a leggyakoribb szavak a szövegben és az azokat tartalmazó mondatokat rakja egymás mellé.

Mesterséges intelligencia Ellenőrző gondolatkísérlet: nyelvi Alan Turing, 1950: a Turing teszt (gondolatkísérlet) Akkor megy át egy gép a próbán, ha a középen lévő ember nem tudja eldönteni, géptől vagy embertől jött-e a válasz?

A Kínai Szoba John Searle, 1980 Levelezek a géppel kínaiul Hogyan tudom eldönteni, hogy egy igazi kínai van a másik szobában, vagy egy gép?

A nyelvtechnológia részfeladatai Beszédfelismerés Parsing (elemzés) Szemantikai elemzés Inferencia Beszédszintézis Generálás

Nyelvtechnológia ma: Két alapelv Szabályalapú Példaalapú statisztikai korpuszok Két egymással ellentétes cél: Lefedettség növelése (hamis negatívok csökkentése) -- lazítás Pontosság növelése (hamis pozitívok csökkentése) -- szigorítás

Beszédfelismerés Hangsorokból szavak Nemtom NEM TUDOM Beszédfelismerés Hangsorokból szavak

Beszédgondok Bayesi beszédfelismerés Nehéz feladat a hanginger zajossága miatt Ha adott egy „h” hangsor, mi a valószínűsége egy „s” szónak? → P(s|h)

A bayesi beszédfelismeréshez szükséges tárak Variáció-korpusz: hangsorokhoz rendelt szólisták (szem -> szem, eszem, azt hiszem…) – s szavak Korpusz: szógyakoriság P(s) Fonotaktikai folyamatok valószínűségei (pl. szóközi szótag lehagyása) – P(h|s)

P(s|h) = P(h|s)P(s) P(szem|szem) = P(szem|szem)P(szem) P(eszem|szem) = P(szem|eszem)P(eszem) P(azthiszem|szem) = P(szem|azthiszem)P(azthiszem)

A környezet figyelembevétele N-gram modellek P(eszem|villával)=P(villával eszem)/P(villával) P(s|h) = P(h|s)P(s) -> P(s|h) = P(h|s)P(s|s-1)

Bigram nyelvtan szem eszem Azt hiszem zöldeskék .059 .000 villával .013 komolyan .001 .721

Parsing Szófaji és morfológiai elemzés alak<NOUN[ÍT]VERB<PAST> <PLUR><DEF>> ALAKÍTOTTÁK Parsing Szófaji és morfológiai elemzés

Elemző komponensei Szófaj meghatározása + morfológiai összetétel elemzése Szótár Szótövek listája Szófaji kategóriájuk (főnév, ige, határozószó, stb) Morfofonológiai kategóriájuk Sziszegő végű: olvas Alternatív töveik (pl.: bokor, bokr) -> ELEMZÉS CSAK SZÓTÁRRAL?

Elemző komponensei Szabályok Toldalékok listája Milyen szófajhoz milyen morfológiai jegy tartozhat Morfofonológiai kategóriák: Sziszegő végű: olvas, olvasOL, *olvasSZ Egyéb: fél, félSZ Morfotaktika: affixumok sorrendje Kenyer-em-et, *kenyer-et-em Szeletem: szelet-em és nem *szel-et-em

Az elemzés feladatai Szóalakok felcímkézése a szótár és nyelvtan szabályai alapján → egy egyértelmű eredmény → több lehetséges elemzés → nem található a szótárban

alak alak<NOUN> alakult1 alak<NOUN[UL]VERB<PAST>> alakult2 alak<NOUN[UL]VERB[PAST_PART]ADJ> alakították alak<NOUN[ÍT] VERB<PAST><PLUR><DEF>> alakítsunk alak<NOUN[ÍT] VERB<SUBJUNC-IMP><PERS<1>><PLUR>>

Többértelműség feloldása Szövegkörnyezet segítségével A tűz felmelegítette az átfagyott túrázókat tűz <NOUN> tűz <VERB> A tűz → tűz <NOUN>

Ismeretlen szavak 95 – 98% teljesítmény (a címketár méretétől függően) Ha a szótárban nem szerepel egy szó... Többértelmű címkézés+egyértelműsítés szövegkörnyezet alapján egyenletes elosztásban (minden címke) címke-gyakoriság szerint (bizonyos gyakorisági küszöb fölött) Morfológiai szerkezet alapján Roxfortban Szémisen rottolnak a makánok a leghöntebb mufjotukban. 95 – 98% teljesítmény (a címketár méretétől függően) Megfelel az ember teljesítményének!

Parsing Mondat szerkezeti elemzése [ADet kutyaNoun ] NP [kergetteVerbPast [aDet macskátNounAcc]NP]VP ADet kutyaNounNom kergetteVerbPast aDet macskátNounAcc Parsing Mondat szerkezeti elemzése

Mondatelemzés Elemzés célja: a szavak közötti szintaktikai/szemantikai viszonyok feltárása Dependencia nyelvtanok Frázis-struktúra nyelvtanok

Környezet-független nyelvtan Mondat  Határozói_fr Igei_fr Határozói_fr  Határozószó Igei_fr  Ige Főnévi_fr Főnévi_fr  Főnévi_fr Főnévi_fr Főnévi_fr  Névelő (Melléknévi_fr) Főnév Főnévi_fr  Névelő Főnév Melléknévi_fr  Melléknév Határozószó  tegnap Ige  láttam Névelő  a Melléknév  fiatal Főnév  rendőrt, távcsővel ...

+ Morfológiai megkötések *Tegnap láttalak a rendőrt a távcsővel *Tegnap látom a rendőrt a távcsővel. *Tegnap láttam a rendőrhöz a távcsőnek + Szabadabb szórend Láttam tegnap a rendőrt a távcsővel. A rendőrt tegnap láttam a távcsővel. A távcsővel a rendőrt tegnap láttam.

Szemantika A jelentés meghatározása ∃x,y Birtokol(x)∧Birtokló(Beszélő,x)∧ BirtokolValamit(y,x)∧Autó(y) Van egy autóm Szemantika A jelentés meghatározása

Információk kivonása „Mondjon nekem reggeli járatokat kedden Bostonból San Franciscoba.” MUTAT: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: SF

LISTÁZ -> mondjon nekem | szeretnék | mutatna|… INDULÁSIIDŐ -> ÓRA (előtt|körül|után) | reggel | délután | este ÓRA -> egy|két|három…|huszonnégy JÁRAT -> (egy) járat|járatok EREDET -> VÁROS-EREDET_HELYRAG CÉL -> VÁROS-CÉL_HELYRAG VÁROS -> Boston | San Francisco | Budapest

Mondat tematikai elemzése Frázisok → Tematikus szerepek a morfoszintaktikai struktúra alapján A kutya tegnap a házig kergette a macskát. Alany → Ágens Tárgy → Páciens Helyragos NP/PP/helyhatározó → Cél Időhatározó/PP/ragozott NP → Idő

Gépi fordítás Szabályalapú rendszerek Statisztikai rendszerek morfoszintaktikai és szemantikai elemzés nyelv-független általánosítás szöveg generálása a célnyelven Statisztikai rendszerek Parallel korpuszok A kettő kombinációja

Webforditas.hu Az olvasónak mindenesetre jó találgatást és kevés tévedést kívánnak a szerkesztők. The editors wish the reader a good guessing and few mistakes whatever. A szerkesztők kívánnak az olvasó egy jó találgató és kevés hiba bármi.

Szövegkivonatolás Kivonatolás Absztraktkészítés Szavak, szókapcsolatok, mondatok kiválasztása a szövegen belüli gyakoriság és pozíció és az általános gyakoriság alapján Absztraktkészítés Jelentésreprezentáció a szövegről, és ez alapján generál összefoglalót

Kérdés válaszoló rendszerek Zárt vs. nyitott rendszerek BASEBALL, LUNAR (földtani adatok) Rendszerezett adatbázisok alapján Nem rendszerezett dokumentumhalmaz alapján Wolfram Alpha

Chatterbot-ok ELIZA A.L.I.C.E. – többszörös Loebner díjas Jabberwacky Kyle Mitsuku

Eliza: „pszichoterapeuta” Weisenbaum 1966 A férfiak mind egyformák. Ezt hogy érted? Mindig nyaggatnak minket valamiért. Mondanál egy konkrét példát? Hát, a fiúm küldött ide. A fiúd küldött ide. Azt mondja, mindig depressziós vagyok. Sajnálom, hogy depressziós vagy. Talán ki kellene békülnöm az anyámmal. Mesélj még a családodról.

A módszer: Kulcsszókeresés Kulcsszó aktivál egy szabályt mindig anyám Kulcsszó aktivál egy szabályt Mondanál egy konkrét példát? Mesélj még a családodról. Reguláris kifejezések segítségével behelyettesítés a szabálynak megfelelően fiúm -> fiúd