Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Nyelvtechnológia Ladányi Enikő
Látás, nyelv, emlékezet BSc kurzus
2
Mire jó a nyelvtechnológia?
Szöveg-felolvasó rendszerek (text-to-speech) Beszédfelismerés Gépi fordítás Gépi összegzés, szövegkivonatolás Kérdés-válaszoló rendszerek Gépi összegzés, szövegkivonatolás: Egy hosszú egybefüggő szöveget rövidít le, jobbik esetben a lényeget kiragadva. Ezt úgy teszi, hogy megnézi, hogy melyek a leggyakoribb szavak a szövegben és az azokat tartalmazó mondatokat rakja egymás mellé.
3
Mesterséges intelligencia Ellenőrző gondolatkísérlet: nyelvi
Alan Turing, 1950: a Turing teszt (gondolatkísérlet) Akkor megy át egy gép a próbán, ha a középen lévő ember nem tudja eldönteni, géptől vagy embertől jött-e a válasz?
4
A Kínai Szoba John Searle, 1980 Levelezek a géppel kínaiul
Hogyan tudom eldönteni, hogy egy igazi kínai van a másik szobában, vagy egy gép?
5
A nyelvtechnológia részfeladatai
Beszédfelismerés Parsing (elemzés) Szemantikai elemzés Inferencia Beszédszintézis Generálás
6
Nyelvtechnológia ma: Két alapelv
Szabályalapú Példaalapú statisztikai korpuszok Két egymással ellentétes cél: Lefedettség növelése (hamis negatívok csökkentése) -- lazítás Pontosság növelése (hamis pozitívok csökkentése) -- szigorítás
7
Beszédfelismerés Hangsorokból szavak
Nemtom NEM TUDOM Beszédfelismerés Hangsorokból szavak
8
Beszédgondok Bayesi beszédfelismerés
Nehéz feladat a hanginger zajossága miatt Ha adott egy „h” hangsor, mi a valószínűsége egy „s” szónak? → P(s|h)
9
A bayesi beszédfelismeréshez szükséges tárak
Variáció-korpusz: hangsorokhoz rendelt szólisták (szem -> szem, eszem, azt hiszem…) – s szavak Korpusz: szógyakoriság P(s) Fonotaktikai folyamatok valószínűségei (pl. szóközi szótag lehagyása) – P(h|s)
10
P(s|h) = P(h|s)P(s) P(szem|szem) = P(szem|szem)P(szem) P(eszem|szem) = P(szem|eszem)P(eszem) P(azthiszem|szem) = P(szem|azthiszem)P(azthiszem)
11
A környezet figyelembevétele
N-gram modellek P(eszem|villával)=P(villával eszem)/P(villával) P(s|h) = P(h|s)P(s) -> P(s|h) = P(h|s)P(s|s-1)
12
Bigram nyelvtan szem eszem Azt hiszem zöldeskék .059 .000 villával
.013 komolyan .001 .721
13
Parsing Szófaji és morfológiai elemzés
alak<NOUN[ÍT]VERB<PAST> <PLUR><DEF>> ALAKÍTOTTÁK Parsing Szófaji és morfológiai elemzés
14
Elemző komponensei Szófaj meghatározása + morfológiai összetétel elemzése Szótár Szótövek listája Szófaji kategóriájuk (főnév, ige, határozószó, stb) Morfofonológiai kategóriájuk Sziszegő végű: olvas Alternatív töveik (pl.: bokor, bokr) -> ELEMZÉS CSAK SZÓTÁRRAL?
15
Elemző komponensei Szabályok Toldalékok listája
Milyen szófajhoz milyen morfológiai jegy tartozhat Morfofonológiai kategóriák: Sziszegő végű: olvas, olvasOL, *olvasSZ Egyéb: fél, félSZ Morfotaktika: affixumok sorrendje Kenyer-em-et, *kenyer-et-em Szeletem: szelet-em és nem *szel-et-em
16
Az elemzés feladatai Szóalakok felcímkézése a szótár és nyelvtan szabályai alapján → egy egyértelmű eredmény → több lehetséges elemzés → nem található a szótárban
17
alak alak<NOUN>
alakult1 alak<NOUN[UL]VERB<PAST>> alakult2 alak<NOUN[UL]VERB[PAST_PART]ADJ> alakították alak<NOUN[ÍT] VERB<PAST><PLUR><DEF>> alakítsunk alak<NOUN[ÍT] VERB<SUBJUNC-IMP><PERS<1>><PLUR>>
18
Többértelműség feloldása
Szövegkörnyezet segítségével A tűz felmelegítette az átfagyott túrázókat tűz <NOUN> tűz <VERB> A tűz → tűz <NOUN>
19
Ismeretlen szavak 95 – 98% teljesítmény (a címketár méretétől függően)
Ha a szótárban nem szerepel egy szó... Többértelmű címkézés+egyértelműsítés szövegkörnyezet alapján egyenletes elosztásban (minden címke) címke-gyakoriság szerint (bizonyos gyakorisági küszöb fölött) Morfológiai szerkezet alapján Roxfortban Szémisen rottolnak a makánok a leghöntebb mufjotukban. 95 – 98% teljesítmény (a címketár méretétől függően) Megfelel az ember teljesítményének!
20
Parsing Mondat szerkezeti elemzése
[ADet kutyaNoun ] NP [kergetteVerbPast [aDet macskátNounAcc]NP]VP ADet kutyaNounNom kergetteVerbPast aDet macskátNounAcc Parsing Mondat szerkezeti elemzése
21
Mondatelemzés Elemzés célja: a szavak közötti szintaktikai/szemantikai viszonyok feltárása Dependencia nyelvtanok Frázis-struktúra nyelvtanok
24
Környezet-független nyelvtan
Mondat Határozói_fr Igei_fr Határozói_fr Határozószó Igei_fr Ige Főnévi_fr Főnévi_fr Főnévi_fr Főnévi_fr Főnévi_fr Névelő (Melléknévi_fr) Főnév Főnévi_fr Névelő Főnév Melléknévi_fr Melléknév Határozószó tegnap Ige láttam Névelő a Melléknév fiatal Főnév rendőrt, távcsővel ...
25
+ Morfológiai megkötések
*Tegnap láttalak a rendőrt a távcsővel *Tegnap látom a rendőrt a távcsővel. *Tegnap láttam a rendőrhöz a távcsőnek + Szabadabb szórend Láttam tegnap a rendőrt a távcsővel. A rendőrt tegnap láttam a távcsővel. A távcsővel a rendőrt tegnap láttam.
26
Szemantika A jelentés meghatározása
∃x,y Birtokol(x)∧Birtokló(Beszélő,x)∧ BirtokolValamit(y,x)∧Autó(y) Van egy autóm Szemantika A jelentés meghatározása
27
Információk kivonása „Mondjon nekem reggeli járatokat kedden Bostonból San Franciscoba.” MUTAT: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: SF
28
LISTÁZ -> mondjon nekem | szeretnék | mutatna|…
INDULÁSIIDŐ -> ÓRA (előtt|körül|után) | reggel | délután | este ÓRA -> egy|két|három…|huszonnégy JÁRAT -> (egy) járat|járatok EREDET -> VÁROS-EREDET_HELYRAG CÉL -> VÁROS-CÉL_HELYRAG VÁROS -> Boston | San Francisco | Budapest
29
Mondat tematikai elemzése
Frázisok → Tematikus szerepek a morfoszintaktikai struktúra alapján A kutya tegnap a házig kergette a macskát. Alany → Ágens Tárgy → Páciens Helyragos NP/PP/helyhatározó → Cél Időhatározó/PP/ragozott NP → Idő
30
Gépi fordítás Szabályalapú rendszerek Statisztikai rendszerek
morfoszintaktikai és szemantikai elemzés nyelv-független általánosítás szöveg generálása a célnyelven Statisztikai rendszerek Parallel korpuszok A kettő kombinációja
31
Webforditas.hu Az olvasónak mindenesetre jó találgatást és kevés tévedést kívánnak a szerkesztők. The editors wish the reader a good guessing and few mistakes whatever. A szerkesztők kívánnak az olvasó egy jó találgató és kevés hiba bármi.
32
Szövegkivonatolás Kivonatolás Absztraktkészítés
Szavak, szókapcsolatok, mondatok kiválasztása a szövegen belüli gyakoriság és pozíció és az általános gyakoriság alapján Absztraktkészítés Jelentésreprezentáció a szövegről, és ez alapján generál összefoglalót
33
Kérdés válaszoló rendszerek
Zárt vs. nyitott rendszerek BASEBALL, LUNAR (földtani adatok) Rendszerezett adatbázisok alapján Nem rendszerezett dokumentumhalmaz alapján Wolfram Alpha
34
Chatterbot-ok ELIZA A.L.I.C.E. – többszörös Loebner díjas Jabberwacky
Kyle Mitsuku
35
Eliza: „pszichoterapeuta” Weisenbaum 1966
A férfiak mind egyformák. Ezt hogy érted? Mindig nyaggatnak minket valamiért. Mondanál egy konkrét példát? Hát, a fiúm küldött ide. A fiúd küldött ide. Azt mondja, mindig depressziós vagyok. Sajnálom, hogy depressziós vagy. Talán ki kellene békülnöm az anyámmal. Mesélj még a családodról.
36
A módszer: Kulcsszókeresés Kulcsszó aktivál egy szabályt
mindig anyám Kulcsszó aktivál egy szabályt Mondanál egy konkrét példát? Mesélj még a családodról. Reguláris kifejezések segítségével behelyettesítés a szabálynak megfelelően fiúm -> fiúd
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.