Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Nyelvtechnológia Ladányi Enikő

Hasonló előadás


Az előadások a következő témára: "Nyelvtechnológia Ladányi Enikő"— Előadás másolata:

1 Nyelvtechnológia Ladányi Enikő
Látás, nyelv, emlékezet BSc kurzus

2 Mire jó a nyelvtechnológia?
Szöveg-felolvasó rendszerek (text-to-speech) Beszédfelismerés Gépi fordítás Gépi összegzés, szövegkivonatolás Kérdés-válaszoló rendszerek Gépi összegzés, szövegkivonatolás: Egy hosszú egybefüggő szöveget rövidít le, jobbik esetben a lényeget kiragadva. Ezt úgy teszi, hogy megnézi, hogy melyek a leggyakoribb szavak a szövegben és az azokat tartalmazó mondatokat rakja egymás mellé.

3 Mesterséges intelligencia Ellenőrző gondolatkísérlet: nyelvi
Alan Turing, 1950: a Turing teszt (gondolatkísérlet) Akkor megy át egy gép a próbán, ha a középen lévő ember nem tudja eldönteni, géptől vagy embertől jött-e a válasz?

4 A Kínai Szoba John Searle, 1980 Levelezek a géppel kínaiul
Hogyan tudom eldönteni, hogy egy igazi kínai van a másik szobában, vagy egy gép?

5 A nyelvtechnológia részfeladatai
Beszédfelismerés Parsing (elemzés) Szemantikai elemzés Inferencia Beszédszintézis Generálás

6 Nyelvtechnológia ma: Két alapelv
Szabályalapú Példaalapú statisztikai korpuszok Két egymással ellentétes cél: Lefedettség növelése (hamis negatívok csökkentése) -- lazítás Pontosság növelése (hamis pozitívok csökkentése) -- szigorítás

7 Beszédfelismerés Hangsorokból szavak
Nemtom NEM TUDOM Beszédfelismerés Hangsorokból szavak

8 Beszédgondok Bayesi beszédfelismerés
Nehéz feladat a hanginger zajossága miatt Ha adott egy „h” hangsor, mi a valószínűsége egy „s” szónak? → P(s|h)

9 A bayesi beszédfelismeréshez szükséges tárak
Variáció-korpusz: hangsorokhoz rendelt szólisták (szem -> szem, eszem, azt hiszem…) – s szavak Korpusz: szógyakoriság P(s) Fonotaktikai folyamatok valószínűségei (pl. szóközi szótag lehagyása) – P(h|s)

10 P(s|h) = P(h|s)P(s) P(szem|szem) = P(szem|szem)P(szem) P(eszem|szem) = P(szem|eszem)P(eszem) P(azthiszem|szem) = P(szem|azthiszem)P(azthiszem)

11 A környezet figyelembevétele
N-gram modellek P(eszem|villával)=P(villával eszem)/P(villával) P(s|h) = P(h|s)P(s) -> P(s|h) = P(h|s)P(s|s-1)

12 Bigram nyelvtan szem eszem Azt hiszem zöldeskék .059 .000 villával
.013 komolyan .001 .721

13 Parsing Szófaji és morfológiai elemzés
alak<NOUN[ÍT]VERB<PAST> <PLUR><DEF>> ALAKÍTOTTÁK Parsing Szófaji és morfológiai elemzés

14 Elemző komponensei Szófaj meghatározása + morfológiai összetétel elemzése Szótár Szótövek listája Szófaji kategóriájuk (főnév, ige, határozószó, stb) Morfofonológiai kategóriájuk Sziszegő végű: olvas Alternatív töveik (pl.: bokor, bokr) -> ELEMZÉS CSAK SZÓTÁRRAL?

15 Elemző komponensei Szabályok Toldalékok listája
Milyen szófajhoz milyen morfológiai jegy tartozhat Morfofonológiai kategóriák: Sziszegő végű: olvas, olvasOL, *olvasSZ Egyéb: fél, félSZ Morfotaktika: affixumok sorrendje Kenyer-em-et, *kenyer-et-em Szeletem: szelet-em és nem *szel-et-em

16 Az elemzés feladatai Szóalakok felcímkézése a szótár és nyelvtan szabályai alapján → egy egyértelmű eredmény → több lehetséges elemzés → nem található a szótárban

17 alak alak<NOUN>
alakult1 alak<NOUN[UL]VERB<PAST>> alakult2 alak<NOUN[UL]VERB[PAST_PART]ADJ> alakították alak<NOUN[ÍT] VERB<PAST><PLUR><DEF>> alakítsunk alak<NOUN[ÍT] VERB<SUBJUNC-IMP><PERS<1>><PLUR>>

18 Többértelműség feloldása
Szövegkörnyezet segítségével A tűz felmelegítette az átfagyott túrázókat tűz <NOUN> tűz <VERB> A tűz → tűz <NOUN>

19 Ismeretlen szavak 95 – 98% teljesítmény (a címketár méretétől függően)
Ha a szótárban nem szerepel egy szó... Többértelmű címkézés+egyértelműsítés szövegkörnyezet alapján egyenletes elosztásban (minden címke) címke-gyakoriság szerint (bizonyos gyakorisági küszöb fölött) Morfológiai szerkezet alapján Roxfortban Szémisen rottolnak a makánok a leghöntebb mufjotukban. 95 – 98% teljesítmény (a címketár méretétől függően) Megfelel az ember teljesítményének!

20 Parsing Mondat szerkezeti elemzése
[ADet kutyaNoun ] NP [kergetteVerbPast [aDet macskátNounAcc]NP]VP ADet kutyaNounNom kergetteVerbPast aDet macskátNounAcc Parsing Mondat szerkezeti elemzése

21 Mondatelemzés Elemzés célja: a szavak közötti szintaktikai/szemantikai viszonyok feltárása Dependencia nyelvtanok Frázis-struktúra nyelvtanok

22

23

24 Környezet-független nyelvtan
Mondat  Határozói_fr Igei_fr Határozói_fr  Határozószó Igei_fr  Ige Főnévi_fr Főnévi_fr  Főnévi_fr Főnévi_fr Főnévi_fr  Névelő (Melléknévi_fr) Főnév Főnévi_fr  Névelő Főnév Melléknévi_fr  Melléknév Határozószó  tegnap Ige  láttam Névelő  a Melléknév  fiatal Főnév  rendőrt, távcsővel ...

25 + Morfológiai megkötések
*Tegnap láttalak a rendőrt a távcsővel *Tegnap látom a rendőrt a távcsővel. *Tegnap láttam a rendőrhöz a távcsőnek + Szabadabb szórend Láttam tegnap a rendőrt a távcsővel. A rendőrt tegnap láttam a távcsővel. A távcsővel a rendőrt tegnap láttam.

26 Szemantika A jelentés meghatározása
∃x,y Birtokol(x)∧Birtokló(Beszélő,x)∧ BirtokolValamit(y,x)∧Autó(y) Van egy autóm Szemantika A jelentés meghatározása

27 Információk kivonása „Mondjon nekem reggeli járatokat kedden Bostonból San Franciscoba.” MUTAT: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: SF

28 LISTÁZ -> mondjon nekem | szeretnék | mutatna|…
INDULÁSIIDŐ -> ÓRA (előtt|körül|után) | reggel | délután | este ÓRA -> egy|két|három…|huszonnégy JÁRAT -> (egy) járat|járatok EREDET -> VÁROS-EREDET_HELYRAG CÉL -> VÁROS-CÉL_HELYRAG VÁROS -> Boston | San Francisco | Budapest

29 Mondat tematikai elemzése
Frázisok → Tematikus szerepek a morfoszintaktikai struktúra alapján A kutya tegnap a házig kergette a macskát. Alany → Ágens Tárgy → Páciens Helyragos NP/PP/helyhatározó → Cél Időhatározó/PP/ragozott NP → Idő

30 Gépi fordítás Szabályalapú rendszerek Statisztikai rendszerek
morfoszintaktikai és szemantikai elemzés nyelv-független általánosítás szöveg generálása a célnyelven Statisztikai rendszerek Parallel korpuszok A kettő kombinációja

31 Webforditas.hu Az olvasónak mindenesetre jó találgatást és kevés tévedést kívánnak a szerkesztők. The editors wish the reader a good guessing and few mistakes whatever. A szerkesztők kívánnak az olvasó egy jó találgató és kevés hiba bármi.

32 Szövegkivonatolás Kivonatolás Absztraktkészítés
Szavak, szókapcsolatok, mondatok kiválasztása a szövegen belüli gyakoriság és pozíció és az általános gyakoriság alapján Absztraktkészítés Jelentésreprezentáció a szövegről, és ez alapján generál összefoglalót

33 Kérdés válaszoló rendszerek
Zárt vs. nyitott rendszerek BASEBALL, LUNAR (földtani adatok) Rendszerezett adatbázisok alapján Nem rendszerezett dokumentumhalmaz alapján Wolfram Alpha

34 Chatterbot-ok ELIZA A.L.I.C.E. – többszörös Loebner díjas Jabberwacky
Kyle Mitsuku

35 Eliza: „pszichoterapeuta” Weisenbaum 1966
A férfiak mind egyformák. Ezt hogy érted? Mindig nyaggatnak minket valamiért. Mondanál egy konkrét példát? Hát, a fiúm küldött ide. A fiúd küldött ide. Azt mondja, mindig depressziós vagyok. Sajnálom, hogy depressziós vagy. Talán ki kellene békülnöm az anyámmal. Mesélj még a családodról.

36 A módszer: Kulcsszókeresés Kulcsszó aktivál egy szabályt
mindig anyám Kulcsszó aktivál egy szabályt Mondanál egy konkrét példát? Mesélj még a családodról. Reguláris kifejezések segítségével behelyettesítés a szabálynak megfelelően fiúm -> fiúd


Letölteni ppt "Nyelvtechnológia Ladányi Enikő"

Hasonló előadás


Google Hirdetések