Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

1 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Nyelvtechnológia Ladányi Enikő Látás, nyelv, emlékezet BSc kurzus.

Hasonló előadás


Az előadások a következő témára: "1 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Nyelvtechnológia Ladányi Enikő Látás, nyelv, emlékezet BSc kurzus."— Előadás másolata:

1 1 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Nyelvtechnológia Ladányi Enikő Látás, nyelv, emlékezet BSc kurzus

2 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Mire jó a nyelvtechnológia? Szöveg-felolvasó rendszerek (text-to- speech) Beszédfelismerés Gépi fordítás Gépi összegzés, szövegkivonatolás Kérdés-válaszoló rendszerek

3 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Mesterséges intelligencia Ellenőrző gondolatkísérlet: nyelvi Alan Turing, 1950: a Turing teszt (gondolatkísérlet) Akkor megy át egy gép a próbán, ha a középen lévő ember nem tudja eldönteni, géptől vagy embertől jött-e a válasz?

4 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem A Kínai Szoba John Searle, 1980 Levelezek a géppel kínaiul Hogyan tudom eldönteni, hogy egy igazi kínai van a másik szobában, vagy egy gép?

5 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem A nyelvtechnológia részfeladatai Beszédfelismerés Parsing (elemzés) Szemantikai elemzés Inferencia Beszédszintézis Generálás

6 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Nyelvtechnológia ma: Két alapelv Szabályalapú Példaalapú statisztikai  korpuszok Két egymással ellentétes cél:  Lefedettség növelése (hamis negatívok csökkentése) -- lazítás  Pontosság növelése (hamis pozitívok csökkentése) -- szigorítás

7 7 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Beszédfelismerés Hangsorokból szavak NemtomNEM TUDOM

8 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Beszédgondok Bayesi beszédfelismerés Nehéz feladat a hanginger zajossága miatt Ha adott egy „h” hangsor, mi a valószínűsége egy „s” szónak? → P(s|h)

9 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem A bayesi beszédfelismeréshez szükséges tárak  Variáció-korpusz: hangsorokhoz rendelt szólisták (szem -> szem, eszem, azt hiszem…) – s szavak  Korpusz: szógyakoriság P(s)  Fonotaktikai folyamatok valószínűségei (pl. szóközi szótag lehagyása) – P(h|s)

10 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem P(s|h) = P(h|s)P(s) P(szem|szem) = P(szem|szem)P(szem) P(eszem|szem) = P(szem|eszem)P(eszem) P(azthiszem|szem) = P(szem|azthiszem)P(azthiszem)

11 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem A környezet figyelembevétele N-gram modellek  P(eszem|villával)=P(villával eszem)/P(villával) P(s|h) = P(h|s)P(s) -> P(s|h) = P(h|s)P(s|s-1)

12 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Bigram nyelvtan szemeszemAzt hiszem zöldeskék villával komolyan

13 13 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Parsing Szófaji és morfológiai elemzés ALAKÍTOTTÁK alak >

14 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Elemző komponensei Szófaj meghatározása + morfológiai összetétel elemzése Szótár  Szótövek listája Szófaji kategóriájuk (főnév, ige, határozószó, stb) Morfofonológiai kategóriájuk  Sziszegő végű: olvas Alternatív töveik (pl.: bokor, bokr) -> ELEMZÉS CSAK SZÓTÁRRAL?

15 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Elemző komponensei Szabályok  Toldalékok listája  Milyen szófajhoz milyen morfológiai jegy tartozhat  Morfofonológiai kategóriák: Sziszegő végű: olvas, olvasOL, *olvasSZ Egyéb: fél, félSZ  Morfotaktika: affixumok sorrendje Kenyer-em-et, *kenyer-et-em Szeletem: szelet-em és nem *szel-et-em

16 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Az elemzés feladatai Szóalakok felcímkézése a szótár és nyelvtan szabályai alapján → egy egyértelmű eredmény → több lehetséges elemzés → nem található a szótárban

17 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem alak alak alakult1 alak > alakult2 alak alakították alak > alakítsunk alak > >

18 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Többértelműség feloldása Szövegkörnyezet segítségével A tűz felmelegítette az átfagyott túrázókat tűz A tűz → tűz

19 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Ismeretlen szavak Ha a szótárban nem szerepel egy szó... Többértelmű címkézés+egyértelműsítés szövegkörnyezet alapján  egyenletes elosztásban (minden címke)  címke-gyakoriság szerint (bizonyos gyakorisági küszöb fölött) Morfológiai szerkezet alapján  Roxfortban Szémisen rottolnak a makánok a leghöntebb mufjotukban. 95 – 98% teljesítmény ( a címketár méretétől függően ) Megfelel az ember teljesítményének!

20 20 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Parsing Mondat szerkezeti elemzése A Det kutya NounNom kergette VerbPast a Det macskát NounAcc [A Det kutya Noun ] NP [kergette VerbPast [a Det macskát NounAcc ] NP ] VP

21 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Mondatelemzés Elemzés célja: a szavak közötti szintaktikai/szemantikai viszonyok feltárása  Dependencia nyelvtanok  Frázis-struktúra nyelvtanok

22 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem

23 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem

24 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Környezet-független nyelvtan Mondat  Határozói_fr Igei_fr Határozói_fr  Határozószó Igei_fr  Ige Főnévi_fr Főnévi_fr  Főnévi_fr Főnévi_fr Főnévi_fr  Névelő (Melléknévi_fr) Főnév Főnévi_fr  Névelő Főnév Melléknévi_fr  Melléknév Határozószó  tegnap Ige  láttam Névelő  a Melléknév  fiatal Főnév  rendőrt, távcsővel...

25 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem + Morfológiai megkötések  *Tegnap láttalak a rendőrt a távcsővel  *Tegnap látom a rendőrt a távcsővel.  *Tegnap láttam a rendőrhöz a távcsőnek + Szabadabb szórend  Láttam tegnap a rendőrt a távcsővel.  A rendőrt tegnap láttam a távcsővel.  A távcsővel a rendőrt tegnap láttam.

26 26 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Szemantika A jelentés meghatározása Van egy autóm ∃ x,y Birtokol(x) ∧ Birtokló(Beszélő,x) ∧ BirtokolValamit(y,x) ∧ Autó(y)

27 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Információk kivonása „Mondjon nekem reggeli járatokat kedden Bostonból San Franciscoba.” MUTAT: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: SF

28 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem LISTÁZ -> mondjon nekem | szeretnék | mutatna|… INDULÁSIIDŐ -> ÓRA (előtt|körül|után) | reggel | délután | este ÓRA -> egy|két|három…|huszonnégy JÁRAT -> (egy) járat|járatok EREDET -> VÁROS-EREDET_HELYRAG CÉL -> VÁROS-CÉL_HELYRAG VÁROS -> Boston | San Francisco | Budapest

29 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Mondat tematikai elemzése Frázisok → Tematikus szerepek a morfoszintaktikai struktúra alapján A kutya tegnap a házig kergette a macskát. Alany → Ágens Tárgy → Páciens Helyragos NP/PP/helyhatározó → Cél Időhatározó/PP/ragozott NP → Idő

30 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Gépi fordítás Szabályalapú rendszerek  morfoszintaktikai és szemantikai elemzés  nyelv-független általánosítás  szöveg generálása a célnyelven Statisztikai rendszerek  Parallel korpuszok A kettő kombinációja

31 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Webforditas.hu Az olvasónak mindenesetre jó találgatást és kevés tévedést kívánnak a szerkesztők. The editors wish the reader a good guessing and few mistakes whatever. A szerkesztők kívánnak az olvasó egy jó találgató és kevés hiba bármi.

32 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Szövegkivonatolás Kivonatolás  Szavak, szókapcsolatok, mondatok kiválasztása a szövegen belüli gyakoriság és pozíció és az általános gyakoriság alapján Absztraktkészítés  Jelentésreprezentáció a szövegről, és ez alapján generál összefoglalót

33 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Kérdés válaszoló rendszerek Zárt vs. nyitott rendszerek BASEBALL, LUNAR (földtani adatok) Rendszerezett adatbázisok alapján Nem rendszerezett dokumentumhalmaz alapján Wolfram Alpha

34 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Chatterbot-ok ELIZA A.L.I.C.E. – többszörös Loebner díjas Jabberwacky Kyle Mitsuku

35 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Eliza: „pszichoterapeuta” Weisenbaum 1966 A férfiak mind egyformák. Ezt hogy érted? Mindig nyaggatnak minket valamiért. Mondanál egy konkrét példát? Hát, a fiúm küldött ide. A fiúd küldött ide. Azt mondja, mindig depressziós vagyok. Sajnálom, hogy depressziós vagy. Talán ki kellene békülnöm az anyámmal. Mesélj még a családodról.

36 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem A módszer:  Kulcsszókeresés mindig anyám  Kulcsszó aktivál egy szabályt Mondanál egy konkrét példát? Mesélj még a családodról.  Reguláris kifejezések segítségével behelyettesítés a szabálynak megfelelően fiúm -> fiúd


Letölteni ppt "1 Kognitív Tudományi Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Nyelvtechnológia Ladányi Enikő Látás, nyelv, emlékezet BSc kurzus."

Hasonló előadás


Google Hirdetések