MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat? - Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?
MI 2003/ Két nagyobb terület Természetes-nyelv feldolgozás, folyamatban levő projektek Beszédfeldolgozás, folyamatban levő projektek
MI 2003/ Nyelvfeldogozás: - Nagyon sok elektronikusan hozzáférhető szöveg (például a MEK, a Magyar Nemzeti Szövegtár), sokféle formátum. - Első lépés: szegmentálás (eredmény: tagolt szöveg, mondatok, szavak, tokenek). Legfontosabb problémák.
MI 2003/ Morfo-szintaktikai elemzés (morfológia- alaktan). Lexikon. A magyar agglutináló (toldalékoló) nyelv, amelyben a szótőhöz képzőket, ragokat illeszthetünk (az angolban szinte nincsenek ragok). Feladat: szótövek+illesztések meghatározása. Különböző kódrendszerek, általában fix pozíciókkal (MSD - ablak: Ncsn főnév, köznév, egyes szám, alanyeset)
MI 2003/ Egyértelműsítés: az előző címkézési eljárás nem egyértelmű - szótár, toldalékok. Szeged korpusznál (1 millió szó) 52% többértelmű. Hogyan válasszuk ki a megfelelő jelentést? Kézzel, pontosan elemzett minta + tanuló eljárások. Bayes döntés, Markov láncok, szabályok alkalmazása. Legjobb eredmények: 3-4 % hiba marad.
MI 2003/ Más nyelveknél is szükség van erre az előfeldolgozásra, például angolban a Brown korpusz (1961) az első elkészült nagy anyag. A szövegben további jelek kellenek - speciális formátumok: XML (Extensible Markup Language, 1998), SGML (Standard Generalized …) a leggyakoribb standard fogalmak. HTML.
MI 2003/ Szintaxis (mondattan). Kezdés: főnévi szerkezetek kijelölése (NP, noun phrase). Pl. egy nagy piros ház (főnév + balról jelzős szerkezet és determináns). Névszói szerkezetek. Melléknevek, számnevek, névmások. Igei vonzáskeretek (magyar igéknek 0, 1, 2, 3, 4 bővítménye lehet).
MI 2003/ Teljes szintaktikus elemzés. Mondatfa. mondat (Láttam tárgy ( fn-csoport (egy igei-csop ( tárgy ( fn- csoport (hordó tokaji)t) hordó tokaji)t). Általában szabályokat keresünk, azokat próbáljuk alkalmazni morfológiailag már egyértelműsített szövegen. Chomsky: generatív grammatikák. Alulról felfelé, felülről lefelé elemzés.
MI 2003/ A mondatok jelentése: atomi jelentések, kombinálási szabályok. Montague nyelvtanok. Szematika (jelentéstan). Fogalmi hálók, wordnet. Keretek. A Szeged korpusz szintaktikai feldolgozása. Gazdasági hírek szemantikus feldolgozása.
MI 2003/ Vissza: tudásábrázolás Szabályalakú rendszerek: ha A akkor B alakú mondatok. Példa: nyolcas kirakós játék. Előre haladó (adatvezérelt). Visszafelé haladó (célvezérelt).
MI 2003/ Szemantikus (vagy asszociatív) hálók. Formálisan címkézett irányított gráfok, ahol a gráfok csúcsai fogalmakat vagy objektumokat reprezentálnak, az élek pedig a közöttük meglevő viszonyoknak, kapcsolatoknak felelnek meg, például: tagja (eleme) (instance of), ekvivalens (is equivalent of), tulajdonságú (has property of, színe, mérete), részosztálya (subclass of), ez egy (típusa) (is a ), részhalmaza (has part of).
MI 2003/ Nincs szabványos szintaxis, szemantika. Példa. A szemantikus háló felépítése. Öröklődés. Előnyök (explicit és tömör ábrázolás), hátrányok (nagy méretnél nehéz áttekinteni, nehéz szabványosítani a keresést). Következtetések a szemantikus hálón: tényháló, célháló. Kivételek és ellentmondások kezelése, prioritások.
MI 2003/ (Tudás)keret (frame): valamely fogalom vagy objektum strukturált modellje. A tulajdonságokat (attribútumokat) a keret rekeszei vagy bejegyzései nevezik meg – szemantikus háló továbbfejlesztése (érték megadása, alapértelmezése, forrása, a változáskor végrehajtandó eljárások (démonok)). Keretnyelv. Példa.
MI 2003/ Lényegesnek tűnő különbség a szemantikus hálókhoz képest: formális leírás létezik (keretnyelv). Valójában nem sok eltérés. Legegyszerűbb: a szemantikus háló átírása az adott keretnyelvre. Példa. Osztályok (legfelső szint) és példányok. Öröklődés.
MI 2003/ Attribútumok megadása relációkkal. Bejegyzések: domain (ért. tart.), range (ért. készl.), constraint (megszorítás az értkészl- re), default (alapértelmezés), inverse, inheritance. Gráfos ábrázolás mellett további lehetőségek, például űrlappal (adatbázissal).
MI 2003/ Előnyök: esemény-vezérelt végrehajtás (démonok), világos, áttekinthető szerkezet, deklaratív és procedurális ismeretek együttes ábrázolása lehetséges. Hátrányok: prototípustól való eltérés nehéz lehet, bővítés is.
MI 2003/ Beszédfelismerés Fonéma: a legkisebb olyan részlet, amiben két szó eltérhet egymástól (gép-kép). - fonetikai változatosság - akusztikai változatosság - beszélők közötti változatosság - adott beszélő esetén levő változatosság
MI 2003/ Beszédértelmezés szintjei - fonetika - fonológia - morfológia (lexika) - szintaktika - szemantika - pragmatika
MI 2003/ Felismerők csoportosítása - beszédjel minősége - beszéd módja - beszélőfüggőség - szótár mérete - nyelvi kötöttség foka
MI 2003/ Általános struktúra - előfeldolgozás - szegmentálás - címkézés - lexikális elemzés (szótár) - nyelvi elemzés (szintaxis) - szemantikai elemzés
MI 2003/ Szegedi alkalmazások - számjegyek felismerése - halláskárosult gyerekek tanítása - beszédszintézis
MI 2003/13 -