MI 2003/13 - 1 Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.

Slides:



Advertisements
Hasonló előadás
GRIN: Gráf alapú RDF index
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
Programozási feladatok
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
A mondat szintagmatikus szerkezete
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tengeralattjáró győzelmi hírek elmaradása – kilövés
A BNO10 formális formális reprezentálása a GALEN alapján
A Magyar Nemzeti Szövegtár
Képességszintek.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Bayes hálók október 20. Farkas Richárd
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/5 - 1 Tudásábrázolás (tudásreprezentáció) (know- ledge representation). Mondat. Reprezentá- ciós nyelv. Tudás fogalma (filozófia, pszichológia,
Szófajok rendszere.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
1. előadás. 1.) Szoftverfejlesztés, mint mérnöki tevékenység. Számítási eszközfejlődés. Számítási eszközfejlődés: hazai viszonyok. Mérföldkő: Simula 67.Klasszikus.
1. előadás. 1.) Szoftverfejlesztés, mint mérnöki tevékenység. Számítási eszközfejlődés. Számítási eszközfejlődés: hazai viszonyok. Mérföldkő: Simula 67.Klasszikus.
Önleíró adatok: XML INFO ÉRA, Békéscsaba
A szövegszerkesztés alapjai
WEB Technológiák WEB-DB és XML ME Általános Informatikai Tsz. dr. Kovács László.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
Orvosi kódrendszerek. Élő és élettelen Környezeti hatás  szerkezetváltozás.
Bevezetés az orvosi kódrendszerekhez 2. előadás Semmelweis Egyetem Egészségügyi szervező szak II. évf
A nyelv problémája természetes, és mesterséges nyelvek.
Komplex rendszertervezési módszerek
Objektum Vezérelt Szoftverek Analízise Ferenc Rudolf és Beszédes Árpád Szegedi Tudományegyetem FrontEndART.
ISMERETALAPÚ RENDSZEREK SZAKÉRTŐ RENDSZEREK
Ismeretalapú rendszerek alaptechnikái I. Szabályalapú rendszerek.
Ismeretalapú rendszerek alaptechnikái I. Szabályalapú rendszerek.
2003. december 18.Gyires Béla Informatikai Nap1 Következtés tudás alapú rendszerekben Bognár Katalin Debreceni Egyetem Informatikai.
Az Alakfelismerés és gépi tanulás ELEMEI
A Magyar Nemzeti Szövegtár
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Intelligens Felderítő Robotok
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
ONTOLÓGIA és TUDÁSREPREZENTÁCIÓ Szőts Miklós Alkalmazott Logikai Laboratórium
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Fogalom-rendszerek - bevezetés -. Minden fogalom az emberi gondolkodás terméke Mindazok a dolgok, amelyek alapján a fogalom létrehozható, az emberi gondolkodástól.
Logika 2. Klasszikus logika Miskolci Egyetem Állam- és Jogtudományi Kar Jogelméleti és Jogszociológiai Tanszék február 17.
Nyelvi nevelés 5-8. évfolyam 1. rész: A koncepció Molnár Cecília alapján aug
Atomi mondatok FOL-ban Atomi mondat általában: amiben egy vagy több dolgot megnevezünk, és ezekről állítunk valamit. Pl: „Jóska átadta a pikk dámát Pistának”
XML adatkezelés 1. témakör Az XML szabvány.
XML Mi az XML?  Extensible Markup Language  Kiterjeszthető jelölő nyelv  Adatok, adatstruktúrák leírására szolgál  A HTML és az SGML tapasztalataira.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Az XML nyelv (Extensible Markup Language). XML  XML: leíró nyelv (metanyelv)  XML alkalmazás: egy megalkotott nyelv  XML dokumentum: egy új nyelv egy.
Adatbázisszintű adatmodellek
A generatív nyelvelmélet
Bevezetés a pszichológiába Illés Anikó. Gondolkodás Propozícionális gondolkodás Képzeleti gondolkodás Motoros gondolkodás.
Bevezetés a nyelvtudományba 3. Nyelvi szintek
A nyelvtan szerepe és célja
Programozási nyelvek alapfogalmai
Leíró nyelvtan - adatbázisból
Bevezetés Tematika Számonkérés Irodalom
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
A kerettanterv (5–6. osztály) Magyar nyelv és irodalom
Előadás másolata:

MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat? - Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?

MI 2003/ Két nagyobb terület Természetes-nyelv feldolgozás, folyamatban levő projektek Beszédfeldolgozás, folyamatban levő projektek

MI 2003/ Nyelvfeldogozás: - Nagyon sok elektronikusan hozzáférhető szöveg (például a MEK, a Magyar Nemzeti Szövegtár), sokféle formátum. - Első lépés: szegmentálás (eredmény: tagolt szöveg, mondatok, szavak, tokenek). Legfontosabb problémák.

MI 2003/ Morfo-szintaktikai elemzés (morfológia- alaktan). Lexikon. A magyar agglutináló (toldalékoló) nyelv, amelyben a szótőhöz képzőket, ragokat illeszthetünk (az angolban szinte nincsenek ragok). Feladat: szótövek+illesztések meghatározása. Különböző kódrendszerek, általában fix pozíciókkal (MSD - ablak: Ncsn főnév, köznév, egyes szám, alanyeset)

MI 2003/ Egyértelműsítés: az előző címkézési eljárás nem egyértelmű - szótár, toldalékok. Szeged korpusznál (1 millió szó) 52% többértelmű. Hogyan válasszuk ki a megfelelő jelentést? Kézzel, pontosan elemzett minta + tanuló eljárások. Bayes döntés, Markov láncok, szabályok alkalmazása. Legjobb eredmények: 3-4 % hiba marad.

MI 2003/ Más nyelveknél is szükség van erre az előfeldolgozásra, például angolban a Brown korpusz (1961) az első elkészült nagy anyag. A szövegben további jelek kellenek - speciális formátumok: XML (Extensible Markup Language, 1998), SGML (Standard Generalized …) a leggyakoribb standard fogalmak. HTML.

MI 2003/ Szintaxis (mondattan). Kezdés: főnévi szerkezetek kijelölése (NP, noun phrase). Pl. egy nagy piros ház (főnév + balról jelzős szerkezet és determináns). Névszói szerkezetek. Melléknevek, számnevek, névmások. Igei vonzáskeretek (magyar igéknek 0, 1, 2, 3, 4 bővítménye lehet).

MI 2003/ Teljes szintaktikus elemzés. Mondatfa. mondat (Láttam tárgy ( fn-csoport (egy igei-csop ( tárgy ( fn- csoport (hordó tokaji)t) hordó tokaji)t). Általában szabályokat keresünk, azokat próbáljuk alkalmazni morfológiailag már egyértelműsített szövegen. Chomsky: generatív grammatikák. Alulról felfelé, felülről lefelé elemzés.

MI 2003/ A mondatok jelentése: atomi jelentések, kombinálási szabályok. Montague nyelvtanok. Szematika (jelentéstan). Fogalmi hálók, wordnet. Keretek. A Szeged korpusz szintaktikai feldolgozása. Gazdasági hírek szemantikus feldolgozása.

MI 2003/ Vissza: tudásábrázolás Szabályalakú rendszerek: ha A akkor B alakú mondatok. Példa: nyolcas kirakós játék. Előre haladó (adatvezérelt). Visszafelé haladó (célvezérelt).

MI 2003/ Szemantikus (vagy asszociatív) hálók. Formálisan címkézett irányított gráfok, ahol a gráfok csúcsai fogalmakat vagy objektumokat reprezentálnak, az élek pedig a közöttük meglevő viszonyoknak, kapcsolatoknak felelnek meg, például: tagja (eleme) (instance of), ekvivalens (is equivalent of), tulajdonságú (has property of, színe, mérete), részosztálya (subclass of), ez egy (típusa) (is a ), részhalmaza (has part of).

MI 2003/ Nincs szabványos szintaxis, szemantika. Példa. A szemantikus háló felépítése. Öröklődés. Előnyök (explicit és tömör ábrázolás), hátrányok (nagy méretnél nehéz áttekinteni, nehéz szabványosítani a keresést). Következtetések a szemantikus hálón: tényháló, célháló. Kivételek és ellentmondások kezelése, prioritások.

MI 2003/ (Tudás)keret (frame): valamely fogalom vagy objektum strukturált modellje. A tulajdonságokat (attribútumokat) a keret rekeszei vagy bejegyzései nevezik meg – szemantikus háló továbbfejlesztése (érték megadása, alapértelmezése, forrása, a változáskor végrehajtandó eljárások (démonok)). Keretnyelv. Példa.

MI 2003/ Lényegesnek tűnő különbség a szemantikus hálókhoz képest: formális leírás létezik (keretnyelv). Valójában nem sok eltérés. Legegyszerűbb: a szemantikus háló átírása az adott keretnyelvre. Példa. Osztályok (legfelső szint) és példányok. Öröklődés.

MI 2003/ Attribútumok megadása relációkkal. Bejegyzések: domain (ért. tart.), range (ért. készl.), constraint (megszorítás az értkészl- re), default (alapértelmezés), inverse, inheritance. Gráfos ábrázolás mellett további lehetőségek, például űrlappal (adatbázissal).

MI 2003/ Előnyök: esemény-vezérelt végrehajtás (démonok), világos, áttekinthető szerkezet, deklaratív és procedurális ismeretek együttes ábrázolása lehetséges. Hátrányok: prototípustól való eltérés nehéz lehet, bővítés is.

MI 2003/ Beszédfelismerés Fonéma: a legkisebb olyan részlet, amiben két szó eltérhet egymástól (gép-kép). - fonetikai változatosság - akusztikai változatosság - beszélők közötti változatosság - adott beszélő esetén levő változatosság

MI 2003/ Beszédértelmezés szintjei - fonetika - fonológia - morfológia (lexika) - szintaktika - szemantika - pragmatika

MI 2003/ Felismerők csoportosítása - beszédjel minősége - beszéd módja - beszélőfüggőség - szótár mérete - nyelvi kötöttség foka

MI 2003/ Általános struktúra - előfeldolgozás - szegmentálás - címkézés - lexikális elemzés (szótár) - nyelvi elemzés (szintaxis) - szemantikai elemzés

MI 2003/ Szegedi alkalmazások - számjegyek felismerése - halláskárosult gyerekek tanítása - beszédszintézis

MI 2003/13 -