A beszéd- technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT.

Slides:



Advertisements
Hasonló előadás
SZAKDOLGOZAT a tudományos munka iskolája
Advertisements

Virtualizált Biztonságos BOINC Németh Dénes Deák Szabolcs Szeberényi Imre.
Logók és logfájlok Az online közönségmérés kihívásai.
Jövő Internet technológiák és alkalmazások kutatása Magyarországon A Magyar Tudomány Hónapja Jövő Internet technológiák és alkalmazások kutatása Magyarországon.
Néhány fontos terület a Kreatív Ipar fejlődéséhez
Takács György 15. előadás Készítette Feldhoffer Gergely
T-Systems RIC Kutatási Kft.
Gépi beszédfelismerés
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Parajdi István.
Szemiot i ka.
A jövő technológiái Kőnig Tibor főmérnök, Microsoft Magyarország blogs.msdn.com/tibork-on-ms blogs.msdn.com/tibork-on-ms.
E-learning és a multimédia
Híranyagok tömörítése
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
„A szociálpolitikus és szociális munkás képzés megújítása az ELTE és a BCE együttműködésében (SZOCMEG)” TAMOP /2/A/KMR-0043 A projekt az Európai.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
A számítógépes nyelvfeldolgozás alapjai
Beszédtechnológia, beszédfelismerés
Kimeneti követelmények a 8. osztály végén
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Fülemüle informatika verseny
Operációs Rendszerek II.
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
Hasznos információk a kétszintű kémia érettségiről
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
Idegen nyelvek tanulása
Textúra elemzés szupport vektor géppel
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Matematikai eszközök a környezeti modellezésben
1 BESZÉDFELISMERŐ RENDSZERES ALKALMAZÁSA AZ ÉRDEKKÉPVISELETI MUNKÁBAN (ELŐKÉSZÍTÉS) A STRATOSZ SZÁMÁRA KIDOLGOZOTT VÁLTOZAT Készült a MAT támogatásával,
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Portálrendszerek és biztonság Bártházi András Első Magyarországi PHP Konferencia március 29. Copyright PHP Konferencia, 2003,
Kézmozdulat felismerő rendszer
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
SPECIÁLIS TANULÁSI NEHÉZSÉGEK
Gondolkodjunk el ! Zene A változások már léteznek!
Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) II. Hanyecz Lajos.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Miért nem internetezik mindenki? Pintér Róbert Információs Társadalom és Trendkutató Központ Internethajó Be kell hozni a hátrányt,
Bevezetés Előadó: Blasszauer János Kaposvár, január 14.
Kommunikáció szerepe a kapcsolattartásban
1 Számítógépek felépítése 13. előadás Dr. Istenes Zoltán ELTE-TTK.
Oktatáskutató és Fejlesztő Intézet 1051 Budapest, Dorottya u Az ökoiskolák előtt álló jelenlegi kihívások és a lehetséges válaszlehetőségek.
AKTUÁLIS KÉRDÉSEK A komplex feltételrendszer megváltozása hagyományos problémáról - problémára szemléletmód felváltása a műszaki, gazdasági és egyéb feltételek.
"Adjatok egy fix pontot, és kimozdítom a Földet"
A Nyelv- és Beszédtechnológiai Platform egy éve Váradi Tamás MTA Nyelvtudományi Intézet Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
A BKF tudástranszfer modellje a
Modellek a számítógép megismeréshez Takács Béla
Biztonság kábelek nélkül Magyar Dénes május 19.
 A TIOP pályázat SNI csomagjai  Gépi beszédfelismerés  Digitális tananyagok akadálymentesítése sajátos nevelési igényű tanulók számára  SNI IKT.
 Fizikai és infokommunikációs akadálymentesítés  Digitális tananyagok akadálymentesítése  Gépi beszédfelismerés.
Szeretnéd, hogy gyermeked szívesen és gátlások nélkül beszéljen majd angolul? Szeretnéd, ha minél korábban, Te magad vezethetnéd be játékosan az angol.
Informatikai klub „Itt az IT”
Azt mondom, amit tudok bizonytalan vagyok nem tudom, nem fogom nem tudom, elkerülöm.
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Mikrofonok Elvek, felépítés, jellemzők és alkalmazások
Tibor Fegyó SpeechTex Kft.
Takács György, Olaszy Gábor, Podoletz György, Tihanyi Attila
SZÁMVÁLTOZÁS BEMONDÓ AUTOMATA
A gépi beszédfelismerés kezdeti kutatásai
A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter.
Előadás másolata:

A beszéd- technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT

Áttekintés Bevezetés Helyzetkép Mitől, hogyan működik? Kihívások és válaszlehetőségek A közeljövő alkalmazásai Összegzés

Bevezetés A beszédtechnológia két fő ága: Gépi beszédfelismerés (ASR: Automatic Speech Recognition) Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat) Gépi beszédkeltés (TTS: Text To Speech) Az előző megfordítása Mellékágak: Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.

Bevezetés A beszédtechnológia két fő ága: Gépi beszédfelismerés (ASR: Automatic Speech Recognition) Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat) Gépi beszédkeltés (TTS: Text To Speech) Az előző megfordítása Mellékágak: Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.

Bevezetés II. A beszéd-szöveg átalakítás kiemelt jelentőségű, mert Ami igazán fontos, élőszóban hangzik el Gyorsabban és könnyebben beszélünk, mint írunk „Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs: beszédinformáció-kivonatolás, -visszakeresés, -strukturálás beszédértés (szűk értelemben se) beszédfordítás hanggal-, hangból keresés Nagyszámú alkalmazás épít(ene) rá A korszerű beszédkeltési technológiák is erre alapoznak

Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható! A áttörés

Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható! A gépi beszédfelismerés is!!!

Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható! A gépi beszédfelismerés is!!! Noha a beszédfelismerési technológia messze nem tökéletes, a használhatósága ma már nem kétséges!

Az áttörés megtörtént – a beszédtechnológia használható! Használható: kisebb költséggel, többet tud a gép, mint az ember?! Igen! Ki tudja 200 óra hangzó híranyagban megtalálni a megadott 1000 kulcsszó ~50%-át 24 óra alatt? 2 db (4 magos) CPU képes rá! (RTF<1 /mag) 2 ember, > 2 hét – csak lehallgatás (RTF>1 /fő) 12 ember, > 2 hét – teljes lejegyzés (RTF>6 /fő) Áramdíj 200 eFt / 1.2 MFt

Az áttörés megtörtént – a beszédtechnológia használható! Használható: többet tud a gép, mint az ember?! Igen! Ki képes egy nagyváros összes lakosának (~ ) fő nevét és lakcímét első hallásra 10 esetből min. 9-szer hibátlanul leírni? 1 db CPU képes rá (+ beszédtechnológia)! ~0 sec válaszidő!! Áramdíj, válaszidő: ~ 0 visszakérdezések, hibák

Az áttörés megtörtént – a beszédtechnológia használható! Használható: kisebb költséggel, többet tud a gép, mint az ember?! Igen, igen! A beszédszintetizátor bármit kimond Nem fárad el, nem reked be Ha kérik, gyorsabban beszél, ha kérik, lassabban Nem sértődik meg, ha a felmenőit emlegetik …

Az áttörés megtörtént – a beszédtechnológia használható! Mitől? Új kutatási eredmények? – Alapjait tekintve nem igazán, több éve kiforrott a technológia… Meg van oldva a probléma? – Határozottan nincs Inkább: A beszédtechnológia megtalálta az alkalmazásait! A számítástechnika fejlődése egyre inkább lehetővé teszi a megfelelő (jórészt már ismert) algoritmusok alkalmazását

Mitől, hogyan működik? „Megérti a gép, amit mondok?” Neeeemm! (A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…) „Leírja, amit mondok?” Ez a cél, de általánosságban ez sem teljesül…

Mitől, hogyan működik? A gépi beszédfelismerés alapelve: I. Lényegkiemelés (jelfeldolgozás, normalizálások) II. Mintaillesztés (tárolt modellekhez történő összehasonlítás) Összetett beszédmodell Nyelvi, akusztikai információk Összehasonlítások!!! Órási keresési tér (akár > szósorozat) Mindig a legjobban illeszkedő modellekre-útvonalra döntünk! „eredmények a beszédtechnológiában”

Mitől, hogyan működik? Honnan vesszük a beszédfelismerési modelleket? Szinte minden statisztikai alapú! Lejegyzett beszédadatra van szükség a modelltanításhoz Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra van szükség a megfelelő becsléshez Nincs általános modell, minden feladatra külön kell gyűjteni Mindig számolni kell jelentős beszédfelismerési hibával A beszédfelismerési hiba főként attól függ, hogy akusztikailag, nyelvileg mennyire különböző lehetőségek közül választhatunk a mintaillesztés során Nem egyszerű feladat eldönteni, hogy az optimális felismerési eredmény (szósorozat) helyes is egyben

Kihívások és válaszlehetőségek Az ideális beszédfelismerő rendszer… … zajban sem rosszabb, az embernél … távoli mikrofonnal működik … témafüggetlen … beszélőfüggetlen (a beszédhibákat is kiküszöböli) … stílus-független (spontán beszédre is működik) … minden nyelvre könnyen adaptálható (…kis fogyasztású, olcsó eszközön fut) (…kézi átirat nélkül tanítható) …talán sosem fog működni… de azért….

Kihívások és válaszlehetőségek Zajtűrő beszédfelismerés A zaj elmossa az akusztikai különb- ségeket Nem mindegy milyen (fehérzaj vs. háttérzene, -beszélgetés) Válasz: nemlineáris, idővariáns, nem- stacionárius megközelí- tések, fizikusok, agy- és halláskutatókkal közös kutatások, stb. Wall Street Journal – Olvasott hírek Humán vs Cambridge HTK LVCSR beszédfelismerő Szófelismerési hiba % Jel-zaj viszony dB ZajosTiszta

Kihívások és válaszlehetőségek Távoli mikrofon (distant speech recognition) Probléma: a jelenlegi módszerek a közeli mikrofonokra, és/vagy csendes körülményekre használhatóak Távoli mikrofon: rossz jel-zaj viszony Válasz: a zajtűrő módszereken felül, mikrofon tömbök, adaptív karakterisztika szabályozás, önirányító mikrofonok

Kihívások és válaszlehetőségek Témafüggetlenség Probléma: a jelenlegi módszerek adott témakörökre igényelnek nagy mennyiségű tanítóanyagot, eltérő témára lényegesen nő a felismerési hiba Beszélőfüggetlenség Probléma: a jelenlegi módszerek a standard nyelvet kezelik, tájszólásra, beszédhibára kevésbé felkészültek Válaszok Minden eddiginél nagyobb mennyiségű tanítóadat használata Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy félig felügyelt módszerek kutatása

Kihívások és válaszlehetőségek Beszédstílus-függetlenség Probléma: a jelenlegi módszerek a spontán (lazán artikulált, bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a felismerési hiba Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően spontán Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!) Arab, észt, finn, magyar, török: a szóalaki változatosság jóval nagyobb, mint az angol, spanyol, német, stb. nyelvekre Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár, rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli szavak nagy száma alacsonyabb szófelismerési pontosság

Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Magyar (tervezett) Magyar (félig tervezett) Magyar (spontán)

Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Angol szavak ~ magyar morf(émák) Illusztráció: look at it ~ néz + d Építsük a nyelvi és kiejtési modelleket szó helyett morféma (szótő, rag, stb.) alapon Szó  morféma leképezés? Nyelvi szabály alapon? Statisztikai felügyelet nélküli módszerrel? Kombináció? Szóhatár visszaállítás?

Szóalaki változatosság – beszédstílus, nyelvek Morféma alapú rendszerek Szófelismerési pontosság % Hibacsökkenés % Spontán Sajtótájékoztató Hírműsor Tisztán statisztikai (MB) morf-alapú rendszerek javulása Akusztikus adaptáció hatása Sp. St. Hír Magyar nyelvű beszédfelismerési eredmények Szótárméret: 20K-285K szó 2k – 80K morf

Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Morféma-alapú megközelítések általi felismerési hibacsökkenés nemzetközi összehasonlításban Javulás statisztikai morf modellezés által [%] Különböző szóalakok száma 160 ezer szavas korpuszban [x1000] R=0,937

Kihívások és válaszlehetőségek Beszédstílus-függetlenség Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek A nyelvfüggetlen statisztikai módszer hatékonysága nem elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki változatosságtól függ Minél nagyobb a szóalak-változatossági probléma, annál jobban segít Mégsem ettől lesz kicsi a felismerési hiba Válasz? minden eddiginél több tanítóadat? minden eddiginél nagyobb memória?

Kihívások és válaszlehetőségek Tanítóadatbázis-méret növelés Kulcsfontosságú mind a kutatás, mind a fejlesztés szempontjából Ahol az adat, ott fejlődik(-het) a technológia… 3 éves gyerek 5M-20M szót hallott! Probléma: drága az előállítás (beszélt nyelvi korpuszokról van szó!), a kutatás-fejlesztési eszköztár is az… Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség >1.5 MFt) – és ez csak a „voice search” alkalmazás… Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig felügyelt módszerek kutatása, felügyelet nélküli módszerek kutatása

A közeljövő alkalmazásai Jó – közepes akusztikai viszonyokra készülnek Felismerési hiba tűrőek Az embert nem „lecserélni”, segíteni akarják Ezeknek megfelelő gyakorlati feladatok: audio indexálás, keresés hang (video)tárakban, információ kivonatolás hanganyagból, kategorizálás, infobányászat, audio minőségbiztosítás, ügyfélszolgálat részbeni automatizálása, …

A közeljövő alkalmazásai A folyamatos nagyszótáras beszédfelismerési technológia potenciális felhasználói általános beszédinformációs tárak: rádió, TV, mozi vállalati szféra: mindenféle szintű megbeszélések hanganyaga, ügyfélszolgálatok, sajtótájékoztatók állami szféra: felügyelő szervek, biztonsági szervek oktatás-kutatás: konferencia-, tanrendi előadások internetezők… Nem az a kérdés, hogy a beszédtechnológia alkalmazásérett-e, hanem, hogy ki kerül versenyhátrányba, mert későn ébredt….

Összefoglalás Az áttörés megtörtént – a beszédtechnológia használható! Az általános probléma még nincs megoldva A kutatás-fejlesztés számára létfontosságú az eddigieknél sokkal komolyabb adatbázis- infrastruktúra kialakítása Vannak olyan kutatási területek, melyek illeszkednek a hazai adottságokhoz és jól exportálhatóak

Köszönöm a figyelmet! „Az áttörés megtörtént – a beszédtechnológia használható!”