Gépi beszédfelismerés

Slides:



Advertisements
Hasonló előadás
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
Advertisements

Néhány fontos terület a Kreatív Ipar fejlődéséhez
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis.
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tengeralattjáró győzelmi hírek elmaradása – kilövés
Az információszerzés.
A „HANGOK TANÁTÓL” A BESZÉDTECHNOLÓGIÁIG
A Blown-up rendszer Biczók Gergely Rónai Miklós Aurél BME Számítástudományi és Információelméleti Tanszék Turányi Zoltán Richárd Ericsson Traffic Lab Valkó.
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
A beszéd- technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT.
RENDSZERINTEGRÁLÁS B_IN012_1
A jövő technológiái Kőnig Tibor főmérnök, Microsoft Magyarország blogs.msdn.com/tibork-on-ms blogs.msdn.com/tibork-on-ms.
Williams szindróma (WS) diagnosztizálási lehetősége egyszerű kétfülű érthetőség- vizsgálattal Vicsi Klára Beszédakusztikai Laboratórium BME Távközlési.
A beszéd.
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
13.a CAD-CAM informatikus
A számítástechnika és informatika tárgya
IKT: Információs és kommunikációs Technológiák
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
A számítógépes nyelvfeldolgozás alapjai
Informatika matematika speciális tagozat - tematika évfolyam -
TANTÁRGY-ORIENTÁLT IDEGEN NYELV OKTATÁS Istvánffy Miklós Általános Iskola.
A technológia szerepe a pedagógiai értékelés fejlesztésében
Stílus és jelentés /társalgási stílus, publicisztikai stílus, tudományos-szakmai stílus, hivatalos stílus /
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Persa György Témavezető: Szabó Csanád Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1.
Vizuális és web programozás II.
A CRM rendszerek sikeresen gyűjtik az adatokat, a DM rendszer pedig biztosítja azt, hogy a vállalatok ne csak tudjanak az ügyfelekről, hanem meg is értsék.
Bemutatkozik a Világhalló Aki még nem hallott mesterségesen generált beszédet azt kérdezi, hogy: Miben különbözik a Világhalló és a beszédszintetizátor?
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
KOMMUNIKÁCIÓ Gyula,
Szintaktikai, szemantikai szabályok
1 BESZÉDFELISMERŐ RENDSZERES ALKALMAZÁSA AZ ÉRDEKKÉPVISELETI MUNKÁBAN (ELŐKÉSZÍTÉS) A STRATOSZ SZÁMÁRA KIDOLGOZOTT VÁLTOZAT Készült a MAT támogatásával,
A kommunikáció nem nyelvi kifejezőeszközei
Térképészet és térinformatika
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
Nyelvi visszacsatolás karakter-, kézírás- és beszédfelismerő rendszerek számára OM, november 21.
Gondolkodjunk el ! Zene A változások már léteznek!
Jogi informatika, 2. előadás Az információs társadalom lényegi ismérvei és egyes modelljei szeptember 21. Témakörök: 1.Az IT-ről általában 2.Az IT.
Podoski Péter és Zabb László. Bevezető Algoritmus-vizualizáció témakörében végeztünk kutatásokat és fejlesztéseket Felmértük a manapság ismert eszközök.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
LOGISZTIKA Előadó: Dr. Fazekas Lajos Debreceni Egyetem Műszaki Kar.
BME TMIT1 27/06/2006 Automatikus beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék.
Az alapvető kommunikáció
Jövő Internet fejlesztések és alkalmazások
Audio Utastájékoztató Rendszer vasútállomások részére
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Chapter 2 Human Information Processing
A Nyelv- és Beszédtechnológiai Platform egy éve Váradi Tamás MTA Nyelvtudományi Intézet Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat.
Beszédinformációs rendszerek 6. gyakorlat Beszédszintetizátorok és adatbázisaik Olaszy Gábor 2015 tavasz.
Modellek a számítógép megismeréshez Takács Béla
Mesterséges intelligencia Áttekintés. Mesterséges intelligencia (MI) Artificial Intelligence (AI) Filozófia Matematika Pszichológia Nyelvészet Informatika.
A kommunikáció tényezői és funkciói
A kommunikációs folyamat tényezői és funkciói
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Segédlet a Kommunikáció-akusztika tanulásához VIHIAV 035
Tibor Fegyó SpeechTex Kft.
A gépi beszédfelismerés kezdeti kutatásai
INFOÉRA 2006 Miért tanítsunk informatikát?
A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter.
Előadás másolata:

Gépi beszédfelismerés BME Távközlési és Médiainformatikai Tanszék Gépi beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék vicsi@tmit.bme.hu BME TMIT

BME Távközlési és Médiainformatikai Tanszék Általánosságban a beszédtudomány célja: a beszédkommunikáció körfolyamatának komplex leírása, a beszélő gondolatának nyelvi megfogalmazásától kezdve a beszédprodukción át, a létrejött beszéd akusztikai leírásán keresztül, a hallgató beszédpercepciós folyamatain át, a nyelvi tudása alapján a közölni szándékozott gondolat megértéséig. BME TMIT

BME Távközlési és Médiainformatikai Tanszék A beszéd számítógépes feldolgozásánál (beszédtechnológiában) e körfolyamat egyes funkcióit ellátó egységek mesterséges eszközökkel való kiváltása történik. Az egyik fő célja az ember-gép közötti párbeszéd lehetővé tétele. Beszéd- szintézis Beszéd- felismerés BME TMIT

BME Távközlési és Médiainformatikai Tanszék Egy tipikus automatizált beszéd-dialógus rendszer fő komponensei Az ember-gép közötti párbeszéd megteremtése ma többnyire a beszélt nyelvi interfészek megvalósításával történik. A beszélt nyelvi interfészek sok különböző technológiát és alkalmazást foglalnak magukban. BME TMIT

BME Távközlési és Médiainformatikai Tanszék A számítógépes beszédfelismerés átfogó beszédfeldolgozási témakör. Az emberi beszédben rejlő összes információ felismerését jelenti. Mit mond? Nyelvi tartalom felismerése, szöveglejegyzés Ki beszél? Beszélő felismerés Ideges? Bánatos? Érzelem felismerés Milyen nyelven beszél? Nyelvfelismerés Meg van fázva? Egészségi állapot felismerés BME TMIT

BME Távközlési és Médiainformatikai Tanszék „A jövő kommunikációjának multimédia világában a beszéd egyre fontosabb szerepet fog játszani a beszélő azonosításától az automatikus beszédfelismerésig és a kulcsszavak, kifejezések megértéséig. A kimondott szót kezelő perifériák át fogják venni a klaviatúrák és az olyan csatlakozó eszközök helyét, mint pl. az egér”. Lawrence Rabiner (Center for Advanced Infromation Processing, Rutgers University) Science (2003. szeptember 12, 301. kötet, 5639, 1494-1495 old.) Napjainkban az intelligens kommunikációs és információs eszközök (pl. mobiltelefonok, kézi számítógépek, stb.) mérete egyre csökken, míg funkcióik szaporodnak és kezelésük bonyolultabbá válik. A hagyományos eszközök (pl. egér, billentyűzet) kényelmetlenek, vagy a feladat velük meg sem oldható. A beszéddel történő információ csere az egyetlen, ami a kis fizikai méret mellett is megvalósítható. BME TMIT

BME Távközlési és Médiainformatikai Tanszék Két különböző információ az internetről: 1. Hirdetés Dragon NaturallySpeaking 10. v. diktáló rendszeréről a terjesztője az alábbiakat írja: A felismerő 3-szor gyorsabban teszi lehetővé a dokumentumok, jelentések, elektronikus levelek bevitelét a számítógépbe, mint ahogy ezt gépeléssel tennék -99%-os pontossággal! http://www.nuance.com/naturallyspeaking/products/preferred.asp BME TMIT

BME Távközlési és Médiainformatikai Tanszék 2. Egy példa az interneten: egy potenciális Amtrak ügyfél hívta a társaság automatizált telefonrendszerét, viteldíj-információszerzés céljából Szia! Julie vagyok, az Amtrak automatizált ügynöke. Fogjunk bele! Melyik városból indulsz? New York. Hmmm. Azt hiszem, Newarkot mondtál. Így van? Nem. Oké. Próbáljuk meg újra. Melyik városból indulsz? Manhattan. Úgy vélem, azt mondtad, Meriden, így van? ügyfél Végül Julie feladta, és átadta az ügyfelet az aktuális emberi lénynek. automata (Julie) http://www.cioinsight.com/c/a/Technology/ Weak-Speech-Recognition-Leaves-Customers-Cold/ BME TMIT

BME Távközlési és Médiainformatikai Tanszék Mi itt az igazság? Azt mondják, „beszédfelismerés” és az ügyfél automatikusan a „2001: Űrodüsszeia” HAL-ára gondol” A cégek pedig, amelyek a beszédtechnológiát ajánlják, hajlamosak „túlígérni” és alulteljesíteni ezt az elvárást; BME TMIT

BME Távközlési és Médiainformatikai Tanszék Miért foglalkozunk a beszéd bemenet használatával? Mert a technológia ma már ott tart, hogy bizonyos területeken - Költséghatékonyan használható A 20 milliárdos Cendant Corp. az ügyfelek hotelinformációkkal való ellátásakor 2,5 millió telefonhívás 15 %-át anélkül hajtják végre, hogy a hívó beszélt volna egy élő ügynökkel. A Forrester Research Inc. szerint az automatizált rendszerek esetén a hívások percenként 20 centbe kerülnek, szemben az élő segítséggel, amely percenként 7 dollárba kerül. - Ügyfeleknek nagyobb szabadságot ad abban, hogy információhoz jussanak, így örülnek a lehetőségnek. Amtrak eladási és ügyfélszolgálati vezetője szerint az új információs rendszerek igazi alternatívákat adnak ügyfeleiknek (pl. vonatstátus, menetrend és viteldíjak tudakozódása és egyszerű foglalások) - A felhasználók egyre jobban megtanulják a felismerők használatát. BME Távközlési és Médiainformatikai Tanszék BME TMIT

BME Távközlési és Médiainformatikai Tanszék Beszédpiaci lehetőségek összefoglalása Hangvezérlésű technológiák előrejelzése Opus actual data from 02_2007 2006 2007 2008 2009 2010 2011 Hosted/Managed Apps $577,703 $779,898 $1,013,868 $1,216,641 $1,338,306 $1,445,370 Maintenance $104,067 $168,627 $282,878 $330,967 $387,231 $453,061 Applications $128,648 $243,984 $234,961 $239,999 $248,513 $249,415 IDE/App Management $23,661 $31,300 $46,269 $73,095 $81,639 $86,291 Professional Services $118,305 $166,931 $224,735 $292,380 $308,415 $306,813 Text-to-Speech $31,500 $35,625 $38,813 $42,000 $39,375 $39,375 Automated Speech Rec $95,625 $106,875 $120,750 $136,500 $135,000 $123,750 Bricks and Blades $47,322 $52,166 $66,098 $56,852 $63,497 $67,115 ASR, TTS & IDE $151M Everything but B&B $975,442 Everything but B&B & Hosted $398,000 Ez a diagram a beszéd vonatkozású IBM aktivitás összbevételét ábrázolja. Mértékegység: 1000 USD 1 billió dollárt meghaladó bevételek 2006-tól kezdve *Opus Research 02_2007 BME TMIT

BME Távközlési és Médiainformatikai Tanszék Néhány tanács a beszédtechnológiát alkalmazni szándékozóknak: 1. Tisztában kell lenni, hogy a mai beszédfelismerési technológia mire képes. 2. Ennek tudatában realisztikus célokat kell kitűzni. 3. A szolgáltatást témakör- és felhasználó orientáltan kell megtervezni, 4. A felhasználót is tájékoztatni kell, hogy csak egy „géppel” áll szemben, amihez neki is alkalmazkodni kell! Ehhez mindenképpen szükséges hogy megfelelő felismerési technológiát használjunk, képesek legyünk a reklámszöveg és a valóságos teljesítmény elkülönítésére. BME TMIT

BME Távközlési és Médiainformatikai Tanszék Alapvető szakmai kérdések Milyen nehézségekkel kell megküzdeni a fejlesztőknek? Hol tartunk ma? Hogy működik egy korszerű felismerő? Merre halad a kutatás? Realisztikus beszédfelismerő rendszerek. BME TMIT

BME Távközlési és Médiainformatikai Tanszék Milyen nehézségekkel kell megküzdeni? BME TMIT

BME Távközlési és Médiainformatikai Tanszék 1. Folyamatos hangnyomás változásból kvantált minőségi jellemzők elkülönítése és azonosítása. a l m a v a n a l á d á b a n A hullámforma erősen változik az akusztikai környezet hatására – visszaverődések, zajok, interferencia!, háttérbeszélgetés, zene stb. a l m a v a n a l á d á b a n BME TMIT

BME Távközlési és Médiainformatikai Tanszék 3. Egyazon mondanivaló végtelen sok akusztikai formában jelenik meg: A beszélő személyétől függően: pl. az emberek különböző méretű artikulációs csatornával rendelkeznek. Egy beszélő esetén is: A lelki állapot, fáradtság, rekedtség befolyásolja a paramétereket. Az akusztikai jelsor változik a hangkapcsolat és a hang helyzete függvényében. BME TMIT

BME Távközlési és Médiainformatikai Tanszék 4. A beszédsebesség változik a beszélő személyétől függően, és egy beszélő esetében is. A fonémák, sőt, fonémarészek időtartama nem egységesen változik meg. a l m a v a n a l á d á b a n a l m a v a n a l á d á b a n BME TMIT

BME Távközlési és Médiainformatikai Tanszék 5. A beszéd több, mint elemek egymás utáni sorozata! A hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások is a felismerendő üzenet lényegi elemei. Ezek is az értelmezést segítik, a közlendőt árnyalják, a beszédet emberivé, széppé teszik, tehát ha a beszéd üzenetét kívánjuk felismerni ezek sem hagyhatók a folyamatból el. BME TMIT

BME Távközlési és Médiainformatikai Tanszék A beszédjel a beszédtartalmi információt részben akusztikus, részben nyelvi szinten hordozza. A beszédfeldolgozás hierarchiaszintjei: (egyidejűleg aktívak) Pragmatikai szint (megértési szint) Szemantikai szint (jelentéstani szint) Szintaktikai szint (mondattani szint) Lexikai szint Fonetikai, fonológiai szint Akusztikai szint

BME Távközlési és Médiainformatikai Tanszék Hol tartunk ma? Hogy működik egy korszerű beszédfelismerő? BME TMIT

BME Távközlési és Médiainformatikai Tanszék Ma a korszerű beszédfelismerők statisztikai elvi alapokon működnek Akusztikai-fonetikai szinten létrehozott hangkapcsolat függő beszédhang modellek (Rejtett Markov modellek és/vagy Neurális hálózatok) és Szintaktikai (szó) szinten létrehozott statisztikai nyelvi modellek (N-gramm) együttes alkalmazásával. BME TMIT

BME Távközlési és Médiainformatikai Tanszék A statisztikai alapú beszédfelismerő: akusztikai- fonetikai szint betanítás - modellépítés 10 ms-ént paraméter vektorsor akusztikai előfeldolgozás besorolás Csoportosított paraméter vektorok Nyelvi tartalommal címkézett hanganyag beszéd adatbázis hangkapcsolat függő beszédhang modellek Akusztikai-fonetikai statisztikai modellek létrehozása (hangkapcsolat függő fonémák,szótagok, szavak) BME TMIT

BME Távközlési és Médiainformatikai Tanszék A statisztikai alapú beszédfelismerő: akusztikai- fonetikai szint beszédhangfelismerés Szép az idő. 10 ms-ként paraméter vektorsor karakterlánc akusztikai előfeldolgozás iIllesztés, döntés s z é p a z i d ő kibocsátási valószínűség hangkapcsolat függő beszédhang modellek Adaptáció lehetséges a beszélő hangjához Kimeneten karakterlánc jelenik meg, amelyben még sok a tévesztés. Pusztán akusztikai alapon a felismerési pontosság alacsony, nagyobb pontosság eléréséhez nyelvi szintek bevonása szükséges. BME TMIT

BME Távközlési és Médiainformatikai Tanszék A statisztikai alapú beszédfelismerő: Szintaktikai (szó) szinten Nyelvi modell 1 értelmes szósorozatok szabályalapú modellek: útvonalkeresés gráfban - Determinisztikus nyelvtan! BME Távközlési és Médiainformatikai Tanszék tizen egy száz huszon kettő harminc kétszáz három négy Kilenc száz BME TMIT

BME Távközlési és Médiainformatikai Tanszék A statisztikai alapú beszédfelismerő: Szintaktikai (szó) szinten Nyelvi modell 2 Statisztikai nyelvi modellek: valószínűségeket rendelünk az egyes szó-sorrendekhez (N-gramm modellek) a kisebb előfordulási gyakoriságú szó-sorrendeknek kisebb valószínűséget adunk, így a nagyobb gyakoriságú – vélhetően helyes – szó-sorrendek felismerési aránya nagyobb lesz. A valószínűségek megállapításához, tehát a nyelvi szintű betanításhoz nagy mennyiségű, a témához illeszkedő szöveganyag szükséges: szótárak Témaspecifikus szövegadatbázisok statisztikai nyelvi modellek BME TMIT

BME Távközlési és Médiainformatikai Tanszék A statisztikai alapú beszédfelismerő: N-gramm nyelvi modell jellemzése N-gramm modell használhatósága nyelvfüggő Angol kötött szósorrend jól alkalmazható ragozott szóalak kisszámú Magyar és kevéssé kötött szórend további kutatás egyéb morfoló- agglutináló –flektáló szükséges giailag gazdag szóalak változékony (morféma alapú nyelvek nyelvi modellezés) BME TMIT

BME Távközlési és Médiainformatikai Tanszék Teljes kiépítésű statisztikai alapú beszédfelismerő Szép az idő. akusztikai előfeldolgozás Dekóder (kereső algoritmus) hangkap-csolatfüggő beszédhang modellek ortografikus és kiejtés szótárak statisztikai nyelvi modell Szöveges adatbázis Beszéd-adatbázis szólánc szép az idő BME TMIT

BME Távközlési és Médiainformatikai Tanszék Teljes kiépítésű statisztikai alapú beszédfelismerő – Jellemzés 1 A felismerő betanításához, optimális működéséhez az akusztikai környezet függvényében más és más beszédadatbázis kell!!! Telefonbeszéd adatbázis, beszédadatbázis kocsikban, hivatalokban, zajos utcán, stb. SPEECHDAT – CAR: French : Academic - Commercial 182 000 EUR German : Academic - Commercial 120 000 EUR témacsoportonként más és más szövegadatbázist kell gyűjteni. erősen ragozott, toldalékolt nyelveknél ez még hangsúlyozottabb. Különböző adaptációs technikák most fejlesztés alatt nyelvenként más és más szöveg és beszédadatbázis szükséges A többnyelvű felismerők fejlesztése folyamatban van BME TMIT

BME Távközlési és Médiainformatikai Tanszék Magyar beszédadatbázisok összefoglaló adatai Magyar referencia beszéd adatbázis Csendes környezet, folyamatos szöveg Magyar telefon beszéd adatbázis Vonalas telefon, mobil, számok, szavak, tulajdonnevek, folyamatos szöveg TESZTEL Mobil zajos környezetben folyamatos szöveg SpeechDat Vonalas telefon, mobil, számok, szavak, tulajdonnevek, folyamatos szöveg Babel – többnyelvű adatbázis Tiszta beszéd szavak, folyamatos szöveg SPECO Tiszta gyermekbeszéd szavak, mondatok http://alpha.tmit.bme.hu/speech/databases.php BME TMIT

BME Távközlési és Médiainformatikai Tanszék Teljes kiépítésű statisztikai alapú beszédfelismerő – Jellemzés 2.: folyamatos beszédfelismerő pontossága csendes környezetben Angol nyelvű nagyszótáras felismerő felismerési hibaaránya átlagos irodai környezetben(jó jel-zaj viszony esetén) _______________________________________________ beszédstílus szóhiba arány olvasott, szépen kiejtett beszéd, beszélő-adaptálás után < 5 % új beszélő 8-15 % spontán interjú 20-25 % spontán társalgás 30-40 % !!!!! A felismerő kimenetén szószekvenciák vannak. A valódi szemantikai és pragmatikai szint hiányzik. Mesterséges intelligenciával ellátott dialógus rendszerekkel a pontosság jelentősen növelhető!!!! BME TMIT

BME Távközlési és Médiainformatikai Tanszék Teljes kiépítésű statisztikai alapú beszédfelismerő – Jellemzés 3.: beszédfelismerő pontossága ma különböző felhasználási területeken % s z ó h i b a Diktálás híranyag interjú hang- switch - hívás tárgyalás posta board közp Tiszta beszéd Spontán beszéd BME TMIT

BME Távközlési és Médiainformatikai Tanszék Merre halad a kutatás? Zajtűrő akusztikai feldolgozás Természetes (spontán beszéd) feldolgozás statisztikai feldolgozással : híranyagok szöveggé alakítása, parlamenti beszédek gépi lejegyzése ~100 000 szó Morfológiailag gazdag, és kisebb beszélőszámú nyelvek feldolgozása arab, finn, magyar, török, észt, stb. Mesterséges intelligenciával kibővített dialógus rendszerek fejlesztése Statisztikai közelítésű dialógus rendszerek fejlesztése Prozódia integrálása Modalitás növelése Audio-vizuális beszédfelismerés BME TMIT BME TMIT 32

BME Távközlési és Médiainformatikai Tanszék Audio – vizuális felismerés jel Akuszt. par. Akusztikai Előfeldolg. Audio-vizuális par. jel Normali- zálás, Interpol. Vizuális Előfeldolg. Vizuális par. Felism.eredm. Satoshi Tamura, Koji Iwano and Sadaoki Furui 2006 BME TMIT

BME Távközlési és Médiainformatikai Tanszék Multi-modális kommunikáció feldolgozása Dialógusban rejlő információk kinyerése nem-verbális, multimodális feldolgozással: beszéd+ artikuláció+ arcmimika+ gesztus+ test- és fejmozgás, a társalgást követve a cél annak megértése, hogy mi történik a párbeszédben. Egy folyamat elemzés elvégzése: --- a nyelvi információktól függetlenül, vagy --- a nyelvi információkkal együtt. Nick Campbell, 2006 ATR Media Information Science Labs,Japan BME TMIT

BME Távközlési és Médiainformatikai Tanszék Egy 360 fokos kamera és irányított mikrofonok segítségével audio-vizuális információk sorozatát gyűjtik össze, amelyből következtethetőek a gyűlés tagjainak társalgási eseményei. BME TMIT

BME Távközlési és Médiainformatikai Tanszék A videójel felbontása viszonylag alacsony. Nagyobb mozgások detektálása a bőr hőérzékelésével. A test-, a kéz- és a fejmozgásokat leíró egyszerű paraméterkészlet automatikus létrehozása. BME TMIT

BME Távközlési és Médiainformatikai Tanszék Beszédfelismerő termékek A felismerés ma már elfogadható pontosságú ahhoz, hogy felhasználói interfészként működjön számos területen: - hangtárcsázás - Egyszerű adatbevitel – kézmentes vezérlés - Beszéd információs rendszerek – dialógusrendszerek – ember-gép kommunikáció Diktálás (beszéd-szöveg átalakítás) – zárt témakörő dokumentumok szerkesztése Böngészés hanggal – W3C beszéd interfész keretrendszer VoiceXML2+ Speech Grammar Specification (SRGS) lehetővé teszi az emberek számára a hangvezérlést megfelelően megtervezett web- alapú szolgáltatásoknál - Multimédia indexálás Ügyfélszolgálati beszélgetés elemzés BME TMIT BME TMIT

BME Távközlési és Médiainformatikai Tanszék Beszédfelismerés hazánkban világszínvonalon! Beszéd szövegtartalmának felismerése (zárt témakörű !! diktálás) BME TMIT, SZTE IT Telefonközpont irányítás BME TMIT, AITIA Természetes beszéd alapú dialógus rendszerek Telefonos beszédinformációs rendszerek BME TMIT, AITIA Audió vizuális beszédfelismerés MISKOLCI E. Beszéddetekció BME TMIT Kulcsszó felismerés, hangbányászat BME TMIT, AITIA Nagyszótáras folyamatos magyar nyelvű beszéd felismerése indexálási célokra! BME TMIT, AITIA Érzelmi töltet felismerése BME TMIT Orvosi alkalmazások BME TMIT, SZTE IT BME TMIT BME TMIT

BME Távközlési és Médiainformatikai Tanszék Köszönöm a figyelmet! A platform tagok bemutatkozó demonstrációjára várjuk önöket délután! vicsi@tmit.bme.hu Köszönjük az támogatását ! BME TMIT