BME TMIT1 27/06/2006 Automatikus beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék.

Slides:



Advertisements
Hasonló előadás
Szerver oldali programozás
Advertisements

Néhány fontos terület a Kreatív Ipar fejlődéséhez
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis.
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Takács György 15. előadás Készítette Feldhoffer Gergely
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tengeralattjáró győzelmi hírek elmaradása – kilövés
Gépi beszédfelismerés
Az információszerzés.
A Blown-up rendszer Biczók Gergely Rónai Miklós Aurél BME Számítástudományi és Információelméleti Tanszék Turányi Zoltán Richárd Ericsson Traffic Lab Valkó.
A beszéd- technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT.
4. Kreatív döntéshozatal
A jövő technológiái Kőnig Tibor főmérnök, Microsoft Magyarország blogs.msdn.com/tibork-on-ms blogs.msdn.com/tibork-on-ms.
Williams szindróma (WS) diagnosztizálási lehetősége egyszerű kétfülű érthetőség- vizsgálattal Vicsi Klára Beszédakusztikai Laboratórium BME Távközlési.
Híranyagok tömörítése
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
13.a CAD-CAM informatikus
A számítástechnika és informatika tárgya
IKT: Információs és kommunikációs Technológiák
Számítógép részei.
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
A számítógépes nyelvfeldolgozás alapjai
TANTÁRGY-ORIENTÁLT IDEGEN NYELV OKTATÁS Istvánffy Miklós Általános Iskola.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Alkalmazkodás: megfelelő személyi és tárgyi környezet autizmussal élő gyermekek, felnőttek számára Őszi Tamásné gyógypedagógus Autizmus Alapítvány.
Óvodai tanterv a 3 és 7 évesek számára
Mai számítógép perifériák
Vizuális és web programozás II.
Debrecen, március 27. Internet Fiesta 2008 Könyvtárak akadálymentesítése az Interneten Internet Fiesta 2008 Debrecen, március 27.
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Óvodáskorú gyermekek szóaktiválásának funkcionális vizsgálata
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
KOMMUNIKÁCIÓ Gyula,
Szintaktikai, szemantikai szabályok
1 BESZÉDFELISMERŐ RENDSZERES ALKALMAZÁSA AZ ÉRDEKKÉPVISELETI MUNKÁBAN (ELŐKÉSZÍTÉS) A STRATOSZ SZÁMÁRA KIDOLGOZOTT VÁLTOZAT Készült a MAT támogatásával,
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
LEXINFO Az Informatikai Szaknyelvi Vizsga sajátosságai Babos Krisztina Dunaújváros, május 09.
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
A „diszes” problémák korai jelei
Gondolkodjunk el ! Zene A változások már léteznek!
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
LOGISZTIKA Előadó: Dr. Fazekas Lajos Debreceni Egyetem Műszaki Kar.
Iskola-egészségügyi Konferencia augusztus Informatikai lehetőségek az iskola/ifjúság-egészségügyi munkában Wenhard Andrea egészségügyi szakközgaszdász.
Az alapvető kommunikáció
Audio Utastájékoztató Rendszer vasútállomások részére
Ismerkedjünk tovább a számítógéppel
A probléma gyökere: a szuperpozíció elve
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Beszédinformációs rendszerek 6. gyakorlat Beszédszintetizátorok és adatbázisaik Olaszy Gábor 2015 tavasz.
Modellek a számítógép megismeréshez Takács Béla
Demens gondozás (Kommunikáció) Készítette: Jónyer Lajosné
XXIII. Országos Jegyző-Közigazgatási Konferencia Integrált vezetői információrendszer önkormányzatoknak Zalaszám Informatika Kft. Varga János projektvezető.
 A TIOP pályázat SNI csomagjai  Gépi beszédfelismerés  Digitális tananyagok akadálymentesítése sajátos nevelési igényű tanulók számára  SNI IKT.
A kommunikáció tényezői és funkciói
A kommunikációs folyamat tényezői és funkciói
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Tibor Fegyó SpeechTex Kft.
SZÁMVÁLTOZÁS BEMONDÓ AUTOMATA
A gépi beszédfelismerés kezdeti kutatásai
A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter.
Előadás másolata:

BME TMIT1 27/06/2006 Automatikus beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék

BME TMIT2 27/06/2006 A számítógépes beszédfelismerés átfogó beszédfeldolgozási témakör. Az emberi beszédben rejlő összes információ felismerését jelenti. (rajz) Legismertebb célja a beszéd nyelvi tartalmának a meghatározása a beszélő személy felismerése, azonosítása, a beszélt nyelv felismerése a beszélő hangulatának (Sebe et al., 2005)., egészségi állapotának a felismerése is.

BME TMIT3 27/06/2006 Napjainkban az intelligens kommunikációs és információs eszközök (pl. mobiltelefonok, kézi számítógépek, stb.) mérete egyre csökken, míg funkcióik szaporodnak és kezelésük bonyolultabbá válik. A hagyományos eszközök (pl. egér, billentyűzet) kényelmetlenek, vagy a feladat velük meg sem oldható. A beszéddel történő információ csere az egyetlen, ami a kis fizikai méret mellett is megvalósítható. A jövő kommunikációjának multimédia világában a beszéd mindinkább fontos szerepet fog játszani a beszélő azonosításától az automatikus beszédfelismerésig és a kulcsszavak, kifejezések megértéséig. A kimondott szót kezelő perifériák át fogják venni a klaviatúrák és az olyan csatlakozó eszközök helyét, mint pl. az egér”. Lawrence Rabiner (Center for Advanced Infromation Processing, Rutgers University) Science (2003. szeptember 12, 301. kötet, 5639, old.)

BME TMIT4 27/06/ NaturallySpeaking 10 PreferredDragon NaturallySpeaking 10 PreferredCreate , Documents and Spreadsheets - All by VoiceCreate , Documents and Spreadsheets - All by VoiceDragon NaturallySpeaking 10 Preferred gives small business and advanced PC users the power to create documents, reports and s three times faster than most people type — with up to 99% accuracy. Dragon NaturallySpeaking 10 Preferred gives small business and advanced PC users the power to create documents, reports and s three times faster than most people type — with up to 99% accuracy. NaturallySpeaking 10 PreferredDragon NaturallySpeaking 10 PreferredCreate , Documents and Spreadsheets - All by VoiceCreate , Documents and Spreadsheets - All by VoiceDragon NaturallySpeaking 10 Preferred gives small business and advanced PC users the power to create documents, reports and s three times faster than most people type — with up to 99% accuracy. Dragon NaturallySpeaking 10 Preferred gives small business and advanced PC users the power to create documents, reports and s three times faster than most people type — with up to 99% accuracy. Dragon NaturallySpeaking 10. v. diktáló rendszeréről a terjesztője az alábbiakat írja: A felismerő 3-szor gyorsabban teszi lehetővé a dokumentumok, jelentések, elektronikus levelek bevitelét a számítógépbe, mint ahogy ezt gépeléssel tennék -99%-os pontossággal!

BME TMIT5 27/06/2006 egy potenciális Amtrak ügyfél hívta a társaság automatizált telefonrendszerét, viteldíj-információszerzés céljából „Szia! – kiáltotta egy felvett hang, szívélyes, türelmes pozitivitással átitatva. „Julie vagyok, az Amtrak automatizált ügynöke. Fogjunk bele! Melyik városból indulsz?” „New York” – felelte az ügyfél. „Hmmm. Azt hiszem, Newarkot mondtál – mondta Julie – így van?” „Nem” – felelte az ügyfél. „Oké – szólt Julie – próbáljuk meg újra. Melyik városból indulsz?” „Manhattan” – felelte az ügyfél. „Úgy vélem, azt mondtad, Meriden, Connecticut – mondta Julie – így van?” Végül Julie feladta, és átadta az ügyfelet az aktuális emberi lénynek.

BME TMIT6 27/06/2006 Mi itt az igazság? Azt mondod, „beszédfelismerés” és az ügyfél automatikusan a „2001: Űrodüsszeia” HAL-ára gondol” A cégek pedig, amelyek a technológiát adják, hajlamosak „túlígérni” és alulteljesíteni ezt az elvárást; realisztikus személyiségeket hoznak létre, hogy az ügyfél úgy érezze, egy élő ügynökkel beszél.

BME TMIT7 27/06/2006 Miért vacakolunk egyáltalán a beszéd használatával? Mert a technológia ma már ott tart, hogy bizonyos területeken - Költséghatékonyan használható, - - Ügyfeleknek nincs lehetőségük más módon ép információhoz jutni, így örülnek a lehetőségnek. - - A beszédfelismerési technológia folyamatosan javul, a beszédfelismerési biztonság nő - - A felhasználók egyre jobban megtanulják a felismerők használatát. Amtrak eladási és ügyfélszolgálati vezetője szerint az új információs rendszerek igazi alternatívákat adnak ügyfeleiknek (– pl. vonatstátus, menetrend és viteldíjak, és egyszerű foglalások) David Mussa, a Wyndham Worldwide, a 20 milliárdos Cendant Corp. az ügyfelek hotelinformációkkal való ellátása ügyében 2,5 millió telefonhívás 15 százalékát anélkül hajtják végre, hogy a hívó beszélt volna egy élő ügynökkel. A Forrester Research Inc. szerint az automatizált rendszerek esetén a hívások percenként 20 centbe kerülnek, szemben az élő segítséggel, amely percenként 7 dollárba kerül.

BME TMIT8 27/06/2006 Feladat: 1. Tisztában kell lenni, hogy a mai beszédfelismerési technológia mire képes. 2. Ennek tudatában realisztikus célokat kell magunkévá tenniük. 3. A szolgáltatást felhasználó orientáltan kell megtervezni, 4. de a felhasználót is tájékoztatni kell, hogy csak egy „géppel” áll szemben, amihez neki is alkalmazkodni kell! Ehhez mindenképpen szükséges hogy megfelelő felismerési technológiát használjunk!!! képesek legyünk a reklámszöveg és a valóságos teljesítmény elkülönítésére.

BME TMIT9 27/06/2006 Milyen nehézségekkel kell megküzdeni? Hol tarunk ma? Hogy működik egy ma forgalomban lévő korszerű felismerő? Merre halad a kutatás?

BME TMIT10 27/06/2006 Milyen nehézségekkel kell megküzdeni?

BME TMIT11 27/06/2006 A gépi beszédfelismerés néhány alapvető problémája Folyamatos hangnyomás változásból kvantált minőségi jellemzők elkülönítése és azonosítása A p(t) függvény – a hullámforma – erősen változik az akusztikai környezet hatására – visszaverődések, zajok, interferencia! háttérbeszélgetés, zene stb.

BME TMIT12 27/06/2006 BME TMIT 12 27/06/2006 A beszédfeldolgozás hierarchiaszintjei: (egyidejűleg aktívak!) Pragmatikai szint (megértési szint) Szemantikai szint (jelentéstani szint) Szintaktikai szint (mondattani szint) Lexikai szint Fonetikai, fonológiai szint 4. A beszédjel a beszédtartalmi információt részben akusztikus, részben nyelvi szinten hordozza. ( Jelentést nem hordozó szavak érthetősége 70-75%) Akusztikai szint

BME TMIT13 27/06/ Egyazon mondanivaló végtelen sok akusztikai formában jelenik meg: A beszélő személyétől függően, és egy beszélő esetén is. 6. A beszéd több, mint elemek egymásutánisága! A hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások is a felismerendő üzenet lényegi elemei. 7. A beszédsebesség változik a beszélő személyétől függően, és egy beszélő esetében is. A beszédhangok időtartama nem egységesen változik.

BME TMIT14 27/06/2006 Hol tartunk ma? Hogy működik egy ma forgalomban lévő korszerű beszédfelismerő?

BME TMIT15 27/06/2006 Akusztikai előfeldolgozás Dekóder (kereső algoritmus) Fonéma v. diphone v. triphone modellek Írott szöveg (kimenet) Szótárak ortografikus, kiejtés szótárak Statisztikai nyelvi modell Szöveges adatbázisBeszéd- adatbázis A statisztikai alapú beszéd-szöveg átalakítók felépítése és működése

BME TMIT16 27/06/2006 p1 p2 p3 pi pI koma Akusztikai előfeldolgozás - Adatreprezentáció 100 ms beszédhangrészlet: 16kHz mv. ~1580 adat 5 keret ~300 adat Jellemző paraméterek időfüggvény keretekbe, ablakokra bontás ms: Keretenként egy paramétervektorhoz jutunk: p1 p2 p pi pI Tulajdonság- vektor sorozat

BME TMIT17 27/06/2006 p1 p2 p3 pi pI k o m a minden állapothoz egy eloszlásfüggvényt rendelünk, amelynek bemenő mennyisége a tulajdonságvektor, a kimenete pedig a hasonlósági mérőszám, amely megmutatja, mennyire illeszkedik az adott vektor a modellezett hangrészlethez, az un. HMM AKUSZTIKAI-FONETIKAI MODELLEKHEZ. állapotsorozat Tulajdonság- vektor sorozat Tulajdonságvektor eloszlásfüggvény

BME TMIT18 27/06/2006 Az adott állapotra jellemző eloszlásfüggvényt az állapotban „elnyelt” tulajdonságvektorok statisztikai feldolgozásával alakítjuk ki. Minél több vektor áll rendelkezésre egy állapothoz, minél több beszélő minél többször mondta ki ugyanazt a szórészletet, vagyis MINÉL GAZDAGABB A BESZÉDADATBÁZIS !!!!!!! annál jobb lehet az eloszlásfüggvényünk és így az AKUSZTIKAI- FONETIKAI MODELL is. folytonos megfigyelési-sűrűségfüggvényű rejtett Markov-modell BME TMIT o1

BME TMIT19 27/06/2006 Folyamatos beszédnél az akusztikai-fonetikai HMM modellek beszédhangok vagy néhány hangból álló hangkapcsolatok beszédhangsorozatokat ismernek fel ~70% pontosság! (zajfüggő!!) Nagyobb pontosság eléréséhez nyelvi szintek bevonása szükséges!

BME TMIT20 27/06/2006 Nyelvi modell Szintaktikai szint értelmes szósorozatok szabálybázis modellek: útvonalkeresés gráfban - Determinisztikus nyelvtan! tizen száz egy huszon kettő kétszáz harminc három négy Kilenc száz

BME TMIT21 27/06/2006 Statisztikai modellek: valószínűségeket rendelünk az egyes szósorrendekhez, A valószínűségek megállapításához nagy mennyiségű témához illeszkedő szöveganyag szükséges! Szószekvenciák: n-gram modellek ahol N(.) a megadott szekvencia előfordulásai száma a tanító szöveganyagban. W elemszámú összeköttetés mindegyikét a megfelelő szó-pár illetve szóhármas valószínűségével súlyozzuk.

BME TMIT22 27/06/2006 N-gram modell használhatósága nyelvfüggő Angol kötött szósorrend jól alkalmazható ragozott szóalak kisszámú Magyar és kevéssé kötött szórend további kutatás egyéb morfoló- agglutináló –flektáló szükséges giailag gazdag szóalak változékony (morféma alapú nyelvek nyelvi modellezés)

BME TMIT23 27/06/2006 Reális beszédfelismerő pontossága ma Angol nyelvű nagyszótáras felismerő felismerési hibaaránya átlagos irodai környezetben(jó jel-zaj viszony esetén) _______________________________________________ beszédstílusszóhiba arány _______________________________________________ Olvasott, szépen kiejtett beszéd, beszélőadaptálás után < 5 % Új beszélő 8-9 % Spontán interjú 15 % spontán társalgás % !!!!! _______________________________________________ A felismerő kimenetén szószekvenciák vannak Valódi szemantikai és pragmatikai szint hiányzik Mesterséges intelligenciával ellátott dialógus rendszerekkel a pontosság jelentősen növelhető!!!!

BME TMIT24 27/06/2006 A beszédfelismerők fejlesztése költséges! A felismerő betanításához nyelvenként más és más szöveg és beszédadatbázis szükséges A többnyelvű felismerők fejlesztése folyamatban van az akusztikai környezet függvényében más és más beszédadatbázis kell Telefonbeszéd adatbázis, beszédadatbázis kocsikban, hivatalokban, zajos utcán, stb. SPEECHDAT – CAR: French : Academic - Commercial EUR German : Academic - Commercial EUR témacsoportonként külön szövegadatbázisokat kell gyűjteni. erősen ragozott, toldalékolt nyelveknél ez még hangsúlyozottabb. Különböző adaptációs technikák most fejlesztés alatt

BME TMIT25 27/06/2006 BABELSpeechDat-EMTBAMRBASPECO gyerek forrásMikrofonVonalas telefonVonalas telefon, mobil Mikrofon, hangkártya (PC) formátum20 kHz, 16 bit8 kHz, 16 bit (ISDN)8 kHz 16 bit16 kHz, 16 bit20050 Hz, 16 bit rögzítési környezet süketszoba (tiszta beszéd) iroda, lakás, utca, telefonfülke, stb. süketszoba bemondás módja olvasott szöveg80% olvasott, 20% spontán szöveg olvasott szövegolvasott, utánzott szöveg szövegtípushangkapcsolat ok, számok, szavak, folyamatos szöveg Betűzött szavak, dátumok, számok, szavak, tulajdonnevek, folyamatos szöveg folyamatos szöveg kitartott beszédhangok, hangkapcsolatok, szavak, mondatok bemondók száma Feldolgozásfonotipikus átírás fonémaszintű szegmentálás karakteres leírás, nincs szegmentálás, zajok, hibák jelölése --szavak: karakteres leírás, nincs szegmentálás, zajok, hibák jelölése. -- folyamatos szöveg: fonémaszintű szegmentálása és címkézése -- anyag 66%-a karakteres leírás zajok, hibák jelölése. --anyag 33-a fonémaszintű, szegmentálása és címkézése fonotipikus átírás, fonémaszintű szegmentálás Magyar beszédadatbázisok összefoglaló adatai

BME TMIT26 27/06/2006 BME TMIT 26 27/06/2006 Merre halad a kutatás? Zajtűrő akusztikai feldolgozás Természetes nyelvi feldolgozás statisztikai feldolgozással : híranyagok szöveggé alakítása, parlamenti beszédek gépi lejegyzése ~ szó Morfológiailag gazdag, és kisebb beszélőszámú nyelvek feldolgozása arab, finn, magyar, torok, észt, stb (Graff 1997) ??? Mesterséges intelligenciával kibővített dialógus rendszerek Statistikai közelítésű Dialogus rendszerek (Steve Young 2006) Audió-vizuális beszédfelismerés (Satoshi Tamura, Koji Iwano and Sadaoki Furui 2006)

BME TMIT27 27/06/2006 Satoshi Tamura, Koji Iwano and Sadaoki Furui 2006 Audio – vizuális felismerés

BME TMIT28 27/06/2006 Multi-modális kommunikáció feldolgozása Dialógusban rejlő információk kinyerése nem-verbális, multimodális feldolgozással : beszéd, gesztus, test- és fejmozgás, a társalgást követve a cél annak megértése, hogy mi történik a párbeszédben. Egy folyamatelemzés elvégzése: --- a nyelvi információktól függetlenül, vagy --- a nyelvi információkkal együtt. Nick Campbell, 2006 ATR Media Information Science Labs,Japan

BME TMIT29 27/06/2006 Egy 360 fokos kamera és irányított mikrofonok segítségével audio-vizuális információk sorozatát gyűjtik össze, amelyből következtethetőek a gyűlés tagjainak társalgási eseményei.

BME TMIT30 27/06/2006 A videójel felbontása viszonylag alacsony. Nagyobb mozgások detektálása a bőr hőérzékelésével. A test-, a kéz- és a fejmozgásokat leíró egyszerű paraméterkészlet automatikus létrehozása.

BME TMIT31 27/06/2006 BME TMIT 31 27/06/2006 Kereskedelmi beszédfelismerő termékek A felismerés ma már elfogadható pontosságú ahhoz, hogy felhasználói interfészként működjön számos (főként angol nyelvű) területen: - hangtárcsázás - Egyszerű adatbevitel – kézmentes vezérlés - Beszédinformációs rendszerek – dialógusrendszerek – ember-gép kommunikáció - - Diktálás – beszéd-szöveg átalakítás – dokumentumok szerkesztése böngészés hanggal – W3C beszéd interfész keretrendszer VoiceXML2+ Speech Grammar Specification (SRGS) lehetővé teszi az emberek számára a hangvezérlést megfelelően megtervezett webalapú szolgáltatásoknál Multimédia indexálás - - Ügyfélszolgálati beszélgetés elemzés (IBM)

BME TMIT32 27/06/2006 BME TMIT 32 27/06/2006 Beszédfelismerés hazánkban világszínvonalon! Nagyszótáras folyamatos magyar nyelvű beszéd felismerése indexálási célokra! Beszéd szövegtartalmának felismerése (speech to text conversion) (zárt témakörű !!! diktálás) Többnyelvű beszédfelismerés Telefonos beszédinformációs rendszerek Audió vizuális beszédfelismerés A beszéddetekció (angolban leggyakrabban VAD, Voice Activity Detection vagy Speech/Non-speech Detection) A kulcsszó felismerés (key word spotting) Az érzelmi töltet felismerése (emotion recognition)

BME TMIT33 27/06/2006 Köszönöm a figyelmet! Platformtagok bemutatkozó demonstrációjára várjuk önöket délután!