Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Gépi beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék BME TMIT.

Hasonló előadás


Az előadások a következő témára: "Gépi beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék BME TMIT."— Előadás másolata:

1

2 Gépi beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék BME TMIT

3 Általánosságban a beszédtudomány célja: a beszédkommunikáció körfolyamatának komplex leírása, a beszélő gondolatának nyelvi megfogalmazásától kezdve a beszédprodukción át, a létrejött beszéd akusztikai leírásán keresztül, a hallgató beszédpercepciós folyamatain át, a nyelvi tudása alapján a közölni szándékozott gondolat megértéséig.

4 BME TMIT Beszéd- szintézis A beszéd számítógépes feldolgozásánál (beszédtechnológiában) e körfolyamat egyes funkcióit ellátó egységek mesterséges eszközökkel való kiváltása történik. Az egyik fő célja az ember-gép közötti párbeszéd lehetővé tétele. Beszéd- felismerés

5 BME TMIT Egy tipikus automatizált beszéd-dialógus rendszer fő komponensei Az ember-gép közötti párbeszéd megteremtése ma többnyire a beszélt nyelvi interfészek megvalósításával történik. A beszélt nyelvi interfészek sok különböző technológiát és alkalmazást foglalnak magukban.

6 BME TMIT A számítógépes beszédfelismerés átfogó beszédfeldolgozási témakör. Az emberi beszédben rejlő összes információ felismerését jelenti. Milyen nyelven beszél? Nyelvfelismerés Ki beszél? Beszélő felismerés Meg van fázva? Egészségi állapot felismerés Ideges? Bánatos? Érzelem felismerés Mit mond? Nyelvi tartalom felismerése, szöveglejegyzés

7 BME TMIT „ A jövő kommunikációjának multimédia világában a beszéd egyre fontosabb szerepet fog játszani a beszélő azonosításától az automatikus beszédfelismerésig és a kulcsszavak, kifejezések megértéséig. A kimondott szót kezelő perifériák át fogják venni a klaviatúrák és az olyan csatlakozó eszközök helyét, mint pl. az egér”. Lawrence Rabiner (Center for Advanced Infromation Processing, Rutgers University) Science (2003. szeptember 12, 301. kötet, 5639, old.) Napjainkban az intelligens kommunikációs és információs eszközök (pl. mobiltelefonok, kézi számítógépek, stb.) mérete egyre csökken, míg funkcióik szaporodnak és kezelésük bonyolultabbá válik. A hagyományos eszközök (pl. egér, billentyűzet) kényelmetlenek, vagy a feladat velük meg sem oldható. A beszéddel történő információ csere az egyetlen, ami a kis fizikai méret mellett is megvalósítható.

8 BME TMIT Két különböző információ az internetről: 1. Hirdetés Dragon NaturallySpeaking 10. v. diktáló rendszeréről a terjesztője az alábbiakat írja: A felismerő 3-szor gyorsabban teszi lehetővé a dokumentumok, jelentések, elektronikus levelek bevitelét a számítógépbe, mint ahogy ezt gépeléssel tennék -99%-os pontossággal!

9 BME TMIT ügyfél automata (Julie) Szia! Julie vagyok, az Amtrak automatizált ügynöke. Fogjunk bele! Melyik városból indulsz? New York. Hmmm. Azt hiszem, Newarkot mondtál. Így van? Nem. Oké. Próbáljuk meg újra. Melyik városból indulsz? Úgy vélem, azt mondtad, Meriden, így van? 2. Egy példa az interneten: egy potenciális Amtrak ügyfél hívta a társaság automatizált telefonrendszerét, viteldíj- információszerzés céljából Végül Julie feladta, és átadta az ügyfelet az aktuális emberi lénynek. Manhattan. Weak-Speech-Recognition-Leaves-Customers-Cold/

10 BME TMIT Mi itt az igazság? Azt mondják, „beszédfelismerés” és az ügyfél automatikusan a „2001: Űrodüsszeia” HAL-ára gondol” A cégek pedig, amelyek a beszédtechnológiát ajánlják, hajlamosak „túlígérni” és alulteljesíteni ezt az elvárást;

11 BME TMIT Miért foglalkozunk a beszéd bemenet használatával? Mert a technológia ma már ott tart, hogy bizonyos területeken - Költséghatékonyan használható A 20 milliárdos Cendant Corp. az ügyfelek hotelinformációkkal való ellátásakor 2,5 millió telefonhívás 15 %-át anélkül hajtják végre, hogy a hívó beszélt volna egy élő ügynökkel. A Forrester Research Inc. szerint az automatizált rendszerek esetén a hívások percenként 20 centbe kerülnek, szemben az élő segítséggel, amely percenként 7 dollárba kerül. - Ügyfeleknek nagyobb szabadságot ad abban, hogy információhoz jussanak, így örülnek a lehetőségnek. Amtrak eladási és ügyfélszolgálati vezetője szerint az új információs rendszerek igazi alternatívákat adnak ügyfeleiknek (pl. vonatstátus, menetrend és viteldíjak tudakozódása és egyszerű foglalások) - A felhasználók egyre jobban megtanulják a felismerők használatát.

12 BME TMIT •Ez a diagram a beszéd vonatkozású IBM aktivitás összbevételét ábrázolja. Mértékegység: 1000 USD •1 billió dollárt meghaladó bevételek 2006-tól kezdve Hangvezérlésű technológiák előrejelzése *Opus Research 02_2007 Beszédpiaci lehetőségek összefoglalása

13 BME TMIT Néhány tanács a beszédtechnológiát alkalmazni szándékozóknak: 1. Tisztában kell lenni, hogy a mai beszédfelismerési technológia mire képes. 2. Ennek tudatában realisztikus célokat kell kitűzni. 3. A szolgáltatást témakör- és felhasználó orientáltan kell megtervezni, 4. A felhasználót is tájékoztatni kell, hogy csak egy „géppel” áll szemben, amihez neki is alkalmazkodni kell! Ehhez mindenképpen szükséges hogy megfelelő felismerési technológiát használjunk, képesek legyünk a reklámszöveg és a valóságos teljesítmény elkülönítésére.

14 BME TMIT Alapvető szakmai kérdések • Milyen nehézségekkel kell megküzdeni a fejlesztőknek? • Hol tartunk ma? Hogy működik egy korszerű felismerő? • Merre halad a kutatás? • Realisztikus beszédfelismerő rendszerek.

15 BME TMIT Milyen nehézségekkel kell megküzdeni?

16 BME TMIT 1. Folyamatos hangnyomás változásból kvantált minőségi jellemzők elkülönítése és azonosítása. 2.A hullámforma erősen változik az akusztikai környezet hatására – visszaverődések, zajok, interferencia!, háttérbeszélgetés, zene stb. a l m a v a n a l á d á b a n

17 BME TMIT 3. Egyazon mondanivaló végtelen sok akusztikai formában jelenik meg: A beszélő személyétől függően: pl. az emberek különböző méretű artikulációs csatornával rendelkeznek. Egy beszélő esetén is: A lelki állapot, fáradtság, rekedtség befolyásolja a paramétereket. Az akusztikai jelsor változik a hangkapcsolat és a hang helyzete függvényében.

18 BME TMIT 4. A beszédsebesség változik a beszélő személyétől függően, és egy beszélő esetében is. A fonémák, sőt, fonémarészek időtartama nem egységesen változik meg. a l m a v a n a l á d á b a n

19 BME TMIT 5. A beszéd több, mint elemek egymás utáni sorozata! A hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások is a felismerendő üzenet lényegi elemei. Ezek is az értelmezést segítik, a közlendőt árnyalják, a beszédet emberivé, széppé teszik, tehát ha a beszéd üzenetét kívánjuk felismerni ezek sem hagyhatók a folyamatból el.

20 Pragmatikai szint (megértési szint) Szemantikai szint (jelentéstani szint) Szintaktikai szint (mondattani szint) Lexikai szint Fonetikai, fonológiai szint 6.A beszédjel a beszédtartalmi információt részben akusztikus, részben nyelvi szinten hordozza. A beszédfeldolgozás hierarchiaszintjei: (egyidejűleg aktívak) Akusztikai szint

21 BME TMIT Hol tartunk ma? Hogy működik egy korszerű beszédfelismerő?

22 BME TMIT Ma a korszerű beszédfelismerők statisztikai elvi alapokon működnek Akusztikai-fonetikai szinten létrehozott hangkapcsolat függő beszédhang modellek (Rejtett Markov modellek és/vagy Neurális hálózatok) és Szintaktikai (szó) szinten létrehozott statisztikai nyelvi modellek (N-gramm) együttes alkalmazásával.

23 BME TMIT A statisztikai alapú beszédfelismerő: akusztikai- fonetikai szint betanítás - modellépítés akusztikai előfeldolgozás beszéd adatbázis hangkapcsolat függő beszédhang modellek 10 ms-ént paraméter vektorsor Nyelvi tartalommal címkézett hanganyag Akusztikai-fonetikai statisztikai modellek létrehozása (hangkapcsolat függő fonémák,szótagok, szavak) besorolás Csoportosított paraméter vektorok

24 BME TMIT A statisztikai alapú beszédfelismerő: akusztikai- fonetikai szint beszédhangfelismerés s z é p a z i d ő hangkapcsolat függő beszédhang modellek akusztikai előfeldolgozás iIllesztés, döntés 10 ms-ként paraméter vektorsor karakterlánc kibocsátási valószínűség Szép az idő. Adaptáció lehetséges a beszélő hangjához Kimeneten karakterlánc jelenik meg, amelyben még sok a tévesztés. Pusztán akusztikai alapon a felismerési pontosság alacsony, nagyobb pontosság eléréséhez nyelvi szintek bevonása szükséges.

25 BME TMIT A statisztikai alapú beszédfelismerő: Szintaktikai (szó) szinten Nyelvi modell 1 értelmes szósorozatok szabályalapú modellek: útvonalkeresés gráfban - Determinisztikus nyelvtan! tizen száz egy huszon kettő kétszáz harminc három négy Kilenc száz

26 BME TMIT Statisztikai nyelvi modellek: valószínűségeket rendelünk az egyes szó-sorrendekhez (N-gramm modellek) a kisebb előfordulási gyakoriságú szó-sorrendeknek kisebb valószínűséget adunk, így a nagyobb gyakoriságú – vélhetően helyes – szó-sorrendek felismerési aránya nagyobb lesz. A valószínűségek megállapításához, tehát a nyelvi szintű betanításhoz nagy mennyiségű, a témához illeszkedő szöveganyag szükséges: A statisztikai alapú beszédfelismerő: Szintaktikai (szó) szinten Nyelvi modell 2 Témaspecifikus szövegadatbázisok szótárak statisztikai nyelvi modellek

27 BME TMIT N-gramm modell használhatósága nyelvfüggő Angol kötött szósorrend jól alkalmazható ragozott szóalak kisszámú Magyar és kevéssé kötött szórend további kutatás egyéb morfoló- agglutináló –flektáló szükséges giailag gazdag szóalak változékony (morféma alapú nyelvek nyelvi modellezés) A statisztikai alapú beszédfelismerő: N-gramm nyelvi modell jellemzése

28 BME TMIT akusztikai előfeldolgozás Dekóder (kereső algoritmus) hangkap- csolatfüggő beszédhang modellek ortografikus és kiejtés szótárak statisztikai nyelvi modell Szöveges adatbázisBeszéd- adatbázis szép az idő szólán c Teljes kiépítésű statisztikai alapú beszédfelismerő Szép az idő.

29 BME TMIT Teljes kiépítésű statisztikai alapú beszédfelismerő – Jellemzés 1 A felismerő betanításához, optimális működéséhez •az akusztikai környezet függvényében más és más beszédadatbázis kell!!! Telefonbeszéd adatbázis, beszédadatbázis kocsikban, hivatalokban, zajos utcán, stb. SPEECHDAT – CAR: French : Academic - Commercial EUR German : Academic - Commercial EUR • témacsoportonként más és más szövegadatbázist kell gyűjteni. erősen ragozott, toldalékolt nyelveknél ez még hangsúlyozottabb. Különböző adaptációs technikák most fejlesztés alatt •nyelvenként más és más szöveg és beszédadatbázis szükséges A többnyelvű felismerők fejlesztése folyamatban van

30 BME TMIT Magyar beszédadatbázisok összefoglaló adatai Magyar referencia beszéd adatbázis Csendes környezet, folyamatos szöveg Magyar telefon beszéd adatbázis Vonalas telefon, mobil, számok, szavak, tulajdonnevek, folyamatos szöveg TESZTEL Mobil zajos környezetbenfolyamatos szöveg SpeechDat Vonalas telefon, mobil, számok, szavak, tulajdonnevek, folyamatos szöveg Babel – többnyelvű adatbázis Tiszta beszédszavak, folyamatos szöveg SPECO Tiszta gyermekbeszédszavak, mondatok

31 BME TMIT Angol nyelvű nagyszótáras felismerő felismerési hibaaránya átlagos irodai környezetben(jó jel-zaj viszony esetén) _______________________________________________ beszédstílusszóhiba arány _______________________________________________ olvasott, szépen kiejtett beszéd, beszélő-adaptálás után < 5 % új beszélő 8-15 % spontán interjú % spontán társalgás % !!!!! _______________________________________________ A felismerő kimenetén szószekvenciák vannak. A valódi szemantikai és pragmatikai szint hiányzik. Mesterséges intelligenciával ellátott dialógus rendszerekkel a pontosság jelentősen növelhető!!!! Teljes kiépítésű statisztikai alapú beszédfelismerő – Jellemzés 2.: folyamatos beszédfelismerő pontossága csendes környezetben

32 BME TMIT Tiszta beszéd Spontán beszéd Teljes kiépítésű statisztikai alapú beszédfelismerő – Jellemzés 3.: beszédfelismerő pontossága ma különböző felhasználási területeken Diktálás híranyag interjú hang- switch - hívás tárgyalás posta board közp %szóhiba%szóhiba

33 BME TMIT 32 Merre halad a kutatás? •Zajtűrő akusztikai feldolgozás •Természetes (spontán beszéd) feldolgozás statisztikai feldolgozással : híranyagok szöveggé alakítása, parlamenti beszédek gépi lejegyzése ~ szó •Morfológiailag gazdag, és kisebb beszélőszámú nyelvek feldolgozása arab, finn, magyar, török, észt, stb. Mesterséges intelligenciával kibővített dialógus rendszerek fejlesztése •Statisztikai közelítésű dialógus rendszerek fejlesztése •Prozódia integrálása •Modalitás növelése Audio-vizuális beszédfelismerés

34 BME TMIT Satoshi Tamura, Koji Iwano and Sadaoki Furui 2006 Audio – vizuális felismerés AkusztikaiElőfeldolg. VizuálisElőfeldolg. Normali-zálás, Interpol Interpol. Akuszt. par. Vizuális par. Audio- vizuális par. Felism.eredm. jel

35 BME TMIT Dialógusban rejlő információk kinyerése nem-verbális, multimodális feldolgozással : beszéd+ artikuláció+ arcmimika+ gesztus+ test- és fejmozgás, a társalgást követve a cél annak megértése, hogy mi történik a párbeszédben. Egy folyamat elemzés elvégzése: --- a nyelvi információktól függetlenül, vagy --- a nyelvi információkkal együtt. Nick Campbell, 2006 ATR Media Information Science Labs,Japan Multi-modális kommunikáció feldolgozása

36 BME TMIT Egy 360 fokos kamera és irányított mikrofonok segítségével audio-vizuális információk sorozatát gyűjtik össze, amelyből következtethetőek a gyűlés tagjainak társalgási eseményei.

37 BME TMIT A videójel felbontása viszonylag alacsony. Nagyobb mozgások detektálása a bőr hőérzékelésével. A test-, a kéz- és a fejmozgásokat leíró egyszerű paraméterkészlet automatikus létrehozása.

38 BME TMIT Beszédfelismerő termékek A felismerés ma már elfogadható pontosságú ahhoz, hogy felhasználói interfészként működjön számos területen: - hangtárcsázás - Egyszerű adatbevitel – kézmentes vezérlés - Beszéd információs rendszerek – dialógusrendszerek – ember-gép kommunikáció - Diktálás (beszéd-szöveg átalakítás) – zárt témakörő dokumentumok szerkesztése - Böngészés hanggal – W3C beszéd interfész keretrendszer VoiceXML2+ Speech Grammar Specification (SRGS) lehetővé teszi az emberek számára a hangvezérlést megfelelően megtervezett web- alapú szolgáltatásoknál - Multimédia indexálás - Ügyfélszolgálati beszélgetés elemzés

39 BME TMIT Beszédfelismerés hazánkban világszínvonalon! • Beszéd szövegtartalmának felismerése (zárt témakörű !! diktálás) BME TMIT, SZTE IT • Telefonközpont irányítás BME TMIT, AITIA • Természetes beszéd alapú dialógus rendszerek Telefonos beszédinformációs rendszerek BME TMIT, AITIA • Audió vizuális beszédfelismerés MISKOLCI E. • Beszéddetekció BME TMIT • Kulcsszó felismerés, hangbányászat BME TMIT, AITIA • Nagyszótáras folyamatos magyar nyelvű beszéd felismerése indexálási célokra! BME TMIT, AITIA • Érzelmi töltet felismerése BME TMIT • Orvosi alkalmazások BME TMIT, SZTE IT

40 Köszönöm a figyelmet! A platform tagok bemutatkozó demonstrációjára várjuk önöket délután! BME TMIT Köszönjük az támogatását !


Letölteni ppt "Gépi beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék BME TMIT."

Hasonló előadás


Google Hirdetések