A számítógépes nyelvfeldolgozás alapjai Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. május 2.
Bevezetés Számítógép számára a nyelv elsődlegesen írásbeli Ember számára elsődlegesen szóbeli: ~18 hónaposan már kétszavas mondatokban beszélünk (de nem írunk!) Írástudatlanok nem „beszédtudatlanok” Bszédtechnológia: az ember számára elsődleges kommunikációs eszközt géppel feldolgozni/előállítani
Beszédtechnológia Beszédszintézis (text2speech) Beszédfeldolgozás (speech2text) Megelőzi a nyelvtechnológiát: Kempelen Farkas beszélőgépe (1770)
Beszédszintézis a leírt szöveg hangzó beszéddé alakítása = szövegfelolvasás Nehéz feladat Adott területekre, adott feladatokra vannak elfogadható megoldások, de univerzális nincs
Karaktersor -> hang Normalizálás: Kedden reggel Siófoknál 122 centiméteren állt a tó a Közép-dunántúli Vízügyi Igazgatóság mérése szerint, átlagosan pedig 124 cm volt a vízállás. kedden reggel siófoknál százhuszonkét centiméteren állt a tó a középdunántúli vízügyi igazgatóság mérése szerint átlagosan pedig százhuszonnégy centiméter volt a vízállás Fölösleges (nem hangot jelölő) karakterek eltávolítása Nyelvfelismerés Ékezetek helyreállítása Számok, rövidítések stb. átírása
Technikák: formánsszintézis Gép állítja elő a beszédjelet (hullámformát) szabályhalmaz segítségével Erősen gépiesnek hangzó beszéd Kutatási célokra használják, nem gyakorlati alkalmazásokban
Technikák: elemösszefűzés természetes beszédből kivágott hullámformák összefűzése Hangalapú (38 fonéma a magyarra): működik, de gyenge minőségű Fontos a fonológiai környezet is: hangkapcsolódások Diádok/triádok: egymás utáni félhangok kapcsolata (hangátmenet) – 40 hangra 1600 diád Elterjedt a világban
Technikák: elemkiválasztás Korpuszalapú: hanghullám + szöveg + normalizált fonemikus átirat + fonetikus átirat Adatbázisban természetes hangzású teljes mondatok vannak többféle változatban (eltérő prozódia) Adott felolvasandó részlethez a leghasonlóbbat kell kiválasztani Viszonylag jó minőségű: kevesebb összefűzési pont, így kevésbé darabos prozódia is nagyrészt megőrződik
Beszédszintetizátorok Magyarra több is létezik Profivox: tiszta, érthető, emberi hangszínhez közeli hang BME TMIT fejlesztése Témaspecifikus modulok: időjárásjelentés-felolvasó, menetrend-felolvasó, név- és címfelolvasó, hírolvasó, számfelolvasó… http://speechlab.tmit.bme.hu
Profivox a való világban telefonról elérhető e-levél felolvasó szépirodalmi internetes könyvfelolvasó mobiltelefonba épített SMS-felolvasó automatikus számszerinti tudakozó a Jaws for Windows (USA) képernyőolvasó magyar változata vakok számára beszélő bankautomaták automatikus telefonközpont Gyógyszervonal, automatikus telefonos információs rendszer menetrend-felolvasó, utastájékoztató automata automatikus áru- és árlista-felolvasó HALLGASSUK MEG!
Beszédfelismerés Elhangzott beszéd szöveggé alakítása = leírása + beszélőfelismerés, érzelemfelismerés… Lényegkiemelés: beszédjellemzők és egyéb zajok elkülönítése Mintaillesztés: jellemzők optimális illeszkedése adott statisztikai mintákra (beszédhang, szó, beszélő…)
Mintaillesztés Időbeliség: mettől meddig tart az adott hang/szó/mondat… Nem triviális: hangsúlyozás Idegen nyelvi szöveg leírásához hasonló Osztályozás: melyik tárolt elemre hasonlít legjobban – valószínűségi modell
Nyelvfüggő modellek Nyelvi modell: súlyozza adott nyelv kimeneti szósorozatait (a már felismert szavak alapján) Kiejtési modell: szavak és beszédhangok egymásra való leképezése Koartikulációs modell: hangátmenetek (lásd diádok/triádok) Akusztikai modell: beszédhang triádok akusztikai leképezése
Beszédfelismerés itthon BME TMIT SZTE Cégek: ALL, AITIA… Korszerű nagyszótáras beszédfelismerés magyarra Kötött témákban Spontán beszédre még nem… magyar: minden szóalak külön szó (!)
Beszédfelismerési alkalmazások Parancs- és kulcsszófelismerés Parancsszó: pl. sípszó után elhangzó parancs Telefonhívás a hívott fél bemondása alapján Kulcsszófelismerés: élőbeszédben adott kulcsszó megtalálása
Diktálórendszerek Erősen kötött tematikájú szövegek Nagyszótáras beszédfelismerés Orvosi (radiológia) Jogi Viszonylag jó pontossággal működnek
Nagyszótáras beszédfelismerés Híranyagok felismerése Általános médiaanyagok felismerése Sajtótájékoztatói hanganyagok felismerése Idősek spontán beszédének felismerése: holokauszt-túlélők emlékei
Egyéb alkalmazások Voxenter: automatikus híváskezelő rendszer, kulcsszó alapján kapcsolja az illetékest Voxearch: hanganyagban (médiában) való keresés
Beszédadatbázisok Statisztikai modellek tanításához nélkülözhetetlenek http://alpha.tmit.bme.hu/speech/databases.php BEA (Beszélt Nyelvi Adatbázis) Spontán beszéd Több korcsoport (20-70) Kb. 500 beszélő http://www.nytud.hu/adatb/bea/index.html
BABEL SpeechDat-E MTBA MRBA SPECO (gyermek) Forrás mikrofon telefon (PSTN) telefon (PSTN), mobiltelefon (GSM) mikrofon, hangkártya (PC) mikrofon, hangkártya (PC) Formátum 20 kHz, 16 bit 8 kHz, 16 bit (ISDN) 8 kHz 16 bit 16 kHz, 16 bit 20050 Hz, 16 bit Rögzítési környezet süketszoba (tiszta beszéd) iroda, lakás, utca, telefonfülke stb. iroda, lakás süketszoba Bemondás módja olvasott beszéd 80% olvasott, 20% spontán beszéd olvasott, utánmondott Beszédtípus hangkapcsolatok, számok, szavak, folyamatos beszéd betűzött szavak, dátumok, számok, szavak, tulajdonnevek, folyamatos kitartott beszédhangok, szavak, mondatok Bemondók száma 60 1000 500 332 76 Feldolgozás fonotipikus átírás fonémaszintű szegmentálás karakteres leírás, nincs szegmentálás, zajok, hibák jelölése Szavak: jelölése. Folyamatos beszéd: szegmentálása és címkézése Az anyag 66%-a: karakteres leírás Az anyag 33%-a: Fonémaszintű szegmentálás és címkézés fonotipikus átírás,
Beszédterápia Beszédtechnológiai eredmények gyakorlati hasznosítása Beszédsérültek beszédének javítása Beszédhibák javítása Diagnosztikai eszközök Varázsdoboz, Beszédmester…
Hallás- és látássérültek segítése Hallássérültek támogatása: pl. tévéműsorok feliratozása Látássérültek támogatása: pl. e-mail felolvasása Agy- és beszédsérültek terápiája Alzheimer-kór korai felismerése