Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. május 2.

Hasonló előadás


Az előadások a következő témára: "Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. május 2."— Előadás másolata:

1 Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – május 2.

2 Bevezetés Számítógép számára a nyelv elsődlegesen írásbeli Ember számára elsődlegesen szóbeli: –~18 hónaposan már kétszavas mondatokban beszélünk (de nem írunk!) –Írástudatlanok nem „beszédtudatlanok” Bszédtechnológia: az ember számára elsődleges kommunikációs eszközt géppel feldolgozni/előállítani

3 Beszédtechnológia Beszédszintézis (text2speech) Beszédfeldolgozás (speech2text) Megelőzi a nyelvtechnológiát: Kempelen Farkas beszélőgépe (1770)

4 Beszédszintézis a leírt szöveg hangzó beszéddé alakítása = szövegfelolvasás Nehéz feladat Adott területekre, adott feladatokra vannak elfogadható megoldások, de univerzális nincs

5 Karaktersor -> hang Normalizálás: Kedden reggel Siófoknál 122 centiméteren állt a tó a Közép-dunántúli Vízügyi Igazgatóság mérése szerint, átlagosan pedig 124 cm volt a vízállás. kedden reggel siófoknál százhuszonkét centiméteren állt a tó a középdunántúli vízügyi igazgatóság mérése szerint átlagosan pedig százhuszonnégy centiméter volt a vízállás Fölösleges (nem hangot jelölő) karakterek eltávolítása Nyelvfelismerés Ékezetek helyreállítása Számok, rövidítések stb. átírása

6 Technikák: formánsszintézis Gép állítja elő a beszédjelet (hullámformát) szabályhalmaz segítségével Erősen gépiesnek hangzó beszéd Kutatási célokra használják, nem gyakorlati alkalmazásokban

7 Technikák: elemösszefűzés természetes beszédből kivágott hullámformák összefűzése Hangalapú (38 fonéma a magyarra): működik, de gyenge minőségű Fontos a fonológiai környezet is: hangkapcsolódások Diádok/triádok: egymás utáni félhangok kapcsolata (hangátmenet) – 40 hangra 1600 diád Elterjedt a világban

8 Technikák: elemkiválasztás Korpuszalapú: hanghullám + szöveg + normalizált fonemikus átirat + fonetikus átirat Adatbázisban természetes hangzású teljes mondatok vannak többféle változatban (eltérő prozódia) Adott felolvasandó részlethez a leghasonlóbbat kell kiválasztani Viszonylag jó minőségű: –kevesebb összefűzési pont, így kevésbé darabos –prozódia is nagyrészt megőrződik

9 Beszédszintetizátorok Magyarra több is létezik Profivox: tiszta, érthető, emberi hangszínhez közeli hang BME TMIT fejlesztése Témaspecifikus modulok: időjárásjelentés-felolvasó, menetrend- felolvasó, név- és címfelolvasó, hírolvasó, számfelolvasó…

10 Profivox a való világban telefonról elérhető e-levél felolvasó szépirodalmi internetes könyvfelolvasó mobiltelefonba épített SMS-felolvasó automatikus számszerinti tudakozó a Jaws for Windows (USA) képernyőolvasó magyar változata vakok számára beszélő bankautomaták automatikus telefonközpont Gyógyszervonal, automatikus telefonos információs rendszer menetrend-felolvasó, utastájékoztató automata automatikus áru- és árlista-felolvasó HALLGASSUK MEG!

11 Beszédfelismerés Elhangzott beszéd szöveggé alakítása = leírása + beszélőfelismerés, érzelemfelismerés… Lényegkiemelés: beszédjellemzők és egyéb zajok elkülönítése Mintaillesztés: jellemzők optimális illeszkedése adott statisztikai mintákra (beszédhang, szó, beszélő…)

12 Mintaillesztés Időbeliség: mettől meddig tart az adott hang/szó/mondat… –Nem triviális: hangsúlyozás –Idegen nyelvi szöveg leírásához hasonló Osztályozás: melyik tárolt elemre hasonlít legjobban – valószínűségi modell

13 Nyelvfüggő modellek Nyelvi modell: súlyozza adott nyelv kimeneti szósorozatait (a már felismert szavak alapján) Kiejtési modell: szavak és beszédhangok egymásra való leképezése Koartikulációs modell: hangátmenetek (lásd diádok/triádok) Akusztikai modell: beszédhang triádok akusztikai leképezése

14 Beszédfelismerés itthon BME TMIT SZTE Cégek: ALL, AITIA… Korszerű nagyszótáras beszédfelismerés magyarra Kötött témákban Spontán beszédre még nem… magyar: minden szóalak külön szó (!)

15 Beszédfelismerési alkalmazások Parancs- és kulcsszófelismerés Parancsszó: pl. sípszó után elhangzó parancs Telefonhívás a hívott fél bemondása alapján Kulcsszófelismerés: élőbeszédben adott kulcsszó megtalálása

16 Diktálórendszerek Erősen kötött tematikájú szövegek Nagyszótáras beszédfelismerés Orvosi (radiológia) Jogi Viszonylag jó pontossággal működnek

17 Nagyszótáras beszédfelismerés Híranyagok felismerése Általános médiaanyagok felismerése Sajtótájékoztatói hanganyagok felismerése Idősek spontán beszédének felismerése: holokauszt-túlélők emlékei

18 Egyéb alkalmazások Voxenter: automatikus híváskezelő rendszer, kulcsszó alapján kapcsolja az illetékest Voxearch: hanganyagban (médiában) való keresés

19 Beszédadatbázisok Statisztikai modellek tanításához nélkülözhetetlenek es.phphttp://alpha.tmit.bme.hu/speech/databas es.php BEA (Beszélt Nyelvi Adatbázis) –Spontán beszéd –Több korcsoport (20-70) –Kb. 500 beszélő –http://www.nytud.hu/adatb/bea/index.htmlhttp://www.nytud.hu/adatb/bea/index.html

20 BABELSpeechDat-EMTBAMRBASPECO (gyermek) Forrásmikrofontelefon (PSTN)telefon (PSTN), mobiltelefon (GSM) mikrofon, hangkártya (PC) mikrofon, hangkártya (PC) Formátum20 kHz, 16 bit8 kHz, 16 bit (ISDN) 8 kHz 16 bit16 kHz, 16 bit20050 Hz, 16 bit Rögzítési környezet süketszoba (tiszta beszéd) iroda, lakás, utca, telefonfülke stb. iroda, lakás, utca, telefonfülke stb. iroda, lakássüketszoba Bemondás módja olvasott beszéd80% olvasott, 20% spontán beszéd 80% olvasott, 20% spontán beszéd olvasott beszédolvasott, utánmondott beszéd Beszédtípushangkapcsolatok, számok, szavak, folyamatos beszéd betűzött szavak, dátumok, számok, szavak, tulajdonnevek, folyamatos beszéd betűzött szavak, dátumok, számok, szavak, tulajdonnevek, folyamatos beszéd folyamatos beszéd kitartott beszédhangok, hangkapcsolatok, szavak, mondatok Bemondók száma Feldolgozásfonotipikus átírás fonémaszintű szegmentálás karakteres leírás, nincs szegmentálás, zajok, hibák jelölése Szavak: karakteres leírás, nincs szegmentálás, zajok, hibák jelölése. Folyamatos beszéd: fonémaszintű szegmentálása és címkézése Az anyag 66%-a: karakteres leírás zajok, hibák jelölése. Az anyag 33%-a: Fonémaszintű szegmentálás és címkézés fonotipikus átírás, fonémaszintű szegmentálás

21 Beszédterápia Beszédtechnológiai eredmények gyakorlati hasznosítása Beszédsérültek beszédének javítása Beszédhibák javítása Diagnosztikai eszközök Varázsdoboz, Beszédmester…

22 Hallás- és látássérültek segítése Hallássérültek támogatása: pl. tévéműsorok feliratozása Látássérültek támogatása: pl. e- mail felolvasása Agy- és beszédsérültek terápiája Alzheimer-kór korai felismerése


Letölteni ppt "Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. május 2."

Hasonló előadás


Google Hirdetések