Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
A számítógépes nyelvfeldolgozás alapjai
Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – május 2.
2
Bevezetés Számítógép számára a nyelv elsődlegesen írásbeli
Ember számára elsődlegesen szóbeli: ~18 hónaposan már kétszavas mondatokban beszélünk (de nem írunk!) Írástudatlanok nem „beszédtudatlanok” Bszédtechnológia: az ember számára elsődleges kommunikációs eszközt géppel feldolgozni/előállítani
3
Beszédtechnológia Beszédszintézis (text2speech)
Beszédfeldolgozás (speech2text) Megelőzi a nyelvtechnológiát: Kempelen Farkas beszélőgépe (1770)
4
Beszédszintézis a leírt szöveg hangzó beszéddé alakítása = szövegfelolvasás Nehéz feladat Adott területekre, adott feladatokra vannak elfogadható megoldások, de univerzális nincs
5
Karaktersor -> hang
Normalizálás: Kedden reggel Siófoknál 122 centiméteren állt a tó a Közép-dunántúli Vízügyi Igazgatóság mérése szerint, átlagosan pedig 124 cm volt a vízállás. kedden reggel siófoknál százhuszonkét centiméteren állt a tó a középdunántúli vízügyi igazgatóság mérése szerint átlagosan pedig százhuszonnégy centiméter volt a vízállás Fölösleges (nem hangot jelölő) karakterek eltávolítása Nyelvfelismerés Ékezetek helyreállítása Számok, rövidítések stb. átírása
6
Technikák: formánsszintézis
Gép állítja elő a beszédjelet (hullámformát) szabályhalmaz segítségével Erősen gépiesnek hangzó beszéd Kutatási célokra használják, nem gyakorlati alkalmazásokban
7
Technikák: elemösszefűzés
természetes beszédből kivágott hullámformák összefűzése Hangalapú (38 fonéma a magyarra): működik, de gyenge minőségű Fontos a fonológiai környezet is: hangkapcsolódások Diádok/triádok: egymás utáni félhangok kapcsolata (hangátmenet) – 40 hangra 1600 diád Elterjedt a világban
8
Technikák: elemkiválasztás
Korpuszalapú: hanghullám + szöveg + normalizált fonemikus átirat + fonetikus átirat Adatbázisban természetes hangzású teljes mondatok vannak többféle változatban (eltérő prozódia) Adott felolvasandó részlethez a leghasonlóbbat kell kiválasztani Viszonylag jó minőségű: kevesebb összefűzési pont, így kevésbé darabos prozódia is nagyrészt megőrződik
9
Beszédszintetizátorok
Magyarra több is létezik Profivox: tiszta, érthető, emberi hangszínhez közeli hang BME TMIT fejlesztése Témaspecifikus modulok: időjárásjelentés-felolvasó, menetrend-felolvasó, név- és címfelolvasó, hírolvasó, számfelolvasó…
10
Profivox a való világban
telefonról elérhető e-levél felolvasó szépirodalmi internetes könyvfelolvasó mobiltelefonba épített SMS-felolvasó automatikus számszerinti tudakozó a Jaws for Windows (USA) képernyőolvasó magyar változata vakok számára beszélő bankautomaták automatikus telefonközpont Gyógyszervonal, automatikus telefonos információs rendszer menetrend-felolvasó, utastájékoztató automata automatikus áru- és árlista-felolvasó HALLGASSUK MEG!
11
Beszédfelismerés Elhangzott beszéd szöveggé alakítása = leírása
+ beszélőfelismerés, érzelemfelismerés… Lényegkiemelés: beszédjellemzők és egyéb zajok elkülönítése Mintaillesztés: jellemzők optimális illeszkedése adott statisztikai mintákra (beszédhang, szó, beszélő…)
12
Mintaillesztés Időbeliség: mettől meddig tart az adott hang/szó/mondat… Nem triviális: hangsúlyozás Idegen nyelvi szöveg leírásához hasonló Osztályozás: melyik tárolt elemre hasonlít legjobban – valószínűségi modell
13
Nyelvfüggő modellek Nyelvi modell: súlyozza adott nyelv kimeneti szósorozatait (a már felismert szavak alapján) Kiejtési modell: szavak és beszédhangok egymásra való leképezése Koartikulációs modell: hangátmenetek (lásd diádok/triádok) Akusztikai modell: beszédhang triádok akusztikai leképezése
14
Beszédfelismerés itthon
BME TMIT SZTE Cégek: ALL, AITIA… Korszerű nagyszótáras beszédfelismerés magyarra Kötött témákban Spontán beszédre még nem… magyar: minden szóalak külön szó (!)
15
Beszédfelismerési alkalmazások
Parancs- és kulcsszófelismerés Parancsszó: pl. sípszó után elhangzó parancs Telefonhívás a hívott fél bemondása alapján Kulcsszófelismerés: élőbeszédben adott kulcsszó megtalálása
16
Diktálórendszerek Erősen kötött tematikájú szövegek
Nagyszótáras beszédfelismerés Orvosi (radiológia) Jogi Viszonylag jó pontossággal működnek
17
Nagyszótáras beszédfelismerés
Híranyagok felismerése Általános médiaanyagok felismerése Sajtótájékoztatói hanganyagok felismerése Idősek spontán beszédének felismerése: holokauszt-túlélők emlékei
18
Egyéb alkalmazások Voxenter: automatikus híváskezelő rendszer, kulcsszó alapján kapcsolja az illetékest Voxearch: hanganyagban (médiában) való keresés
19
Beszédadatbázisok Statisztikai modellek tanításához nélkülözhetetlenek
BEA (Beszélt Nyelvi Adatbázis) Spontán beszéd Több korcsoport (20-70) Kb. 500 beszélő
20
BABEL SpeechDat-E MTBA MRBA SPECO (gyermek) Forrás mikrofon telefon (PSTN) telefon (PSTN), mobiltelefon (GSM) mikrofon, hangkártya (PC) mikrofon, hangkártya (PC) Formátum 20 kHz, 16 bit 8 kHz, 16 bit (ISDN) 8 kHz 16 bit 16 kHz, 16 bit 20050 Hz, 16 bit Rögzítési környezet süketszoba (tiszta beszéd) iroda, lakás, utca, telefonfülke stb. iroda, lakás süketszoba Bemondás módja olvasott beszéd 80% olvasott, 20% spontán beszéd olvasott, utánmondott Beszédtípus hangkapcsolatok, számok, szavak, folyamatos beszéd betűzött szavak, dátumok, számok, szavak, tulajdonnevek, folyamatos kitartott beszédhangok, szavak, mondatok Bemondók száma 60 1000 500 332 76 Feldolgozás fonotipikus átírás fonémaszintű szegmentálás karakteres leírás, nincs szegmentálás, zajok, hibák jelölése Szavak: jelölése. Folyamatos beszéd: szegmentálása és címkézése Az anyag 66%-a: karakteres leírás Az anyag 33%-a: Fonémaszintű szegmentálás és címkézés fonotipikus átírás,
21
Beszédterápia Beszédtechnológiai eredmények gyakorlati hasznosítása
Beszédsérültek beszédének javítása Beszédhibák javítása Diagnosztikai eszközök Varázsdoboz, Beszédmester…
22
Hallás- és látássérültek segítése
Hallássérültek támogatása: pl. tévéműsorok feliratozása Látássérültek támogatása: pl. felolvasása Agy- és beszédsérültek terápiája Alzheimer-kór korai felismerése
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.