Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Beszédkutatási Laboratórium
Bevezetés Korpusz-alapú szövegfelolvasó hullámforma-összefűzéses kevés összefűzési pont nagyobb elemméret elemkiválasztás nagy beszédadatbázisból Beszédkutatási Laboratórium munkatársainak közreműködésével kiindulás: Nagy András diplomaterve
A feladat a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának áttekintése a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs rendszer kialakítása jó minőségű összefűzési algoritmus kialakítása a rendszer minőségének értékelése percepciós tesztekkel
Beszédszintetizátor rendszer architektúrája
Szerver jellemző számai nagy beszédkorpusz 10 órányi felvétel 5302 mondat 3,57 Gb (hangfájlok + címkézés) szerver indítás: 5-10 perc szintézis sebessége lejátszási idő 0,56-szorosa (WAP-os időjárás-jelentéseken) szintézis reakcióideje 1,9 sec (WAP-os időjárás-jelentéseken)
A beszédszintézis folyamata Elemkiválasztás több szinten: szó és fonéma szintetizálandó elemek meghatározása jelöltek gyűjtése a beszédkorpuszból Viterbi-algoritmus a legjobb jelölt-sorozat megtalálásához összefűzési költség célegyezési költség
Összefűzési költség két elem összefűzésének a költsége két egymással határos elem között 0 azonos forrásból (hangfájlból) származó elemek preferálása alapfrekvencia-ugrás büntetése (pl. ma napos) átmenet-vágási költségmátrix
Célegyezési költség egy elemnek a szintetizálandó céltól való eltérése fonéma-környezet egyezése fonéma-helyettesítési költségmátrix prozódiai jellemzők szónak a prozódiai egységen belüli pozíciója prozódiai egység mondaton belüli pozíciója külön büntetés mondatzáró szónál
Utófeldolgozás vágás az összefűzési pontokon intenzitás-módosítás mássalhangzó-hasonulások szóhatáron (pl. „vad tornádó”) intenzitás-módosítás alapfrekvencia- és időtartam-módosítás PSOLA (Pitch-Synchronous Overlap and Add) pl. mondatzáró szónál
beírt mondat szintézise összefűzési költség célegyezési költség minden elem minden jelöltjére fonetikai, prozódiai, alapfrekvencia, stb. információ
Időjárás szövegadatbázis előállítása alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhető megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozása származási helyenként eltérő felépítésű oldalak tartalom forrása portálonként külön kezelendő HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL) adatbázisban további tisztítási lépések
Meghallgatásos tesztek A fejlesztési irányt kijelölő 51 mondatos teszt Egyetlen prozódiai egységből álló mondatokkal 280 mondat Szintézis módszerek összehasonlítása természetes, korpuszos, triádos, formáns 248 résztvevő Fejlődési teszt 25 „rossz” mondat, 87 résztvevő preferencia: 76,20% WAP-os időjárás-jelentésekkel 539 mondat osztályzat mondatok száma
Reakció a bírálatra időjárások korlátozott témakörének ismertetése a bevezető előtti összefoglalóban tesztelés egyetlen prozódiai egységből álló mondatokkal a korábbi teszt alapján „nehéz” mondatok mondatok válogatása: a korpuszban biztosan ne szerepeljenek fél éves periódusból szintézis módszerek összehasonlítása 248 fő teszteredményei alapján kiváló/jó/közepes/gyenge/rossz sok minőségi szintű felvétel kritikusabb hallgatók
Továbblépési irányok Más témakörök További címkézési jellemzők hangsúlyosság hosszan ejtett hang Nagyobb elemméret szótag-szint fonémákból építkezés kiváltható
Kérdések