Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Beszédkutatási Laboratórium
2
Bevezetés Korpusz-alapú szövegfelolvasó
hullámforma-összefűzéses kevés összefűzési pont nagyobb elemméret elemkiválasztás nagy beszédadatbázisból Beszédkutatási Laboratórium munkatársainak közreműködésével kiindulás: Nagy András diplomaterve
3
A feladat a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának áttekintése a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs rendszer kialakítása jó minőségű összefűzési algoritmus kialakítása a rendszer minőségének értékelése percepciós tesztekkel
4
Beszédszintetizátor rendszer architektúrája
5
Szerver jellemző számai
nagy beszédkorpusz 10 órányi felvétel 5302 mondat 3,57 Gb (hangfájlok + címkézés) szerver indítás: 5-10 perc szintézis sebessége lejátszási idő 0,56-szorosa (WAP-os időjárás-jelentéseken) szintézis reakcióideje 1,9 sec (WAP-os időjárás-jelentéseken)
6
A beszédszintézis folyamata
Elemkiválasztás több szinten: szó és fonéma szintetizálandó elemek meghatározása jelöltek gyűjtése a beszédkorpuszból Viterbi-algoritmus a legjobb jelölt-sorozat megtalálásához összefűzési költség célegyezési költség
7
Összefűzési költség két elem összefűzésének a költsége
két egymással határos elem között 0 azonos forrásból (hangfájlból) származó elemek preferálása alapfrekvencia-ugrás büntetése (pl. ma napos) átmenet-vágási költségmátrix
8
Célegyezési költség egy elemnek a szintetizálandó céltól való eltérése
fonéma-környezet egyezése fonéma-helyettesítési költségmátrix prozódiai jellemzők szónak a prozódiai egységen belüli pozíciója prozódiai egység mondaton belüli pozíciója külön büntetés mondatzáró szónál
9
Utófeldolgozás vágás az összefűzési pontokon intenzitás-módosítás
mássalhangzó-hasonulások szóhatáron (pl. „vad tornádó”) intenzitás-módosítás alapfrekvencia- és időtartam-módosítás PSOLA (Pitch-Synchronous Overlap and Add) pl. mondatzáró szónál
10
beírt mondat szintézise
összefűzési költség célegyezési költség minden elem minden jelöltjére fonetikai, prozódiai, alapfrekvencia, stb. információ
11
Időjárás szövegadatbázis előállítása
alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhető megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozása származási helyenként eltérő felépítésű oldalak tartalom forrása portálonként külön kezelendő HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL) adatbázisban további tisztítási lépések
12
Meghallgatásos tesztek
A fejlesztési irányt kijelölő 51 mondatos teszt Egyetlen prozódiai egységből álló mondatokkal 280 mondat Szintézis módszerek összehasonlítása természetes, korpuszos, triádos, formáns 248 résztvevő Fejlődési teszt 25 „rossz” mondat, 87 résztvevő preferencia: 76,20% WAP-os időjárás-jelentésekkel 539 mondat osztályzat mondatok száma
13
Reakció a bírálatra időjárások korlátozott témakörének ismertetése
a bevezető előtti összefoglalóban tesztelés egyetlen prozódiai egységből álló mondatokkal a korábbi teszt alapján „nehéz” mondatok mondatok válogatása: a korpuszban biztosan ne szerepeljenek fél éves periódusból szintézis módszerek összehasonlítása 248 fő teszteredményei alapján kiváló/jó/közepes/gyenge/rossz sok minőségi szintű felvétel kritikusabb hallgatók
14
Továbblépési irányok Más témakörök További címkézési jellemzők
hangsúlyosság hosszan ejtett hang Nagyobb elemméret szótag-szint fonémákból építkezés kiváltható
15
Kérdések
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.