Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korpusz-alapú szövegfelolvasó rendszer fejlesztése

Hasonló előadás


Az előadások a következő témára: "Korpusz-alapú szövegfelolvasó rendszer fejlesztése"— Előadás másolata:

1 Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Beszédkutatási Laboratórium

2 Bevezetés Korpusz-alapú szövegfelolvasó
hullámforma-összefűzéses kevés összefűzési pont nagyobb elemméret elemkiválasztás nagy beszédadatbázisból Beszédkutatási Laboratórium munkatársainak közreműködésével kiindulás: Nagy András diplomaterve

3 A feladat a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának áttekintése a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs rendszer kialakítása jó minőségű összefűzési algoritmus kialakítása a rendszer minőségének értékelése percepciós tesztekkel

4 Beszédszintetizátor rendszer architektúrája

5 Szerver jellemző számai
nagy beszédkorpusz 10 órányi felvétel 5302 mondat 3,57 Gb (hangfájlok + címkézés) szerver indítás: 5-10 perc szintézis sebessége lejátszási idő 0,56-szorosa (WAP-os időjárás-jelentéseken) szintézis reakcióideje 1,9 sec (WAP-os időjárás-jelentéseken)

6 A beszédszintézis folyamata
Elemkiválasztás több szinten: szó és fonéma szintetizálandó elemek meghatározása jelöltek gyűjtése a beszédkorpuszból Viterbi-algoritmus a legjobb jelölt-sorozat megtalálásához összefűzési költség célegyezési költség

7 Összefűzési költség két elem összefűzésének a költsége
két egymással határos elem között 0 azonos forrásból (hangfájlból) származó elemek preferálása alapfrekvencia-ugrás büntetése (pl. ma napos) átmenet-vágási költségmátrix

8 Célegyezési költség egy elemnek a szintetizálandó céltól való eltérése
fonéma-környezet egyezése  fonéma-helyettesítési költségmátrix prozódiai jellemzők szónak a prozódiai egységen belüli pozíciója prozódiai egység mondaton belüli pozíciója külön büntetés mondatzáró szónál

9 Utófeldolgozás vágás az összefűzési pontokon intenzitás-módosítás
mássalhangzó-hasonulások szóhatáron (pl. „vad tornádó”) intenzitás-módosítás alapfrekvencia- és időtartam-módosítás PSOLA (Pitch-Synchronous Overlap and Add) pl. mondatzáró szónál

10 beírt mondat szintézise
összefűzési költség célegyezési költség minden elem minden jelöltjére fonetikai, prozódiai, alapfrekvencia, stb. információ

11 Időjárás szövegadatbázis előállítása
alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhető megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozása származási helyenként eltérő felépítésű oldalak  tartalom forrása portálonként külön kezelendő HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL) adatbázisban további tisztítási lépések

12 Meghallgatásos tesztek
A fejlesztési irányt kijelölő 51 mondatos teszt Egyetlen prozódiai egységből álló mondatokkal 280 mondat Szintézis módszerek összehasonlítása természetes, korpuszos, triádos, formáns 248 résztvevő Fejlődési teszt 25 „rossz” mondat, 87 résztvevő preferencia: 76,20% WAP-os időjárás-jelentésekkel 539 mondat osztályzat mondatok száma

13 Reakció a bírálatra időjárások korlátozott témakörének ismertetése
a bevezető előtti összefoglalóban tesztelés egyetlen prozódiai egységből álló mondatokkal a korábbi teszt alapján „nehéz” mondatok mondatok válogatása: a korpuszban biztosan ne szerepeljenek  fél éves periódusból szintézis módszerek összehasonlítása 248 fő teszteredményei alapján kiváló/jó/közepes/gyenge/rossz sok minőségi szintű felvétel  kritikusabb hallgatók

14 Továbblépési irányok Más témakörök További címkézési jellemzők
hangsúlyosság hosszan ejtett hang Nagyobb elemméret szótag-szint  fonémákból építkezés kiváltható

15 Kérdések


Letölteni ppt "Korpusz-alapú szövegfelolvasó rendszer fejlesztése"

Hasonló előadás


Google Hirdetések