Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai.

Hasonló előadás


Az előadások a következő témára: "Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai."— Előadás másolata:

1 Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Beszédkutatási Laboratórium

2 Bevezetés  Korpusz-alapú szövegfelolvasó  hullámforma-összefűzéses  kevés összefűzési pont  nagyobb elemméret  elemkiválasztás nagy beszédadatbázisból  Beszédkutatási Laboratórium munkatársainak közreműködésével  kiindulás: Nagy András diplomaterve

3 A feladat  a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának áttekintése  a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs rendszer kialakítása  jó minőségű összefűzési algoritmus kialakítása  a rendszer minőségének értékelése percepciós tesztekkel

4 Beszédszintetizátor rendszer architektúrája

5 Szerver jellemző számai  nagy beszédkorpusz  10 órányi felvétel  5302 mondat  3,57 Gb (hangfájlok + címkézés)  szerver indítás: 5-10 perc  szintézis sebessége  lejátszási idő 0,56-szorosa (WAP-os időjárás-jelentéseken)  szintézis reakcióideje  1,9 sec (WAP-os időjárás-jelentéseken)

6 A beszédszintézis folyamata  Elemkiválasztás  több szinten: szó és fonéma  szintetizálandó elemek meghatározása  jelöltek gyűjtése a beszédkorpuszból  Viterbi-algoritmus a legjobb jelölt-sorozat megtalálásához  összefűzési költség  célegyezési költség

7 Összefűzési költség  két elem összefűzésének a költsége  két egymással határos elem között 0  azonos forrásból (hangfájlból) származó elemek preferálása  alapfrekvencia-ugrás büntetése (pl. ma napos)  átmenet-vágási költségmátrix

8 Célegyezési költség  egy elemnek a szintetizálandó céltól való eltérése  fonéma-környezet egyezése  fonéma-helyettesítési költségmátrix  prozódiai jellemzők  szónak a prozódiai egységen belüli pozíciója  prozódiai egység mondaton belüli pozíciója  külön büntetés mondatzáró szónál

9 Utófeldolgozás  vágás az összefűzési pontokon  mássalhangzó-hasonulások szóhatáron (pl. „vad tornádó”)  intenzitás-módosítás  alapfrekvencia- és időtartam-módosítás  PSOLA (Pitch-Synchronous Overlap and Add)  pl. mondatzáró szónál

10 beírt mondat szintézise összefűzési költség célegyezési költség minden elem minden jelöltjére fonetikai, prozódiai, alapfrekvencia, stb. információ

11 Időjárás szövegadatbázis előállítása  alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhető  megoldás: Internetes portálok időjárás- jelentéseinek automatizált feldolgozása  származási helyenként eltérő felépítésű oldalak  tartalom forrása portálonként külön kezelendő  HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL)  adatbázisban további tisztítási lépések

12 Meghallgatásos tesztek  A fejlesztési irányt kijelölő 51 mondatos teszt  Egyetlen prozódiai egységből álló mondatokkal  280 mondat  Szintézis módszerek összehasonlítása  természetes, korpuszos, triádos, formáns  248 résztvevő  Fejlődési teszt  25 „rossz” mondat, 87 résztvevő  preferencia: 76,20%  WAP-os időjárás-jelentésekkel  539 mondat osztályzat mondatok száma

13 Reakció a bírálatra  időjárások korlátozott témakörének ismertetése  a bevezető előtti összefoglalóban  tesztelés egyetlen prozódiai egységből álló mondatokkal  a korábbi teszt alapján „nehéz” mondatok  mondatok válogatása: a korpuszban biztosan ne szerepeljenek  fél éves periódusból  szintézis módszerek összehasonlítása  248 fő teszteredményei alapján  kiváló/jó/közepes/gyenge/rossz  sok minőségi szintű felvétel  kritikusabb hallgatók

14 Továbblépési irányok  Más témakörök  További címkézési jellemzők  hangsúlyosság  hosszan ejtett hang  Nagyobb elemméret  szótag-szint  fonémákból építkezés kiváltható

15 Kérdések


Letölteni ppt "Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai."

Hasonló előadás


Google Hirdetések