T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
T.Gy. Beszedfelism es szint Mi a beszédszintézis? A természetes beszédlánchoz képest a beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel. Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.
T.Gy. Beszedfelism es szint A beszédszintetizátorok alapvető osztályai
T.Gy. Beszedfelism es szint Megoldott kérdés-e a beszédszintézis, más szóval szöveg- beszéd átalakítás?
T.Gy. Beszedfelism es szint Igen Mert termékként állnak rendelkezésre megoldások. Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP) Mert könyvek leírják, iskolában tanítják….
T.Gy. Beszedfelism es szint Példa az XP rendszerben! Vezérlőpult/beszéd ….
T.Gy. Beszedfelism es szint NEM! Mert nem szeretik! Mert nem használják! Mert nem hozott komoly üzleti eredményt senkinek!
T.Gy. Beszedfelism es szint
9
10 Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért nem?
T.Gy. Beszedfelism es szint Az én válaszaim Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”) A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma! Akadtak tényleges kiejtési hibák is! A beszéd több, mint elemek egymásutánisága! Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.
T.Gy. Beszedfelism es szint Friss hírek a hangportálon ( ) Hosszabb híranyag csemege1 csemege2 csemege3 csemege4 csemege5
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint Érdekesebb helyek a hálón! mo.php#tophttp:// mo.php#top
T.Gy. Beszedfelism es szint A beszédszintézis alapelemei ma Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával. Természetes beszéd alapelemeit tárolják, módosítják, összefűzik (concatenation). Mik legyenek a tárolt alapelemek? Teljes közlendő, mondatok, szavak, szótagok, hangok? Mik legyenek az összefűzési szabályok. Hogyan lehet olyan elemeket kialakítani, amelyek jól összefűzhetők és a prozódiai elemek is ráépíthetők? Mi az, amit át kell „fogalmazni”, előre le kell „fordítani” írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem! Tehát hogyan lehet gépileg „érteni” a szöveget.
T.Gy. Beszedfelism es szint Néhány beszédminta elmélkedésre Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt…..
T.Gy. Beszedfelism es szint A beszédhangok folytonos és diszkrét természete
T.Gy. Beszedfelism es szint Összefűzéses beszédszintézis A szintézis minősége annál jobb, minél kevesebb vágási ponttal áll össze a végső beszédrészlet. Ehhez nagyon nagy anyagot kel felvenni és ebből nehéz összeválogatni a legalkalmasabb elemeket. Ha kicsi az elemméret (pl. diád) nagyon sok az összefűzés. A prozódiai jellemzőket is rá kell ültetni (intenzitás, dallam, ritmus stb.) Nem csak a prozódiai jellemzők ráültetésének kivitelezése nehéz, hanem a tervezés a szöveg alapján.
T.Gy. Beszedfelism es szint Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre PSOLA módszer (Pitch Synchronous Overlap Add) Első lépésben a zöngehelyek (pitch mark) kijelölése Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók
T.Gy. Beszedfelism es szint Technical details Moulines & Charpentier, 1990 original waveform windowed waveform shortened waveform waveform with lower F0
T.Gy. Beszedfelism es szint Technical details 1 Segmental durations Segment alignment & PSOLA processing of durations : Alignment can be manual or automatic (with the help of speech recognition) keIeI min “…came in…”native keIeI in non-native m stretch shrink
T.Gy. Beszedfelism es szint Technical details 1+2 Segmental durations + F0 contour PSOLA processing of F0 on duration-treated utterance keIeI min native non-native keIeI min native F0 non-native F0
T.Gy. Beszedfelism es szint Technical details 1+3 Segmental durations + intensity contour Segment alignment & PSOLA processing of duations followed by intensity contour transfer keIeI min native keIeI in non-native m native intensity non-native intensity stretch shrink
T.Gy. Beszedfelism es szint Technical details 2+3 F0 contour + intensity contour “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer keIeI min native keIeI in non-native m stretch shrink native F0 non-native F0 native intensity non-native intensity
T.Gy. Beszedfelism es szint Technical details Example Praat script native utterance non-native utterance synthetic non-native (durations+F0+intensity) synthetic non-native (durations+intensity) synthetic non-native (F0+intensity)
T.Gy. Beszedfelism es szint Technical details Comparison before synthesis – duration, F0 & intensity native utterance non-native utterance (blue & yellow)
T.Gy. Beszedfelism es szint Technical details Comparison after synthesis – duration, F0 & intensity native utterance synthetic non-native (blue & yellow)
T.Gy. Beszedfelism es szint Technical details Comparison after synthesis – duration & intensity native utterance synthetic non-native (blue & yellow)
T.Gy. Beszedfelism es szint PSOLA pitch-módosítás példa (időszerkezet maradt) Ének eredeti: Ének módosított: Ének „kiegyenesítve”:
T.Gy. Beszedfelism es szint