Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában: 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott rendszer céljainak megfelelően. 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést. 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet Beszed
A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak. A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként. A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, folyamatosan fejlődik és amelyet több alkalmazásba is beépítettek: SMS- és felolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba. Beszed
4
5 Mi tehát a beszédszintézis? A természetes beszédlánchoz képest a beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel. Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.
Beszed A beszédszintetizátorok alapvető osztályai
Beszed Megoldott kérdés-e a beszédszintézis, más szóval szöveg- beszéd átalakítás?
Beszed Igen Mert termékként állnak rendelkezésre megoldások. Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó) Mert könyvek leírják, iskolában tanítják….
Beszed Példa az XP rendszerben! Vezérlőpult/beszéd ….
Beszed Megoldott kérdés-e a beszédszintézis, más szóval szöveg- beszéd átalakítás?
Beszed NEM! Mert nem szeretik! Mert nem használják! Mert nem hozott komoly üzleti eredményt senkinek!
Beszed
Beszed
Beszed Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért nem?
Beszed Az én válaszaim Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”) A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma! Akadtak tényleges kiejtési hibák is! A beszéd több, mint elemek egymásutánisága! Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.
Beszed Friss hírek a hangportálon ( ) Hosszabb híranyag csemege1 csemege2 csemege3 csemege4 csemege5
Beszed
Beszed Érdekesebb helyek a hálón! mo.php#top
Beszed A beszédszintézis alapelemei ma Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával, okostelefon hasonló jó adottságokkal. Természetes beszéd alapelemeit tárolják, módosítják, összefűzik (concatenation). Mik legyenek a tárolt alapelemek? Teljes közlendő, mondatok, szavak, szótagok, hangok? Mik legyenek az összefűzési szabályok. Hogyan lehet olyan elemeket kialakítani, amelyek jól összefűzhetők és a prozódiai elemek is ráépíthetők? Mi az, amit át kell „fogalmazni”, előre le kell „fordítani” írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem! Tehát hogyan lehet gépileg „érteni” a szöveget.
Beszed Néhány beszédminta elmélkedésre Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt…..
Beszed A beszédhangok folytonos és diszkrét természete
Beszed Összefűzéses beszédszintézis A szintézis minősége annál jobb, minél kevesebb vágási ponttal áll össze a végső beszédrészlet. Ehhez nagyon nagy anyagot kel felvenni és ebből nehéz összeválogatni a legalkalmasabb elemeket. Ha kicsi az elemméret (pl. diád) nagyon sok az összefűzés. A prozódiai jellemzőket is rá kell ültetni (intenzitás, dallam, ritmus stb.) Nem csak a prozódiai jellemzők ráültetésének kivitelezése nehéz, hanem a tervezés a szöveg alapján.
Beszed Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre PSOLA módszer (Pitch Synchronous Overlap Add) Első lépésben a zöngehelyek (pitch mark) kijelölése Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók
Beszed Technical details Moulines & Charpentier, 1990 original waveform windowed waveform shortened waveform waveform with lower F0
Beszed Technical details 1 Segmental durations Segment alignment & PSOLA processing of durations : Alignment can be manual or automatic (with the help of speech recognition) keIeI min “…came in…”native keIeI in non-native m stretch shrink
Beszed Technical details 1+2 Segmental durations + F0 contour PSOLA processing of F0 on duration-treated utterance keIeI min native non-native keIeI min native F0 non-native F0
Beszed Technical details 1+3 Segmental durations + intensity contour Segment alignment & PSOLA processing of duations followed by intensity contour transfer keIeI min native keIeI in non-native m native intensity non-native intensity stretch shrink
Beszed Technical details 2+3 F0 contour + intensity contour “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer keIeI min native keIeI in non-native m stretch shrink native F0 non-native F0 native intensity non-native intensity
Beszed Technical details Example Praat script native utterance non-native utterance synthetic non-native (durations+F0+intensity) synthetic non-native (durations+intensity) synthetic non-native (F0+intensity)
Beszed Technical details Comparison before synthesis – duration, F0 & intensity native utterance non-native utterance (blue & yellow)
Beszed Technical details Comparison after synthesis – duration, F0 & intensity native utterance synthetic non-native (blue & yellow)
Beszed Technical details Comparison after synthesis – duration & intensity native utterance synthetic non-native (blue & yellow)
Beszed PSOLA pitch-módosítás példa (időszerkezet maradt) Ének eredeti: Ének módosított: Ének „kiegyenesítve”:
Beszed