T.Gy. Beszedfelism es szint. 2010.04.13. 1 Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás 2010. 04. 13.

Slides:



Advertisements
Hasonló előadás
Esélyteremtés lehetőségei a közoktatásban Mayer József Oktatáskutató és Fejlesztő Intézet Salgótarján, május 27.
Advertisements

A hatásos prezentáció jellemzői
A kölcsönös befolyásolás
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Készítette: Boros Erzsi
Hotel Eger Park Konferenciaközpont október
Informatikai alapismeretek Hardver
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Mennyire projekt érett a mai magyar társadalom? 1022 Budapest, Bimbó út 3. Telefon/fax:
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz.
Mintacím szerkesztése •Mintaszöveg szerkesztése •Második szint •Harmadik szint •Negyedik szint •Ötödik szint D modelling in the terrestrial.
4 négyzetes kérdés Készen vagy? B A
Hotel Eger Park Konferenciaközpont október
Fotók egy mexikói narkóvezér házából, miután letartóztatták.
Műveletek logaritmussal
3. Folytonos wavelet transzformáció (CWT)
Készítette: Szabó Zénó
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Virtuális méréstechnika MA-DAQ műszer vezérlése 1 Mingesz Róbert V
Vizsga- és versenyfeladatok patológiája és diagnosztikája
Statisztika Érettségi feladatok
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 14. előadás Beszedf
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez Takács György 11. előadás 2011.
Pázmány - híres perek Pázmány híres perek.
6. Előadás Merevítő rendszerek típusok, szerepük a tervezésben
Darupályák tervezésének alapjai
2007 december Szuhay Péter SPECTRIS Components Kft
Figyelmeztetés! E program használata fokozottan
A GÖMBÖC A bemutató a BME és a wikipedia anyagának felhasználásával, Várkonyi Péter előadása alapján készült.
1 1 1.
Festményei 2 Michelangelo Buonarroti Zene: Gregorian Amazing Grace N.3
dr. Szalkai István Pannon Egyetem, Veszprém
szakmérnök hallgatók számára
A diákat készítette: Matthew Will
Apró falatok a templom egereinek
Kirándulás, Apáthy-szikla – Árpád kilátó - Hüvösvölgy
var q = ( from c in dc.Customers where c.City == "London" where c.City == "London" select c).Including( c => c.Orders ); select c).Including(
Százhalombatta, november 24.
4 Négyzet probléma Készen vagy? B A
13. A zillmerezés, mint bruttó
Ekvivalenciák nyitott mondatok között Két nyitott mondatot ekvivalensnek mondunk, hha tetszőleges világban ugyanazok az objektumok teszik őket igazzá.
20).7-es szint Rákóczi 2. sz. barlang előtt
2006. május 15P2P hálózatok 1 Fóliák a vizsgára: 1. előadás  Bevezető: 11-16, 21,  Usenet: előadás:  Bevezető: 3-8  Napster: 
Egy szövegszerkesztő legegyszerűbb szolgáltatásai
EXCEL Excel.
Határozatlan integrál
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Pályaválasztás Pályaválasztás
Audio Utastájékoztató Rendszer vasútállomások részére
1 TANULÁSI TÍPUS TESZT.
Akusztikai mérések Sztahó Dávid
Négy gyertya égett szép csendben.
MTA SZTAKI Department of Distributed Systems Mutasd a hangod! intelligens gépi jeltolmács beszéd- és halláskárosultaknak Mátételki Péter.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
előadások, konzultációk
Az iskolai dokumentumok elérhetősége
Mikroprocesszorok (Microprocessors, CPU-s)
Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
Beszédinformációs rendszerek 6. gyakorlat Beszédszintetizátorok és adatbázisaik Olaszy Gábor 2015 tavasz.
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf
Azt mondom, amit tudok bizonytalan vagyok nem tudom, nem fogom nem tudom, elkerülöm.
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
Takács György, Olaszy Gábor, Podoletz György, Tihanyi Attila
Előadás másolata:

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás

T.Gy. Beszedfelism es szint Mi a beszédszintézis? A természetes beszédlánchoz képest a beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel. Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.

T.Gy. Beszedfelism es szint A beszédszintetizátorok alapvető osztályai

T.Gy. Beszedfelism es szint Megoldott kérdés-e a beszédszintézis, más szóval szöveg- beszéd átalakítás?

T.Gy. Beszedfelism es szint Igen Mert termékként állnak rendelkezésre megoldások. Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP) Mert könyvek leírják, iskolában tanítják….

T.Gy. Beszedfelism es szint Példa az XP rendszerben! Vezérlőpult/beszéd ….

T.Gy. Beszedfelism es szint NEM! Mert nem szeretik! Mert nem használják! Mert nem hozott komoly üzleti eredményt senkinek!

T.Gy. Beszedfelism es szint

9

10 Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért nem?

T.Gy. Beszedfelism es szint Az én válaszaim Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”) A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma! Akadtak tényleges kiejtési hibák is! A beszéd több, mint elemek egymásutánisága! Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.

T.Gy. Beszedfelism es szint Friss hírek a hangportálon ( ) Hosszabb híranyag csemege1 csemege2 csemege3 csemege4 csemege5

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Érdekesebb helyek a hálón! mo.php#tophttp:// mo.php#top

T.Gy. Beszedfelism es szint A beszédszintézis alapelemei ma Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával. Természetes beszéd alapelemeit tárolják, módosítják, összefűzik (concatenation). Mik legyenek a tárolt alapelemek? Teljes közlendő, mondatok, szavak, szótagok, hangok? Mik legyenek az összefűzési szabályok. Hogyan lehet olyan elemeket kialakítani, amelyek jól összefűzhetők és a prozódiai elemek is ráépíthetők? Mi az, amit át kell „fogalmazni”, előre le kell „fordítani” írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem! Tehát hogyan lehet gépileg „érteni” a szöveget.

T.Gy. Beszedfelism es szint Néhány beszédminta elmélkedésre Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt…..

T.Gy. Beszedfelism es szint A beszédhangok folytonos és diszkrét természete

T.Gy. Beszedfelism es szint Összefűzéses beszédszintézis A szintézis minősége annál jobb, minél kevesebb vágási ponttal áll össze a végső beszédrészlet. Ehhez nagyon nagy anyagot kel felvenni és ebből nehéz összeválogatni a legalkalmasabb elemeket. Ha kicsi az elemméret (pl. diád) nagyon sok az összefűzés. A prozódiai jellemzőket is rá kell ültetni (intenzitás, dallam, ritmus stb.) Nem csak a prozódiai jellemzők ráültetésének kivitelezése nehéz, hanem a tervezés a szöveg alapján.

T.Gy. Beszedfelism es szint Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre PSOLA módszer (Pitch Synchronous Overlap Add) Első lépésben a zöngehelyek (pitch mark) kijelölése Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók

T.Gy. Beszedfelism es szint Technical details Moulines & Charpentier, 1990 original waveform windowed waveform shortened waveform waveform with lower F0

T.Gy. Beszedfelism es szint Technical details 1 Segmental durations Segment alignment & PSOLA processing of durations : Alignment can be manual or automatic (with the help of speech recognition) keIeI min “…came in…”native keIeI in non-native m stretch shrink

T.Gy. Beszedfelism es szint Technical details 1+2 Segmental durations + F0 contour PSOLA processing of F0 on duration-treated utterance keIeI min native non-native keIeI min native F0 non-native F0

T.Gy. Beszedfelism es szint Technical details 1+3 Segmental durations + intensity contour Segment alignment & PSOLA processing of duations followed by intensity contour transfer keIeI min native keIeI in non-native m native intensity non-native intensity stretch shrink

T.Gy. Beszedfelism es szint Technical details 2+3 F0 contour + intensity contour “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer keIeI min native keIeI in non-native m stretch shrink native F0 non-native F0 native intensity non-native intensity

T.Gy. Beszedfelism es szint Technical details Example Praat script native utterance non-native utterance synthetic non-native (durations+F0+intensity) synthetic non-native (durations+intensity) synthetic non-native (F0+intensity)

T.Gy. Beszedfelism es szint Technical details Comparison before synthesis – duration, F0 & intensity native utterance non-native utterance (blue & yellow)

T.Gy. Beszedfelism es szint Technical details Comparison after synthesis – duration, F0 & intensity native utterance synthetic non-native (blue & yellow)

T.Gy. Beszedfelism es szint Technical details Comparison after synthesis – duration & intensity native utterance synthetic non-native (blue & yellow)

T.Gy. Beszedfelism es szint PSOLA pitch-módosítás példa (időszerkezet maradt) Ének eredeti: Ének módosított: Ének „kiegyenesítve”:

T.Gy. Beszedfelism es szint