Beszed. 2015.04.17.1 Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 2015. 04. 17.

Slides:



Advertisements
Hasonló előadás
A PC gépek szoftverei Kérdés: "Mi az elefánt?" Válasz: "Egér operációs rendszerrel."
Advertisements

A hálózat működése 1. A DHCP és az APIPA
Az operációs rendszer.
Néhány fontos terület a Kreatív Ipar fejlődéséhez
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz.
Navigáció mobiltelefonnal
Operációs rendszerek Beállítások.
A jövő technológiái Kőnig Tibor főmérnök, Microsoft Magyarország blogs.msdn.com/tibork-on-ms blogs.msdn.com/tibork-on-ms.
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
Fajfrik Dóra tanárjelölt munkája alapján
Kétértékűség és kontextusfüggőség Kijelentéseink igazak vagy hamisak (mindig az egyik és csak az egyik) Kijelentés: kijelentő mondat (tartalma), amivel.
13.a CAD-CAM informatikus
Az informatika alapjai
Okostelefonok. A PDA gyártók egy része felismerte, hogy a piacon maradáshoz muszáj integrálni a tenyér számítógépekbe is a telefon részt. Miért van erre.
Az operációs rendszer.
A második nyelv elsajátítás elméletei 2.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
A számítógépes nyelvfeldolgozás alapjai
BE KI Perifériák Számítógép.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 14. előadás Beszedf
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez Takács György 11. előadás 2011.
Célkeresztben az érettségi! A legjobb és leghatékonyabb eszközt akarjuk Kevesebb hibalehetőség, barátságos hibaüzenetek Kiváló fejlesztőeszköz Gyorsan.
Internetes források alapján készítette:
Az operációs rendszer.
1 1 1.
Bemutatkozik a Világhalló Aki még nem hallott mesterségesen generált beszédet azt kérdezi, hogy: Miben különbözik a Világhalló és a beszédszintetizátor?
Vírus típusú csaj: Észre sem veszed, és beköltözött a lakásodba, mindent kisajátít. Internet típusú csaj: Fizetned kell, hogy hozzáférjél.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
Az információ-technológia alapfogalmai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
A számítógép elindítása
Szintaktikai, szemantikai szabályok
Térképészet és térinformatika
Kommunikációt segítő programok a hálózaton
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
Egy szövegszerkesztő legegyszerűbb szolgáltatásai
Bevezetés az operációs rendszerek világába TMG SZK.
Bemutatkozik a Világhalló Aki még nem hallott mesterségesen generált beszédet azt kérdezi, hogy: Miben különbözik a Világhalló és a beszédszintetizátor?
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
A Monitor. AszámítógépAszámítógép legfontosabb kiviteli egysége (perifériája) a televíziókhoz hasonló számítógép-képernyő vagy monitor. A monitort egy.
Audio Utastájékoztató Rendszer vasútállomások részére
Akusztikai mérések Sztahó Dávid
Négy gyertya égett szép csendben.
Iskolai számítógépes hálózat bővítése Készítette Tóth László Ferenc.
2. Operációs rendszerek.
E LEKTRONIKUS LEVELEZÉS . E LEKTRONIKUS LEVELEZÉS Az elektronikus posta ( ) olyan rendszer, amelynek segítségével más felhasználók számára.
Beszédinformációs rendszerek Szegmentális és szupraszegmentális elemek a beszédtechnológiában.
Beszédinformációs rendszerek 6. gyakorlat Beszédszintetizátorok és adatbázisaik Olaszy Gábor 2015 tavasz.
Projektirányítás – kifejtős kérdések Feladatsor. 1. Adja meg a PCM szakaszait!
A számítógép részei Hardver és szoftver elemek
A ROM ÉS A BIOS. K ÉSZÍTETTE R ELL P ATRIK A ROM A ROM egy olyan elektrotechnikai eszköz, amely csak olvasható adatok tárolására alkalmas memória. Tartalma.
Az operációs rendszer.
Információelmélet 8. 1 Eszterházy Károly Főiskola, Eger Médiainformatika intézet Információs Társadalom Oktató-
 A TIOP pályázat SNI csomagjai  Gépi beszédfelismerés  Digitális tananyagok akadálymentesítése sajátos nevelési igényű tanulók számára  SNI IKT.
Drótváz Gerstweiler Anikó Éva május 3.. Wireframe I. Más néven képernyőterv vagy sematikus oldal Egy vizuális útmutató, amely honlapok felépítését.
Az operációs rendszer.
Bevezetés a nyelvtudományba
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Takács György, Olaszy Gábor, Podoletz György, Tihanyi Attila
A világ sarkából is elérhető könyvtár, a könyvtár sarkából is elérhető világ Winkler Bea.
Előadás másolata:

Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György

A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában: 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott rendszer céljainak megfelelően. 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést. 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet Beszed

A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak. A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként. A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, folyamatosan fejlődik és amelyet több alkalmazásba is beépítettek: SMS- és felolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba. Beszed

4

5 Mi tehát a beszédszintézis? A természetes beszédlánchoz képest a beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel. Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.

Beszed A beszédszintetizátorok alapvető osztályai

Beszed Megoldott kérdés-e a beszédszintézis, más szóval szöveg- beszéd átalakítás?

Beszed Igen Mert termékként állnak rendelkezésre megoldások. Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó) Mert könyvek leírják, iskolában tanítják….

Beszed Példa az XP rendszerben! Vezérlőpult/beszéd ….

Beszed Megoldott kérdés-e a beszédszintézis, más szóval szöveg- beszéd átalakítás?

Beszed NEM! Mert nem szeretik! Mert nem használják! Mert nem hozott komoly üzleti eredményt senkinek!

Beszed

Beszed

Beszed Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért nem?

Beszed Az én válaszaim Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”) A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma! Akadtak tényleges kiejtési hibák is! A beszéd több, mint elemek egymásutánisága! Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.

Beszed Friss hírek a hangportálon ( ) Hosszabb híranyag csemege1 csemege2 csemege3 csemege4 csemege5

Beszed

Beszed Érdekesebb helyek a hálón! mo.php#top

Beszed A beszédszintézis alapelemei ma Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával, okostelefon hasonló jó adottságokkal. Természetes beszéd alapelemeit tárolják, módosítják, összefűzik (concatenation). Mik legyenek a tárolt alapelemek? Teljes közlendő, mondatok, szavak, szótagok, hangok? Mik legyenek az összefűzési szabályok. Hogyan lehet olyan elemeket kialakítani, amelyek jól összefűzhetők és a prozódiai elemek is ráépíthetők? Mi az, amit át kell „fogalmazni”, előre le kell „fordítani” írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem! Tehát hogyan lehet gépileg „érteni” a szöveget.

Beszed Néhány beszédminta elmélkedésre Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt…..

Beszed A beszédhangok folytonos és diszkrét természete

Beszed Összefűzéses beszédszintézis A szintézis minősége annál jobb, minél kevesebb vágási ponttal áll össze a végső beszédrészlet. Ehhez nagyon nagy anyagot kel felvenni és ebből nehéz összeválogatni a legalkalmasabb elemeket. Ha kicsi az elemméret (pl. diád) nagyon sok az összefűzés. A prozódiai jellemzőket is rá kell ültetni (intenzitás, dallam, ritmus stb.) Nem csak a prozódiai jellemzők ráültetésének kivitelezése nehéz, hanem a tervezés a szöveg alapján.

Beszed Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre PSOLA módszer (Pitch Synchronous Overlap Add) Első lépésben a zöngehelyek (pitch mark) kijelölése Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók

Beszed Technical details Moulines & Charpentier, 1990 original waveform windowed waveform shortened waveform waveform with lower F0

Beszed Technical details 1 Segmental durations Segment alignment & PSOLA processing of durations : Alignment can be manual or automatic (with the help of speech recognition) keIeI min “…came in…”native keIeI in non-native m stretch shrink

Beszed Technical details 1+2 Segmental durations + F0 contour PSOLA processing of F0 on duration-treated utterance keIeI min native non-native keIeI min native F0 non-native F0

Beszed Technical details 1+3 Segmental durations + intensity contour Segment alignment & PSOLA processing of duations followed by intensity contour transfer keIeI min native keIeI in non-native m native intensity non-native intensity stretch shrink

Beszed Technical details 2+3 F0 contour + intensity contour “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer keIeI min native keIeI in non-native m stretch shrink native F0 non-native F0 native intensity non-native intensity

Beszed Technical details Example Praat script native utterance non-native utterance synthetic non-native (durations+F0+intensity) synthetic non-native (durations+intensity) synthetic non-native (F0+intensity)

Beszed Technical details Comparison before synthesis – duration, F0 & intensity native utterance non-native utterance (blue & yellow)

Beszed Technical details Comparison after synthesis – duration, F0 & intensity native utterance synthetic non-native (blue & yellow)

Beszed Technical details Comparison after synthesis – duration & intensity native utterance synthetic non-native (blue & yellow)

Beszed PSOLA pitch-módosítás példa (időszerkezet maradt) Ének eredeti: Ének módosított: Ének „kiegyenesítve”:

Beszed