T.Gy. Beszedfelism es szint. 2011.04.12. 1 Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez Takács György 11. előadás 2011.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements


Kamarai prezentáció sablon
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Készítette: Boros Erzsi
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Weblap szerkesztés HTML oldal felépítése Nyitó tag Záró tag Nyitó tag Záró tag oldalfej tözs.
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Erőállóképesség mérése Találjanak teszteket az irodalomban
MATEMATIKA Év eleji felmérés 3. évfolyam
1.A hallàsi rendszer egyszerű: -- nem lineàris (1 dB be 1 dB ki) -- sàvszűrő ~àllandó Q-val ? inhibició, komodulalt takaras leengedese (CMR) -- mindez.
Az előadásokon oldandók meg. (Szimulációs modell is tartozik hozzájuk)
Humánkineziológia szak
Mellár János 5. óra Március 12. v
Műveletek logaritmussal
A beszéd.
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
A tételek eljuttatása az iskolákba
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
VÁLOGATÁS ISKOLÁNK ÉLETÉBŐL KÉPEKBEN.
Védőgázas hegesztések
1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
Olaszy Gábor és Németh Géza (BME-TMIT) számfelolvasó
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
VILÁGÍTÁSTECHNIKAI TÁRSASÁG LEDek alkalmazása a világítástechnikában
A TERMÉSZETTUDOMÁNYOK ALAPJAI 1. Matematika
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
NOVÁK TAMÁS Nemzetközi Gazdaságtan
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
2. A KVANTUMMECHANIKA AXIÓMÁI 1. Erwin Schrödinger: Quantisierung als Eigenwertproblem (1926) 2.
Szinger Veronika HANGTAN Szinger Veronika
Exponenciális egyenletek
Logikai szita Pomothy Judit 9. B.
Logikai szita Izsó Tímea 9.B.
A szemcsehatárok tulajdonságainak tudatos módosítása Szabó Péter János BME Anyagtudomány és Technológia Tanszék Anyagvizsgálat a gyakorlatban (AGY 4) 2008.
A szemcsehatárok tulajdonságainak tudatos módosítása
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Gyorsjelentés a Kulturális Központok Országos Szövetsége tagintézményeinek felméréséről Kecskemét,
ÉRDEKEGYEZTETÉS ÉRDEKKÉPVISELET
A pneumatika alapjai A pneumatikában alkalmazott építőelemek és működésük vezérlő elemek (szelepek)
Két kvantitatív változó kapcsolatának vizsgálata
40).6-os szint X. feltörésnél az omlás ideiglenes biztosítása
Csurik Magda Országos Tisztifőorvosi Hivatal
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. május 15P2P hálózatok 1 Fóliák a vizsgára: 1. előadás  Bevezető: 11-16, 21,  Usenet: előadás:  Bevezető: 3-8  Napster: 
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Kvantitatív módszerek
Mikroökonómia gyakorlat
Akusztikai mérések Sztahó Dávid
> aspnet_regiis -i 8 9 TIPP: Az „Alap” telepítés gyors, nem kérdez, de később korlátozhat.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
SZÁMVÁLTOZÁS BEMONDÓ AUTOMATA
Előadás másolata:

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez Takács György 11. előadás Olaszy Gábor és Németh Géza (BME-TMIT) számfelolvasó rendszere alapján és a PROFIVOX ismertetésével

T.Gy. Beszedfelism es szint Milyen tapasztalatokat hozott az első szintézis gyakorlat? Az ön számláján lévő összeg forint. JAWS6.2

T.Gy. Beszedfelism es szint

4

5 Furcsa ritmus Ez nem a kivágás-összefűzés szünettel gazdálkodásának technikai hibája! Ugyanazt a szót, szótagot, hangkapcsolatot egészen más időtartammal ejtjük, ha önmagában szerepel, mint egy hosszú kifejezés részeként! Összetett és finom szabályok szerint tartunk szüneteket a szavak között vagy teljesen egybefüggően ejtjük azokat. Ez függ a szövegkörnyezettől, a hangsúly-szándéktól! Igen érzékenyek vagyunk erre a beszéd észlelésekor! Még megértési problémát is okozhat!

T.Gy. Beszedfelism es szint Furcsa a hanglejtés/dallam Nem elég „kiegyenesíteni” a dallamot. Ettől is csak rossz lesz! Valahogy „másként” éneklő. Minden mondathoz, kifejezéshez illik egy dallamvonulat! Általában jó egy ereszkedő dallammenet, de a szünetekben -- főként, ha levegőt is veszünk – ismét magasabbról indul a hangmagasság! Erre is érzékenyen reagálunk a beszéd érzékelésekor!

T.Gy. Beszedfelism es szint Furcsa az intenzitásszerkezet Ez is a beszéd sajátos szerkezete és nem technikai hiba. Bizonyos beszédelemek egymás mellé téve azonos hangerő érzetét keltik, míg más kombinációban természetellenesnek tűnnek. Nem jó megoldás az sem, ha jelszintben, energiában kiegyenlítjük az összefűzendő elemeket. Az intenzitás is csökken egy hosszú mondatban, kifejezésben. Erre is érzékenyen reagálunk.

T.Gy. Beszedfelism es szint Furcsák a kapcsolódások egyes beszédhangok ejtésminősége tekintetében is! Másként ejtünk egy-egy szóvégi hangot attól függően, hogy milyen hanggal kezdődik a következő szó! Erre is érzékenyen reagálunk.

T.Gy. Beszedfelism es szint (English) one hundred and twenty five thousand (German) ein hundert fünf und zwanzig tausend (Hungarian) száz huszon öt ezer (Portuguese) cento e vinte cinco mil Pl: : Olaszy Gábor és Németh Géza (BME-TMIT) többnyelvű számfelolvasó rendszere

T.Gy. Beszedfelism es szint A „nyers” építőelemek száma Angol : 36 szótár- alapelem Magyar: 25 szótár- alapelem Német: 35szótár- alapelem Portugál: 53 szótár -alapelem

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Természetes kiejtéshez biztosítani kell az alábbiakat: 1. folyamatos kiejtés, helyes pozíciójú és hosszúságú szünetekkel 2. a számelemek kiejtési helytől függő időszerkezete 3. spektrális és intenzitás folytonosság (koartikuláció figyelembe vétele) az elemhatárokon 4.szóhangsúlyok és alapfrekvencia változások helyessége

T.Gy. Beszedfelism es szint Folyamatos kiejtés A megfelelő helyeken, megfelelő hosszúsággal beiktatott szünetekkel, a 2, 3, 4, szempontok szerint kiválasztott elemek folytonos összefűzése (vágás nullátmenetnél negatívból pozitívba)

T.Gy. Beszedfelism es szint A számelemek kiejtési helytől függő időszerkezete Kezdő (B, beginning, pl ), középső (M, middle, ), záró (L, last, ) elem szükséges a többi szempont szerint kiválasztott minden elemből (elvileg). nagyszámú (közel ezer) kimondott szám vizsgálata alapján

T.Gy. Beszedfelism es szint Spektrális és intenzitás folytonosság (koartikuláció figyelembe vétele) az elemhatárokon Minden elemre hat az előző és a következő elem

T.Gy. Beszedfelism es szint Lehetséges pozíciók: Egyedül áll (6) Felsorolás (12, 2 56.) Első (elemXXX) Belső (XXXelemXXX) Záró (XXXelem)

T.Gy. Beszedfelism es szint Az 1 példája Angolul one. oneXXX után hundred, thousand, million, billion, (pl., 1100) XXXone elott thousand, million, billion, and, twenty, thirty.... ninety (pl., 1100, 101, 21). one elemkészlet: (1) szabály: one felsorolásban vagy egyedül 1, 2, 3 oneXXX esetekben (2) szabály: one (one hundred), a (h) módosítja az (n)-et, (3) szabály: one (one thousand) az (n) és a (t) azonos artikulációs bázisú, ezért az (n) rövidebb lesz, (4) szabály: one (one million), az (n) (m)-be megy át, XXXone esetekben (5) szabály one ( thousand one, hundred and one, etc.) zárhang és (v) találkozása, (6) szabály: one (twenty one, etc.) i és (v) találkozása, XXXoneXXX (5) + (2), (5) + (3), (5) + (4), (6) + (3), (6) + (4) Összesen: 11 ( ) elméleti lehetőség. A hagyományos módszer minden elemére elvégezve a fenti elemzést, a spektrális és intenzitás folytonosság biztosítható.

T.Gy. Beszedfelism es szint Németül: (1) szabály: Ein ha a szám 1-nél nagyobb, eine ha egyedül áll (pl., 1, 2, 3), eine pl. eine million és eine DM. (2), (3), és (4) változatlan, mert az einXXX és a oneXXX kategóriái megegyeznek XXXein különbözik (5) szabály: hundert ein, tausend ein, milliard ein, zárhang és magánhangzó találkozása, (6) szabály: million ein, nazális és magánhangzó találkozása. XXXeinXXX (5) + (2), (5) + (3), (5) + (4), (6) + (2), (6) + (3) Összesen: 13 ( ) elméleti lehetőség.

T.Gy. Beszedfelism es szint Magyarul egy: (1) szabály: egy egyedül áll (1, 2, 3 stb.), egyXXX (2) szabály: egy millió és egy milliárd) (3) szabály: egy ezer, pl ), zöngés alveolo-palatális zárhang és magánhangzó találkozása, (4) szabály: egy száz pl , zöngés alveolo-palatális zárhangot zöngétleníti a száz sz hangja, XXXegy (5) szabály:....n egy, pl. 51, 61, 71, etc.) a nazális hang módosítja az e-t, (6) szabály: millió egy, pl ) magánhangzó- magánhangzó kapcsolat. XXXegyXXX (5) + (2), (5) + (3), (6) + (3), (6) + (4) Összesen: 10 ( ) elméleti lehetőség.

T.Gy. Beszedfelism es szint A legfontosabb regresszív koartikulációs szabályok

T.Gy. Beszedfelism es szint A legfontosabb progresszív koartikulációs szabályok

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Szóhangsúlyok és alapfrekvencia változások helyessége A számok kimondásakor több hangsúly is megjelenik. AB: kezdo hangsúly AM: közbenso hangsúly AL: záró hangsúly, eso intonáció N: semleges, hangsúlytalan elemek

T.Gy. Beszedfelism es szint Szerencsére a helyes időtartamot biztosító elemek (B, M, L) megfelelő tervezés esetén magukban hordozzák a helyes hangsúlyt is. Ha a számelem a mondat végén áll, (pl. Az ön számlájának egyenlege: forint) eső jellegű intonációja lesz. Ha a mondat közepén helyezkedik el, (pl. Az ön számláján forint összegű tranzakció valósul meg.) a számelem intonációja laposabb, lebegőbb).

T.Gy. Beszedfelism es szint A számkimondó megvalósítása Előzmény: az elemi (hagyományos) építőkockák, számelemek meghatározása a kimondási szabályrendszerek (időtartam, koartikulációs, hangsúly és intonáció) meghatározása A felolvasandó szöveglista meghatározása Vivőszöveg kialakítása az építőkockák és a szabályrendszer alapján Example of determining the list of number elements and the source from where they will be cut out (for English)

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint A felolvasandó szöveg felvétele Minden elemet a megfelelő vivőszövegben kell felolvasni. A vivőszöveget célszerű redundánsra tervezni (minden elem legalább kétszer forduljon elő). Az egyes elemek között kb. 2 sec szünetet célszerű tartani. Nagyobb egységenként (pl. oldalanként) érdemes hosszabb szünetet tartani. Az oldal megkezdése előtt az előző oldal végének meghallgatása. Összpontosítás az egyenletes hangmagasság, hangerő és beszédsebesség biztosításához.

T.Gy. Beszedfelism es szint A hangelemek kivágása a felolvasott vivőszövegből Kivágás előtt a felolvasás helyességét ellenőrizni, hiba esetén a redundáns elem elővétele. Időbeli (esetleg spektrális) vizsgálat alapján határok megállapítása. Elemek elmentése az építőelem lista és a szabályrendszernek megfelelő logikus rendben (adatbázis, könyvtárstruktúra, stb.)

T.Gy. Beszedfelism es szint Jóminőségű beszédszintézis kritériumai Bemenete akármilyen szövegkarakter sorozat (szövegszerkesztő, újság, könyv, , internetes hír…….) A beszéd jól érthető és természetes (tehát bizonyos szinten érti is, amit mond) Személyes jellege is van, indulatok, érzelmek elemeit is képes kifejezni Platform független Kiegészíthető más modalitásokkal is pl. a beszéddel szinkronban mozgó beszélő fejjel

T.Gy. Beszedfelism es szint Alapproblémák Az írás diszkrét és a szavakat szóközök választják el – a beszéd folyamatos, szünetek csak a prozódiai egységek között vannak. A folyamatosság hibái durván minőségrombolók! A betűhibákat másként kezeljük, „átugorja” a szemünk – a kiejtési hibákat „nem ugorja át” a fülünk. A puszta szöveggel együtt kapott többletinformáció sok, a helyes és szép kiejtést támogató többletinformáció kevés.

T.Gy. Beszedfelism es szint Szövegfelolvasó (text-to-speech) rendszerek általános felépítése Nyelvi feldolgozó Akusztikus feldolgozó Szöveg karaktersorozat Hangkarakterek, Prozódiai jelek (tempó, ritmus, dallam, szünet, hangsúly) Beszédjel Hangkimenet Beszélő fej képkimenet Személy jellemzőkÉrzelmi jellemzők

T.Gy. Beszedfelism es szint Nyelvi feldolgozó feladatai Írásjel-betű átalakítás, pont, zárójel, idézőjel, számok stb. kezelése Idegen és speciálisan ejtendő szavak elkülönítése (szabály vagy kivétel -- döntés szótár alapján) Morfológiai elemzés Prozódiai jellemzők meghatározása (mondat, kifejezés, szó szinten) Hangkarakter sorozat előállítás Fonetikai szabályok alkalmazása (rövidülés, hasonulás, összeolvadás, kiesés….)

T.Gy. Beszedfelism es szint Akusztikus feldolgozó feladatai Az artikulációs modell működtetése a hangkarakterek és kiegészítő információk alapján Kritikus a hangátmenetek kezelése. Kritikus a prozódiai jellemzők és hangelemek finom összehangolása Megvalósítható tárolt felvétel elemek összefűzésével vagy a hangképző szervek működését leíró modell segítségével.

T.Gy. Beszedfelism es szint A nyelvi és akusztikus feldolgozók megvalósításai Lehetnek racionális szabálygyűjtemény alapján működők. A szabályok lehetnek pl. „Ha -………, akkor” típusúak - kivételgyűjteménnyel. Lehetnek nagyszámú példát felsorolók, s ebből empirikus módszerekkel dolgozók.

T.Gy. Beszedfelism es szint egy gerjesztett szűrőrendszer kimeneteként · állítja elő a beszédjelet

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Akusztikus feldolgozó példa diádos felvételekből összefűzés legyenek az adott hangsorozat hangkódjai: 1,5,11,13. Diád: elemhatár – hanghatár – elemhatár Stabil szakasztól stabil szakaszig

T.Gy. Beszedfelism es szint Diádos megoldás problémái Diádok elvi száma az elemkészlet négyzete Gyakorlati számuk Ha diádok hullámformáját tároljuk, akkor nehéz a prozódiai elemek ráültetése Ha forráskódolással tárolt elemeket tárolunk (LPC, PARCOR, formáns), akkor könnyebb az interpoláció, a prozódiai elemek, a személyes elemek, az érzelmi elemek alakítása, de műveletigényes a folyamat. Nem elég finom a diád, triád még jobb lenne, de számuk > Tárolni nehéz? Nem – felvenni!

T.Gy. Beszedfelism es szint Prozódiai elemek ráültetése hullámformaként tárolt diádokra PSOLA módszer (Pitch Synchronous Overlap Add) Első lépésben a zöngehelyek (pitch mark) kijelölése Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Interpolációhoz és prozódiai elemek ráültetéséhez használható újabb módszer – neurális hálózatok

T.Gy. Beszedfelism es szint Harmonics and Noise Modelling (HNM) is a sinusoidal modelling technique for sound signal generation that has seen increasing use in speech and music in recent years. This spectral manipulation technique can replace time- domain concatenative synthesis (e.g., Psola, Mbrola) with good preservation of speaker voice qualities. Further, diphone unit concatenation is improved by spectral adjustments performed in the harmonic space. We have implemented an initial version of a pitch-synchronous HNM algorithm this summer. Currently, this algorithm permits only f0 and time manipulation, but we are in the process of implementing spectral shaping for unit concatenation. Over the longer term, we shall experiment with other generational parameters, such as the open quotient to simulate variations in speech quality.

T.Gy. Beszedfelism es szint HNM Systems' Basics The basic idea behind Harmonics + Noise Modelling (HNM) is simple… …Separate regular from irregular signal activity by a process of modelling harmonic components and subtracting noise components. …Perform signal modification (e.g., for pitch and duration) in harmonic components. …Add noise component to modified harmonic component.

T.Gy. Beszedfelism es szint Spontaneous and Read Speech 2/10 Results: Figure 1: Left: read-aloud, Right: spontaneous > The mean f0 was higher in read- aloud (136 Hz) than spontaneous speech (107 Hz). > Slopes were significantly steeper in the read-aloud version. > Duration was shorter for read- aloud speech.

T.Gy. Beszedfelism es szint A legjobb beszédszintetizátorok: