T.Gy. Beszedfelism es szint. 2012.04.24. 1 Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements


Kamarai prezentáció sablon
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Készítette: Boros Erzsi
Takács György 15. előadás Készítette Feldhoffer Gergely
Kvantitatív Módszerek
Erőállóképesség mérése Találjanak teszteket az irodalomban
MATEMATIKA Év eleji felmérés 3. évfolyam
Humánkineziológia szak
Mellár János 5. óra Március 12. v
MFG-Pro váll-ir. rendszer bemutatása
Műveletek logaritmussal
Kötelező alapkérdések
Koordináta transzformációk
A beszéd.
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Euklidészi gyűrűk Definíció.
Programozási alapismeretek 10. előadás
A tételek eljuttatása az iskolákba
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
Mérés és adatgyűjtés Kincses Zoltán, Mingesz Róbert, Vadai Gergely 10. Óra MA-DAQ – Műszer vezérlése November 12., 15. v
A diákat jészítette: Matthew Will
Ember László XUBUNTU Linux (ami majdnem UBUNTU) Ötödik nekifutás 192 MB RAM és 3 GB HDD erőforrásokkal.
Műszaki ábrázolás alapjai
Védőgázas hegesztések
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 14. előadás Beszedf
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója PARCOR módszerrel és a beszédképzés akusztikus.
ADATBÁZISOK
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
dr. Szalkai István Pannon Egyetem, Veszprém
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
2. A KVANTUMMECHANIKA AXIÓMÁI 1. Erwin Schrödinger: Quantisierung als Eigenwertproblem (1926) 2.
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
A pneumatika alapjai A pneumatikában alkalmazott építőelemek és működésük vezérlő elemek (szelepek)
Csurik Magda Országos Tisztifőorvosi Hivatal
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. május 15P2P hálózatok 1 Fóliák a vizsgára: 1. előadás  Bevezető: 11-16, 21,  Usenet: előadás:  Bevezető: 3-8  Napster: 
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
MUNKA- ÉS TŰZVÉDELEMI JELEK ÉS JELZÉSEK
T.Gy. Beszedfelism es szint
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Mérés és adatgyűjtés laboratóriumi gyakorlat - levelező Sub-VI és grafikonok 1 Mingesz Róbert V
Elektronikus tananyag
Kvantitatív módszerek
1 TANULÁSI TÍPUS TESZT.
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
előadások, konzultációk
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
A termelés költségei.
Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás február 25. Takács György.
Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács György 4. előadás Beszedfelism.
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf
Előadás másolata:

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 12. előadás

T.Gy. Beszedfelism es szint Javasolt vizsgaidőpontok: Május 22. vagy 23. vagy 24. Május 29. vagy 30. vagy 31. Június 5. vagy 6. vagy 7. Június 20. vagy 21. (javító vizsga)

T.Gy. Beszedfelism es szint Megoldott kérdés-e a beszédfelismerés, más szóval beszéd-szöveg átalakítás?

T.Gy. Beszedfelism es szint Igen Mert termékként állnak rendelkezésre megoldások. Mert jobb rendszerek beépített eleme (pl., hangportálok, automata telefonkezelő, Windows XP) Mert könyvek leírják, iskolában tanítják….

T.Gy. Beszedfelism es szint

6 NEM! Mert nem szeretik! Mert nem használják! Mert nem hozott komoly üzleti eredményt senkinek!

T.Gy. Beszedfelism es szint Elfogadjuk a létező beszédfelismerőket? Ha nem, akkor miért nem?

T.Gy. Beszedfelism es szint Az én válaszaim Személyfüggő nagyon! A beszédfelismerőnek „értenie” is kell amit felismer! Akadnak tényleges felismerési hibák is! A beszéd több, mint elemek egymásutánisága! A beszédfolyamat további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások is a felismerendő üzenet lényegi elemei. Ezek is az értelmezést segítik, a közlendőt árnyalják, a beszédet emberivé, széppé teszik, tehát ha a beszéd üzenetét kívánjuk felismerni ezek sem hagyhatók a folyamatból el.

T.Gy. Beszedfelism es szint Érdekesebb helyek a hálón! windowsvista/speech.aspxhttp:// windowsvista/speech.aspx Recognition-Based-on-DTW/ _ html html

T.Gy. Beszedfelism es szint Ideális beszédfelismerő Minimális felismerési hiba Függetlenség az akusztikai környezettől Beszélőfüggetlenség Korlátlan szótár és témakör Folyamatos, természetes beszédet felismerése. Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető!

T.Gy. Beszedfelism es szint A beszédfelismerés technikai kérdései ma Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával. Mik legyenek a felismerendő alapelemek? Teljes közlendők, mondatok, szavak, szótagok, hangok? Hogyan lehet olyan elemeket kialakítani, amelyek jól felismerhetők, ezek felismerésével minden közlendő felismerhető? Hogyan kezeljük az egyszerű szótárban nem szereplő elemeket? Hogyan lehet a gépileg esetleg „értelmezhető” elemeket a felismert üzenet szövegébe beleszőni? (pl országgyűlési gyorsírók szabványos megjegyzései)

T.Gy. Beszedfelism es szint A beszédhangok folytonos és diszkrét természete

T.Gy. Beszedfelism es szint A természetes beszédlánc

T.Gy. Beszedfelism es szint Beszédhang A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. A beszédhangok a nyelvre jellemzőek! Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet beszédhangokat. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre?

T.Gy. Beszedfelism es szint évi állapot A létező és működő modellek B típusúak, de teljes egyetértés van abban, hogy a lényegi előrelépéshez kellenek az A típusú modellek!

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Lineári predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

T.Gy. Beszedfelism es szint Ebben a modellben bemenet a pedikciós hibaminták sorozata és kimenő jel az eredeti beszédjel-minták sorozata.

T.Gy. Beszedfelism es szint A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

T.Gy. Beszedfelism es szint Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha r i = ─ k i

T.Gy. Beszedfelism es szint Jól alkalmazható beszédfelismerés kritériumai Személyfüggetlen Folyamatos, természetes beszédet felismer a rendszer. A felismerés hibája nem több kb. 1%-nál (szavak szintjén)! Értenie is kell valamilyen szinten azt amit felismer! Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető!

T.Gy. Beszedfelism es szint Alapproblémák A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba érthetetlen artikuláció gyakran előfordul „érteni” kell a mondandót ahhoz, hogy jól felismerhessük!

T.Gy. Beszedfelism es szint Egy létező és működő technikai kompromisszum: az izolált szavas kötöttszótárú felismerő A felismerendő alapelemek szavak (tehát meghatározott szótárral dolgozik) A rendszer két fő eleme a tényleges felismerő és a szótárszerkesztő Lehet személyfüggő és személyfüggetlen (ez alapvetően a szótáralkotásra hat ki)

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint A felismerő rész fő elemei Kezdet és vég detektálás Lényegkiemelés Normálás Mintaillesztés

T.Gy. Beszedfelism es szint Szókezdet és szóvég detektálás Gördülő számolás ms időkeretenként energiát számol Ebből meghatározható a normál zajszint Szókezdet = ha a normál zajszintet a keretenergia pl. 6dB értékkel meghaladja Szóvég = ha kezdet után a keretenergia n kereten át a normál zajszintet nem haladja meg pl. 6dB értékkel Detektált szó = ha a szóhossz a szótárelemek hosszához illeszkedik Gyakoriak a jelentős kezdet-vég detektálási hibák

T.Gy. Beszedfelism es szint Lényegkiemelés Feladata a beszédjelet leíró adattömeg redukálása a jelentési információ megőrzése mellett Időkeretenként egy vektort ad meg Szokásos módjai: sávszűrők alkalmazása és az energia sávonkénti meghatározása (fülmodell, sáv?) LPC együtthatók számolása (6-20) PARCOR/ Csőmodell együtthatók számolása (6-20 jól kvantálható) Cepstrum együtthatók számolása (10-20)

T.Gy. Beszedfelism es szint Normálás (uniformizálás) Célja, hogy a szótárelemek és a felismerendő szavak jobban összevethetők legyenek Egyik szükséges formája az energia-normálás (energia maximum vagy energia átlag alapján) annak érdekében, hogy a mikrofonnal nagyobb vagy kisebb szinttel vett, vagy halkabban vagy hangosabban ejtett szavak a megfelelő szótárelemhez jobban illeszkedjenek, Másik szükséges formája az idő-normálás annak érdekében, hogy a gyorsabban vagy lassabban ejtett szavak a megfelelő szótárelemhez jobban illeszkedjenek A (referencia) szótárelemek eleve normáltak energia és idő szerint A normálás arányos nyújtást vagy zsugorítást jelent az adott dimenzióban

T.Gy. Beszedfelism es szint Mintaillesztés A felismerendő szavak és a szótárelemek azonos méretű és elemeikben is normált mátrixok A felismerés lényege, hogy a felismerendő beszédjelet leíró a mátrix melyik szótárelem mátrixhoz illeszkedik legjobban Kézenfekvő megoldás az elemenkénti különbségek abszolút értekeinek halmazata alapján minimum keresés. Probléma: a hibás végpont-detektálás és a ritmuskülönbségek miatt nem összeillő elemeket vetünk össze, ezért nagy a különbség halmazat, nincs meg a jó illeszkedés Megoldás: idővetemítés, (Dynamic Time Warping)

T.Gy. Beszedfelism es szint Idővetemítés x i a felismerendő szó i-edik keretét leíró lényegkiemelt (normált) vektor, komponensei a sávenergiák, LPC együtthatók stb. p elemmel y j az éppen vizsgált szótárelem j-edik keretének vektora azonos (és normált) komponensekkel, p elemmel x i és y i lokális távolsága számolható a képlettel

T.Gy. Beszedfelism es szint Példa Vetemítő görbe Felismerendő szó i-edik kerete Vizsgált szótárelem j-edik kerete Feladat: keresendő az a vetemítő görbe, amelynél a két alakzat legjobban Illeszkedik, azaz a kumulatív távolság minimális. A keresés elvégzendő minden szótárelemre

T.Gy. Beszedfelism es szint Idővetemítés szuboptimális algoritmusa (PÓK) példa A d i,j lokális távolságok alapján számolhatók a t ij kumulatív távolságok az alábbi képlettel A kumulatív távolságokat csak az │i-j │≤ 4 egyenlőséggel megengedett tartományon belül számoljuk soronként balról jobbra és alulról felfelé haladva t ij

T.Gy. Beszedfelism es szint Innen indulunk Ide kell érkezni

T.Gy. Beszedfelism es szint j m 1 n1i Time Series B Time Series A i = j + r i = j - r DTW Algorithm at Work Start with the calculation of g(1,1) = d(1,1). Move to the second row g(i, 2) = min(g(i, 1), g(i–1, 1), g(i – 1, 2)) + d(i, 2). Book keep for each cell the index of this neighboring cell, which contributes the minimum score (red arrows). Calculate the first row g(i, 1) = g(i–1, 1) + d(i, 1). Calculate the first column g(1, j) = g(1, j) + d(1, j). Trace back the best path through the grid starting from g(n, m) and moving towards g(1,1) by following the red arrows. Carry on from left to right and from bottom to top with the rest of the grid g(i, j) = min(g(i, j–1), g(i–1, j–1), g(i – 1, j)) + d(i, j).

T.Gy. Beszedfelism es szint Kész algoritmusok dtw-algorithm-for-speech-recognition- pdf.htmlhttp://download-book.net/matlab-code-for- dtw-algorithm-for-speech-recognition- pdf.html java-doc.htmlhttp://download-book.net/dtw-algorithm-in- java-doc.html lhttp://member.hitel.net/~wjluv/program.htm l tw_algorithm

T.Gy. Beszedfelism es szint Alkalmazások Hang-tárcsázás Dialógus rendszerek, telefonos információs rendszerek. Összetett eszközök vezérlése (pl. autó, vadászgép 16.net/news_article2571.html) 16.net/news_article2571.html Sérültek segítése

T.Gy. Beszedfelism es szint These gadgets can then be activated and controlled through voice recognition...

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint