Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf 2016.04.26.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Egyszerű LL grammatika.  Definíciók  Példa. Ábrákkal  MASM program (szó felismerése LL(1) –ben )
Fejmozgás alapú gesztusok felismerése
Dr. habil. Benczik Vilmos főiskolai tanár, ELTE TÓK
Takács György 15. előadás Készítette Feldhoffer Gergely
1.A hallàsi rendszer egyszerű: -- nem lineàris (1 dB be 1 dB ki) -- sàvszűrő ~àllandó Q-val ? inhibició, komodulalt takaras leengedese (CMR) -- mindez.
Az integrált áramkörök (IC-k) tervezése
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
Számold meg a fekete pontokat!
Kötelező alapkérdések
Kalman-féle rendszer definíció
Diszkrét idejű bemenet kimenet modellek
Híranyagok tömörítése
A beszéd.
Csoportosítás megadása: Δx – csoport szélesség
Naïve Bayes, HMM.
Lineáris és nemlineáris regressziók, logisztikus regresszió
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
Bárdi Tamás előadására építve
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 14. előadás Beszedf
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Takács György 1. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfel Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 7. előadás.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Determinisztikus véges automaták csukva nyitva m s kbsm csukva nyitva csukva nyitva csukvanyitva 1. Példa: Fotocellás ajtó s b m m= mindkét helyen k= kint.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója PARCOR módszerrel és a beszédképzés akusztikus.
Szűrés és konvolúció Vámossy Zoltán 2004
ADATBÁZISOK
III. előadás.
Regresszióanalízis 10. gyakorlat.
Az Alakfelismerés és gépi tanulás ELEMEI
Szinger Veronika HANGTAN Szinger Veronika
Hálózati Bombermen Belicza András Konzulens: Rajacsics Tamás BME-AAIT.
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Statisztika.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Torr-1 Pierre Fermat, the great French mathematician (and lawyer) asked the following problem from Torricelli, the physician living in Firense: Find.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
T.Gy. Beszedfelism es szint
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Lineáris algebra.
Slides for Quantum Computing and Communications – An Engineering Approach Chapter 7 Searching in an Unsorted Database Sándor Imre Ferenc Balázs.
Adatbázis-kezelés 3-4. Adatok lekérdezése utasítás általános formája SELECT [ALL/DISTINCT] {*/, …, } FROM [ ], …, [ ] [WHERE GROUP BY, …, HAVING ORDER.
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Egyenes vonalú mozgások
Akusztikai mérések Sztahó Dávid
Valószínűségszámítás II.
Hibajavító kódok.
előadások, konzultációk
Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás február 25. Takács György.
Fordítóprogramok gyakorlat tavaszi félév gyakorlatvezető:Kitlei Róbert szoba:D 2-616B honlap:
Script nyelvek előadás
Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács György 4. előadás Beszedfelism.
Nevezetes algoritmusok
A nyelv mint jelrendszer
Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf
A évi kompetenciamérés FIT-jelentéseinek új elemei
Informatikai gyakorlatok 11. évfolyam
Valószínűségi változók együttes eloszlása
Segédlet a Kommunikáció-akusztika tanulásához VIHIAV 035
Acf, pacf, arima, arfima.
A gépi beszédfelismerés kezdeti kutatásai
Előadás másolata:

Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf 2016.04.26.

Vizsgaidőpontok: Május 10. kedd 17:00 Május 17. kedd 10:00 Június 7. kedd 10:00 Beszedf 2016.04.26.

Eredmények április 26. állapot szerint Eredmények április 26. állapot szerint. Az aláírás feltétele valamennyi mérés teljesítése és eredményes zárthelyi Spek LPC Alapfr Szint1 Szint2 DTW ZH Fenyvesi Tamás OK Hajtó Dániel Sulyok András Attila Szalontay Marcell Zoltán Szlobodnyik Gergely Beszedf 2016.04.26.

A szintézis mérések tanulsága Beszedf 2016.04.26.

Megoldott kérdés-e a beszédfelismerés, más szóval beszéd-szöveg átalakítás? Beszedf 2016.04.26.

Igen Mert termékként állnak rendelkezésre megoldások. Mert jobb rendszerek beépített eleme (pl., hangportálok, automata telefonkezelő, Windows XP) Mert könyvek leírják, iskolában tanítják…. Beszedf 2016.04.26.

NEM! Mert nem szeretik! Mert nem használják! Mert nem hozott komoly üzleti eredményt senkinek! Beszedf 2016.04.26.

Elfogadjuk a létező beszédfelismerőket? Ha nem, akkor miért nem? Beszedf 2016.04.26.

Az én válaszaim Személyfüggő nagyon! A beszédfelismerőnek „értenie” is kell amit felismer! Akadnak tényleges felismerési hibák is! A beszéd több, mint elemek egymásutánisága! A beszédfolyamat további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások is a felismerendő üzenet lényegi elemei. Ezek is az értelmezést segítik, a közlendőt árnyalják, a beszédet emberivé, széppé teszik, tehát ha a beszéd üzenetét kívánjuk felismerni ezek sem hagyhatók a folyamatból el. Beszedf 2016.04.26.

Érdekesebb helyek a hálón! http://onlinediktalas.hu/ http://www.nuance.com/naturallyspeaking/ http://www.microsoft.com/enable/products/windowsvista/speech.aspx http://download.cnet.com/Speech-Recognition-Based-on-DTW/3000-2053_4-10878314.html http://www.electricrainbow.com/freedemo.html http://www.globalchange.com/speech.html Beszedf 2016.04.26.

Ideális beszédfelismerő Minimális felismerési hiba Függetlenség az akusztikai környezettől Beszélőfüggetlenség Korlátlan szótár és témakör Folyamatos, természetes beszédet felismerése. Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető! Beszedf 2016.04.26.

A beszédfelismerés technikai kérdései ma Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával. Mik legyenek a felismerendő alapelemek? Teljes közlendők, mondatok, szavak, szótagok, hangok? Hogyan lehet olyan elemeket kialakítani, amelyek jól felismerhetők, ezek felismerésével minden közlendő felismerhető? Hogyan kezeljük az egyszerű szótárban nem szereplő elemeket? Hogyan lehet a gépileg esetleg „értelmezhető” elemeket a felismert üzenet szövegébe beleszőni? (pl országgyűlési gyorsírók szabványos megjegyzései) Beszedf 2016.04.26.

A beszédhangok folytonos és diszkrét természete Beszedf 2016.04.26.

A természetes beszédlánc Beszedf 2016.04.26.

Beszédhang A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. A beszédhangok a nyelvre jellemzőek! Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet beszédhangokat. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA. Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

A -- az agy beszédfelfogási folyamatait utánzó modellekre? Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre? Beszedf 2016.04.26.

2016. évi állapot A létező és működő modellek B típusúak, de teljes egyetértés van abban, hogy a lényegi előrelépéshez kellenek az A típusú modellek! Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma Beszedf 2016.04.26.

Ebben a modellben bemenet a pedikciós hibaminták sorozata és kimenő jel az eredeti beszédjel-minták sorozata. Beszedf 2016.04.26.

A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal Beszedf 2016.04.26.

Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki Beszedf 2016.04.26.

Jól alkalmazható beszédfelismerés kritériumai Személyfüggetlen Folyamatos, természetes beszédet felismer a rendszer. A felismerés hibája nem több kb. 1%-nál (szavak szintjén)! Értenie is kell valamilyen szinten azt amit felismer! Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető! Beszedf 2016.04.26.

Alapproblémák A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba érthetetlen artikuláció gyakran előfordul „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Beszedf 2016.04.26.

A rendszer két fő eleme a tényleges felismerő és a szótárszerkesztő Egy létező és működő technikai kompromisszum: az izolált szavas kötöttszótárú felismerő A felismerendő alapelemek szavak (tehát meghatározott szótárral dolgozik) A rendszer két fő eleme a tényleges felismerő és a szótárszerkesztő Lehet személyfüggő és személyfüggetlen (ez alapvetően a szótáralkotásra hat ki) Beszedf 2016.04.26.

Beszedf 2016.04.26.

A felismerő rész fő elemei Kezdet és vég detektálás Lényegkiemelés Normálás (Elasztikus) mintaillesztés Beszedf 2016.04.26.

Szókezdet és szóvég detektálás Gördülő számolás 10-20 ms időkeretenként energiát számol Ebből meghatározható a normál zajszint Szókezdet = ha a normál zajszintet a keret-energia pl. 6dB értékkel meghaladja Szóvég = ha kezdet után a keret-energia n kereten át a normál zajszintet nem haladja meg pl. 6dB értékkel Detektált szó = ha a szóhossz a szótárelemek hosszához illeszkedik Gyakoriak a jelentős kezdet-vég detektálási hibák Beszedf 2016.04.26.

Lényegkiemelés Feladata a beszédjelet leíró adattömeg redukálása a jelentési információ megőrzése mellett Időkeretenként egy vektort ad meg Szokásos módjai: sávszűrők alkalmazása és az energia sávonkénti meghatározása (fülmodell, 10-20 sáv?) LPC együtthatók számolása (6-20) PARCOR/ Csőmodell együtthatók számolása (6-20 jól kvantálható) Cepstrum együtthatók számolása (10-20) Beszedf 2016.04.26.

Normálás (uniformizálás) Célja, hogy a szótárelemek és a felismerendő szavak jobban összevethetők legyenek Egyik szükséges formája az energia-normálás (energia maximum vagy energia átlag alapján) annak érdekében, hogy a mikrofonnal nagyobb vagy kisebb szinttel vett, vagy halkabban vagy hangosabban ejtett szavak a megfelelő szótárelemhez jobban illeszkedjenek, Másik szükséges formája az idő-normálás annak érdekében, hogy a gyorsabban vagy lassabban ejtett szavak a megfelelő szótárelemhez jobban illeszkedjenek A (referencia) szótárelemek eleve normáltak energia és idő szerint A normálás arányos nyújtást vagy zsugorítást jelent az adott dimenzióban Beszedf 2016.04.26.

Elasztikus mintaillesztés A felismerendő szavak és a szótárelemek azonos méretű és elemeikben is normált mátrixok A felismerés lényege, hogy a felismerendő beszédjelet leíró a mátrix melyik szótárelem mátrixhoz illeszkedik legjobban Kézenfekvő megoldás az elemenkénti különbségek abszolút értekeinek halmazata alapján minimum keresés. Probléma: a hibás végpont-detektálás és a ritmuskülönbségek miatt nem összeillő elemeket vetünk össze, ezért nagy a különbség halmazat, nincs meg a jó illeszkedés Megoldás: idővetemítés, (Dynamic Time Warping) Beszedf 2016.04.26.

Elasztikus mintaillesztés Beszedf 2016.04.26.

Idővetemítés xi a felismerendő szó i-edik keretét leíró lényegkiemelt (normált) vektor , komponensei a sávenergiák, LPC együtthatók stb. p elemmel yj az éppen vizsgált szótárelem j-edik keretének vektora azonos (és normált) komponensekkel, p elemmel xi és yi lokális távolsága számolható a képlettel Beszedf 2016.04.26.

Vizsgált szótárelem j-edik kerete Példa Vetemítő görbe Vizsgált szótárelem j-edik kerete Feladat: keresendő az a vetemítő görbe, amelynél a két alakzat legjobban Illeszkedik, azaz a kumulatív távolság minimális. A keresés elvégzendő minden szótárelemre Felismerendő szó i-edik kerete Beszedf 2016.04.26.

Idővetemítés szuboptimális algoritmusa (PÓK) példa A di,j lokális távolságok alapján számolhatók a tij kumulatív távolságok az alábbi képlettel A kumulatív távolságokat csak az │i-j │≤ 4 egyenlőséggel megengedett tartományon belül számoljuk soronként balról jobbra és alulról felfelé haladva tij Beszedf 2016.04.26.

További „pók” lehetőségek Beszedf 2016.04.26.

Ide kell érkezni Beszedf 2016.04.26. Innen indulunk

DTW Algorithm at Work Start with the calculation of g(1,1) = d(1,1). Time Series A Calculate the first row g(i, 1) = g(i–1, 1) + d(i, 1). 1 i n m Calculate the first column g(1, j) = g(1, j) + d(1, j). Move to the second row g(i, 2) = min(g(i, 1), g(i–1, 1), g(i – 1, 2)) + d(i, 2). Book keep for each cell the index of this neighboring cell, which contributes the minimum score (red arrows). i = j - r j Carry on from left to right and from bottom to top with the rest of the grid g(i, j) = min(g(i, j–1), g(i–1, j–1), g(i – 1, j)) + d(i, j). Trace back the best path through the grid starting from g(n, m) and moving towards g(1,1) by following the red arrows. Time Series B 1 i = j + r Beszedf 2016.04.26.

Kész algoritmusok http://download-book.net/matlab-code-for-dtw-algorithm-for-speech-recognition-pdf.html http://download-book.net/dtw-algorithm-in-java-doc.html http://member.hitel.net/~wjluv/program.html http://www.sourcecodeonline.com/list?q=dtw_algorithm Beszedf 2016.04.26.

Alkalmazások Hang-tárcsázás Dialógus rendszerek, telefonos információs rendszerek. Összetett eszközök vezérlése (pl. autó, vadászgép http://www.f-16.net/news_article2571.html) Sérültek segítése Beszedf 2016.04.26.

These gadgets can then be activated and controlled through voice recognition ... Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.

Beszedf 2016.04.26.