Takács György 15. előadás Készítette Feldhoffer Gergely

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements


Kamarai prezentáció sablon
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Weblap szerkesztés HTML oldal felépítése Nyitó tag Záró tag Nyitó tag Záró tag oldalfej tözs.
Erőállóképesség mérése Találjanak teszteket az irodalomban
Az előadásokon oldandók meg. (Szimulációs modell is tartozik hozzájuk)
Humánkineziológia szak
Mellár János 5. óra Március 12. v
Műveletek logaritmussal
Elektromos mennyiségek mérése
Koordináta transzformációk
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Az Univerzum térképe - ELTE 2001
Programozási alapismeretek 10. előadás
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Naïve Bayes, HMM.
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Mérési pontosság (hőmérő)
© Gács Iván (BME) 1/36 Energia és környezet Szennyezőanyagok légköri terjedése.
Ember László XUBUNTU Linux (ami majdnem UBUNTU) Ötödik nekifutás 192 MB RAM és 3 GB HDD erőforrásokkal.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Védőgázas hegesztések
Talajjavítás mélytömörítéssel, szemcsés kőoszlopokkal
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 14. előadás Beszedf
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
6. Előadás Merevítő rendszerek típusok, szerepük a tervezésben
Darupályák tervezésének alapjai
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
dr. Szalkai István Pannon Egyetem, Veszprém
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
2. A KVANTUMMECHANIKA AXIÓMÁI 1. Erwin Schrödinger: Quantisierung als Eigenwertproblem (1926) 2.
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
4. Feladat (1) Foci VB 2006 Különböző országok taktikái.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Alapsokaság (populáció)
A pneumatika alapjai A pneumatikában alkalmazott építőelemek és működésük vezérlő elemek (szelepek)
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. május 15P2P hálózatok 1 Fóliák a vizsgára: 1. előadás  Bevezető: 11-16, 21,  Usenet: előadás:  Bevezető: 3-8  Napster: 
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Határozatlan integrál
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Virtuális Méréstechnika Sub-VI és grafikonok 1 Makan Gergely, Vadai Gergely v
Mérés és adatgyűjtés laboratóriumi gyakorlat - levelező Sub-VI és grafikonok 1 Mingesz Róbert V
Kvantitatív módszerek
Üledékes sorozatok tagolás - agyagindikátorok
Mikroökonómia gyakorlat
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
előadások, konzultációk
Programozási alapismeretek 10. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 10.2/  Kiválogatás + összegzés.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
A termelés költségei.
Bevezetés a méréskiértékelésbe (BMETE80ME19)
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf
Kockázat és megbízhatóság
Előadás másolata:

Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben Takács György 15. előadás 2014. 05. 08. Készítette Feldhoffer Gergely felhasználva Fodróczi Zoltán előadásanyagát Beszedf 2014.05.08.

Javasolt vizsgaidőpontok: Május 22. csütörtök 11:00 Június 4. szerda 10:00 Június 25. szerda 10:00 Beszedf 2014.05.08.

A beszédhangok folytonos és diszkrét természete Beszedf 2014.05.08.

A rejtett Markov Modell alapú felismerők lényege: diszkrét elemek (fonémák) sorozatának optimális előállítása a folyamatos beszédjelből. Felhasználva ehhez az egymás utáni bekövetkező elemek (nyelvfüggő) statisztikai adatait. Beszedf 2014.05.08.

Jól alkalmazható beszédfelismerés kritériumai Személyfüggetlen Folyamatos, természetes beszédet felismer a rendszer. A felismerés hibája nem több kb. 1%-nál (szavak szintjén)! Értenie is kell valamilyen szinten azt amit felismer! Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető! Beszedf 2014.05.08.

Alapproblémák A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba érthetetlen artikuláció gyakran előfordul „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Beszedf 2014.05.08.

Példa folyamatos feldolgozásra Beszedf 2014.05.08.

Folyamatos feldolgozás ● Célok: – szegmentálás – fonéma azonosítás – szóhatár döntések ● Bemenet: jellegvektorok ● Nehézségek: – bizonytalan, zajjal terhelt bemenet – sok hasonló fonéma, hasonulások, kiejtésbeli változatosság – szóhatáron nincs szünet, ismerni kell a nyelvet Beszedf 2014.05.08.

(részletek a neurális hálózatos felismerésnél) ● Jellegvektorok Zöngésség Zajosság Orrhangzósság Elől-képzettség Középen-képzettség Hátul-képzettség Magánhangzósság (részletek a neurális hálózatos felismerésnél) ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok Beszedf 2014.05.08.

● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok Beszedf 2014.05.08.

● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok Beszedf 2014.05.08.

Markov Modell Állapotok, állapotátmenetek Beszedf 2014.05.08.

Markov Modell példa: időjárás Beszedf 2014.05.08.

Rejtett Markov Modell a beszédfelismerésben Az állapotokat a fonémáknak feleltetjük meg Az állapotátmenetek ismertek: Nagy nyelvstatisztikai adatbázisokból kinyerhető az A mátrix A felismeréskor a tényleges állapotokat NEM ismerjük, de vannak megfigyeléseink a tényleges állapotokról. Beszedf 2014.05.08.

A Rejtett Markov Modell (HMM) Minden állapothoz hozzárendelhető a lehetséges megfigyelések valószínűsége ● esi(x) : x megfigyelés valószínűsége az i állapotban ● Ismerjük az állapotátmeneti valószínűségeket: Az A mátrix ● Keressük az állapotok sorozatát a megfigyelések sorozata alapján Beszedf 2014.05.08.

Rejtett Markov Modell (HMM) Példa Beszedf 2014.05.08.

Rejtett Markov Modell (HMM) Példa Beszedf 2014.05.08.

A Rejtett Markov Modell (HMM) Példa: Viterbi algoritmus Beszedf 2014.05.08.

Példa: Viterbi algoritmus Beszedf 2014.05.08.

Példa: Viterbi algoritmus Beszedf 2014.05.08.

Beszedf 2014.05.08.

Beszedf 2014.05.08.

Beszedf 2014.05.08.

Beszedf 2014.05.08.

Beszedf 2014.05.08.

Beszedf 2014.05.08.

Beszedf 2014.05.08.

Viterbi algoritmus C++ nyelven Beszedf 2014.05.08.

Összefoglalás A HMM jól leírja a beszédfolyamatokat Megfigyelés bármilyen jellegvektor lehet Állapotoknak a fonémákat nevezzük ki Az optimális állapotsorozat feladatára a Viterbi algoritmus a megoldás A módszer a dinamikus idővetemítéshez hasonlóan egy valószínűséghalmozás, és egy visszafelé haladó optimális út keresés Dinamikus programozás Kitekintés: Viterbi eredetileg jelátvitel hibajavítására találta ki az algoritmust Beszedf 2014.05.08.

Paraméterek becslése Ahhoz, hogy egy HMM sikeresen működjön beszédfelismerési, vagy egyéb rendszerekben, az A és E mátrixok pontos becslése szükséges. Ezeket az értékeket adatbázisok tartalmából ki lehet számítani megközelítőleg A megoldás a statisztika, azon belül is a maximum likelihood módszer. Beszedf 2014.05.08.

Paraméterek naív becslése Beszedf 2014.05.08.

Paraméterek naív becslése Beszedf 2014.05.08.

Paraméterek becslése A naív becslés sajnos nem optimális Az optimális paraméterek megadására analitikus megoldás nem ismert Közelítő módszerrel pontosabb: Baum-Welch algoritmus Beszedf 2014.05.08.

Baum – Welch algoritmus Beszedf 2014.05.08.

Baum – Welch algoritmus Beszedf 2014.05.08.

Baum – Welch algoritmus Beszedf 2014.05.08.

Baum – Welch algoritmus Összefoglalás A naív becslés egy torzítatlan egylépéses iteráció a BW algoritmushoz képest A tanítás iteratív volta miatt a neuronhálózatos módszerekhez hasonlóan a tanítás sebessége a tanító adatbázis méretétől és jellegétől függ Statisztikai szemszög: Gauss eloszlások keverékét szeretnénk szeparált (ismert) Gauss eloszlások összegeként előállítani Beszedf 2014.05.08.

HMM: Értékelés Az állapot-sorozatok elemzésével a fonémák kinyerhetőek a beszédjelből Ez jóval erősebb eszköz a dinamikus idővetemítésnél, ami csak egész kifejezések felismerésére használható Tanítható Részben beszélőfüggetlen, a beszélőn főleg az E mátrix múlik A megfigyelések halmaza tetszőlegesen választható (pl spektrális információ és energia, egyéb akusztikus jegyek) Beszedf 2014.05.08.

Problémák Szegmentálás: ekvidisztáns időkeretek, vagy szegmentálási algoritmus? Egyforma keretek esetében sok múlik a keretek méretén. Ha a keret túl kicsi, az ai,i értékek túl nagyok lesznek. Szegmentálási algoritmus esetében az éles használatkor az adatbázistól eltérő körülmények között (más zaj, stb) elromolhat az A mátrix. Beszedf 2014.05.08.

Lehetőségek Hierarchikus HMM: fonémák szintje, szavak szintje, nyelvtani szint Adaptív HMM: a modell folyamatosan változik használat közben, fenntartva a modell lehetőségekhez mért optimalitását Másodrendű, sokadrendű HMM: az állapotátmenetek nem csak a megelőző, de a megelőző n mintától függnek. Beszedf 2014.05.08.

HTK (HMM Tool Kit) A HTK egy C/C++ könyvtár, ami hangfeldolgozó eljárásokat, és sok beszédfelismerésben hasznos algoritmust Tartalmaz Többek között: – HMM – LPC, és egyéb előfeldolgozók – Nyelvi modell – Fájlformátumok – VQ Beszedf 2014.05.08.

HTK (HMM Tool Kit) Fájlformátumok: – Saját formátumok – Hangfájlok (WAV, AIFF, AU8 ..) – Tesztanyagok cimkézései (TIMIT, SCRIBE ..) HMM – Adatszerkezetek modellekhez, akár többedrendűekhez – Többféle tanítási módszer – Viterbi/Forward és egyéb kiértékelések – Adaptív HMM Beszedf 2014.05.08.

Egy HMM rendszer felépítése Beszedf 2014.05.08.