Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaSzebasztián Borbély Megváltozta több, mint 10 éve
1
Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben
Takács György 15. előadás Készítette Feldhoffer Gergely felhasználva Fodróczi Zoltán előadásanyagát Beszedf
2
Javasolt vizsgaidőpontok:
Május 22. csütörtök 11:00 Június 4. szerda 10:00 Június 25. szerda 10:00 Beszedf
3
A beszédhangok folytonos és diszkrét természete
Beszedf
4
A rejtett Markov Modell alapú felismerők lényege: diszkrét elemek (fonémák) sorozatának optimális előállítása a folyamatos beszédjelből. Felhasználva ehhez az egymás utáni bekövetkező elemek (nyelvfüggő) statisztikai adatait. Beszedf
5
Jól alkalmazható beszédfelismerés kritériumai
Személyfüggetlen Folyamatos, természetes beszédet felismer a rendszer. A felismerés hibája nem több kb. 1%-nál (szavak szintjén)! Értenie is kell valamilyen szinten azt amit felismer! Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető! Beszedf
6
Alapproblémák A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba érthetetlen artikuláció gyakran előfordul „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Beszedf
7
Példa folyamatos feldolgozásra
Beszedf
8
Folyamatos feldolgozás
● Célok: – szegmentálás – fonéma azonosítás – szóhatár döntések ● Bemenet: jellegvektorok ● Nehézségek: – bizonytalan, zajjal terhelt bemenet – sok hasonló fonéma, hasonulások, kiejtésbeli változatosság – szóhatáron nincs szünet, ismerni kell a nyelvet Beszedf
9
(részletek a neurális hálózatos felismerésnél) ● Jellegvektorok
Zöngésség Zajosság Orrhangzósság Elől-képzettség Középen-képzettség Hátul-képzettség Magánhangzósság (részletek a neurális hálózatos felismerésnél) ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok Beszedf
10
● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok
Beszedf
11
● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok
Beszedf
12
Markov Modell Állapotok, állapotátmenetek Beszedf
13
Markov Modell példa: időjárás
Beszedf
14
Rejtett Markov Modell a beszédfelismerésben
Az állapotokat a fonémáknak feleltetjük meg Az állapotátmenetek ismertek: Nagy nyelvstatisztikai adatbázisokból kinyerhető az A mátrix A felismeréskor a tényleges állapotokat NEM ismerjük, de vannak megfigyeléseink a tényleges állapotokról. Beszedf
15
A Rejtett Markov Modell (HMM)
Minden állapothoz hozzárendelhető a lehetséges megfigyelések valószínűsége ● esi(x) : x megfigyelés valószínűsége az i állapotban ● Ismerjük az állapotátmeneti valószínűségeket: Az A mátrix ● Keressük az állapotok sorozatát a megfigyelések sorozata alapján Beszedf
16
Rejtett Markov Modell (HMM) Példa
Beszedf
17
Rejtett Markov Modell (HMM) Példa
Beszedf
18
A Rejtett Markov Modell (HMM) Példa: Viterbi algoritmus
Beszedf
19
Példa: Viterbi algoritmus
Beszedf
20
Példa: Viterbi algoritmus
Beszedf
21
Beszedf
22
Beszedf
23
Beszedf
24
Beszedf
25
Beszedf
26
Beszedf
27
Beszedf
28
Viterbi algoritmus C++ nyelven
Beszedf
29
Összefoglalás A HMM jól leírja a beszédfolyamatokat
Megfigyelés bármilyen jellegvektor lehet Állapotoknak a fonémákat nevezzük ki Az optimális állapotsorozat feladatára a Viterbi algoritmus a megoldás A módszer a dinamikus idővetemítéshez hasonlóan egy valószínűséghalmozás, és egy visszafelé haladó optimális út keresés Dinamikus programozás Kitekintés: Viterbi eredetileg jelátvitel hibajavítására találta ki az algoritmust Beszedf
30
Paraméterek becslése Ahhoz, hogy egy HMM sikeresen működjön beszédfelismerési, vagy egyéb rendszerekben, az A és E mátrixok pontos becslése szükséges. Ezeket az értékeket adatbázisok tartalmából ki lehet számítani megközelítőleg A megoldás a statisztika, azon belül is a maximum likelihood módszer. Beszedf
31
Paraméterek naív becslése
Beszedf
32
Paraméterek naív becslése
Beszedf
33
Paraméterek becslése A naív becslés sajnos nem optimális
Az optimális paraméterek megadására analitikus megoldás nem ismert Közelítő módszerrel pontosabb: Baum-Welch algoritmus Beszedf
34
Baum – Welch algoritmus
Beszedf
35
Baum – Welch algoritmus
Beszedf
36
Baum – Welch algoritmus
Beszedf
37
Baum – Welch algoritmus Összefoglalás
A naív becslés egy torzítatlan egylépéses iteráció a BW algoritmushoz képest A tanítás iteratív volta miatt a neuronhálózatos módszerekhez hasonlóan a tanítás sebessége a tanító adatbázis méretétől és jellegétől függ Statisztikai szemszög: Gauss eloszlások keverékét szeretnénk szeparált (ismert) Gauss eloszlások összegeként előállítani Beszedf
38
HMM: Értékelés Az állapot-sorozatok elemzésével a fonémák kinyerhetőek a beszédjelből Ez jóval erősebb eszköz a dinamikus idővetemítésnél, ami csak egész kifejezések felismerésére használható Tanítható Részben beszélőfüggetlen, a beszélőn főleg az E mátrix múlik A megfigyelések halmaza tetszőlegesen választható (pl spektrális információ és energia, egyéb akusztikus jegyek) Beszedf
39
Problémák Szegmentálás: ekvidisztáns időkeretek, vagy szegmentálási algoritmus? Egyforma keretek esetében sok múlik a keretek méretén. Ha a keret túl kicsi, az ai,i értékek túl nagyok lesznek. Szegmentálási algoritmus esetében az éles használatkor az adatbázistól eltérő körülmények között (más zaj, stb) elromolhat az A mátrix. Beszedf
40
Lehetőségek Hierarchikus HMM: fonémák szintje, szavak szintje, nyelvtani szint Adaptív HMM: a modell folyamatosan változik használat közben, fenntartva a modell lehetőségekhez mért optimalitását Másodrendű, sokadrendű HMM: az állapotátmenetek nem csak a megelőző, de a megelőző n mintától függnek. Beszedf
41
HTK (HMM Tool Kit) A HTK egy C/C++ könyvtár, ami hangfeldolgozó eljárásokat, és sok beszédfelismerésben hasznos algoritmust Tartalmaz Többek között: – HMM – LPC, és egyéb előfeldolgozók – Nyelvi modell – Fájlformátumok – VQ Beszedf
42
HTK (HMM Tool Kit) Fájlformátumok: – Saját formátumok
– Hangfájlok (WAV, AIFF, AU8 ..) – Tesztanyagok cimkézései (TIMIT, SCRIBE ..) HMM – Adatszerkezetek modellekhez, akár többedrendűekhez – Többféle tanítási módszer – Viterbi/Forward és egyéb kiértékelések – Adaptív HMM Beszedf
43
Egy HMM rendszer felépítése
Beszedf
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.