Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Takács György 15. előadás Készítette Feldhoffer Gergely

Hasonló előadás


Az előadások a következő témára: "Takács György 15. előadás Készítette Feldhoffer Gergely"— Előadás másolata:

1 Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben
Takács György 15. előadás Készítette Feldhoffer Gergely felhasználva Fodróczi Zoltán előadásanyagát Beszedf

2 Javasolt vizsgaidőpontok:
Május 22. csütörtök 11:00 Június 4. szerda 10:00 Június 25. szerda 10:00 Beszedf

3 A beszédhangok folytonos és diszkrét természete
Beszedf

4 A rejtett Markov Modell alapú felismerők lényege: diszkrét elemek (fonémák) sorozatának optimális előállítása a folyamatos beszédjelből. Felhasználva ehhez az egymás utáni bekövetkező elemek (nyelvfüggő) statisztikai adatait. Beszedf

5 Jól alkalmazható beszédfelismerés kritériumai
Személyfüggetlen Folyamatos, természetes beszédet felismer a rendszer. A felismerés hibája nem több kb. 1%-nál (szavak szintjén)! Értenie is kell valamilyen szinten azt amit felismer! Reakcióideje nem több 100 ms-nál!! Indulatok, érzelmek elemeit is képes felismerni! Platform független, a létező erőforrásokkal működtethető! Beszedf

6 Alapproblémák A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba érthetetlen artikuláció gyakran előfordul „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Beszedf

7 Példa folyamatos feldolgozásra
Beszedf

8 Folyamatos feldolgozás
● Célok: – szegmentálás – fonéma azonosítás – szóhatár döntések ● Bemenet: jellegvektorok ● Nehézségek: – bizonytalan, zajjal terhelt bemenet – sok hasonló fonéma, hasonulások, kiejtésbeli változatosság – szóhatáron nincs szünet, ismerni kell a nyelvet Beszedf

9 (részletek a neurális hálózatos felismerésnél) ● Jellegvektorok
Zöngésség Zajosság Orrhangzósság Elől-képzettség Középen-képzettség Hátul-képzettség Magánhangzósság (részletek a neurális hálózatos felismerésnél) ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok Beszedf

10 ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok
Beszedf

11 ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok
Beszedf

12 Markov Modell Állapotok, állapotátmenetek Beszedf

13 Markov Modell példa: időjárás
Beszedf

14 Rejtett Markov Modell a beszédfelismerésben
Az állapotokat a fonémáknak feleltetjük meg Az állapotátmenetek ismertek: Nagy nyelvstatisztikai adatbázisokból kinyerhető az A mátrix A felismeréskor a tényleges állapotokat NEM ismerjük, de vannak megfigyeléseink a tényleges állapotokról. Beszedf

15 A Rejtett Markov Modell (HMM)
Minden állapothoz hozzárendelhető a lehetséges megfigyelések valószínűsége ● esi(x) : x megfigyelés valószínűsége az i állapotban ● Ismerjük az állapotátmeneti valószínűségeket: Az A mátrix ● Keressük az állapotok sorozatát a megfigyelések sorozata alapján Beszedf

16 Rejtett Markov Modell (HMM) Példa
Beszedf

17 Rejtett Markov Modell (HMM) Példa
Beszedf

18 A Rejtett Markov Modell (HMM) Példa: Viterbi algoritmus
Beszedf

19 Példa: Viterbi algoritmus
Beszedf

20 Példa: Viterbi algoritmus
Beszedf

21 Beszedf

22 Beszedf

23 Beszedf

24 Beszedf

25 Beszedf

26 Beszedf

27 Beszedf

28 Viterbi algoritmus C++ nyelven
Beszedf

29 Összefoglalás A HMM jól leírja a beszédfolyamatokat
Megfigyelés bármilyen jellegvektor lehet Állapotoknak a fonémákat nevezzük ki Az optimális állapotsorozat feladatára a Viterbi algoritmus a megoldás A módszer a dinamikus idővetemítéshez hasonlóan egy valószínűséghalmozás, és egy visszafelé haladó optimális út keresés Dinamikus programozás Kitekintés: Viterbi eredetileg jelátvitel hibajavítására találta ki az algoritmust Beszedf

30 Paraméterek becslése Ahhoz, hogy egy HMM sikeresen működjön beszédfelismerési, vagy egyéb rendszerekben, az A és E mátrixok pontos becslése szükséges. Ezeket az értékeket adatbázisok tartalmából ki lehet számítani megközelítőleg A megoldás a statisztika, azon belül is a maximum likelihood módszer. Beszedf

31 Paraméterek naív becslése
Beszedf

32 Paraméterek naív becslése
Beszedf

33 Paraméterek becslése A naív becslés sajnos nem optimális
Az optimális paraméterek megadására analitikus megoldás nem ismert Közelítő módszerrel pontosabb: Baum-Welch algoritmus Beszedf

34 Baum – Welch algoritmus
Beszedf

35 Baum – Welch algoritmus
Beszedf

36 Baum – Welch algoritmus
Beszedf

37 Baum – Welch algoritmus Összefoglalás
A naív becslés egy torzítatlan egylépéses iteráció a BW algoritmushoz képest A tanítás iteratív volta miatt a neuronhálózatos módszerekhez hasonlóan a tanítás sebessége a tanító adatbázis méretétől és jellegétől függ Statisztikai szemszög: Gauss eloszlások keverékét szeretnénk szeparált (ismert) Gauss eloszlások összegeként előállítani Beszedf

38 HMM: Értékelés Az állapot-sorozatok elemzésével a fonémák kinyerhetőek a beszédjelből Ez jóval erősebb eszköz a dinamikus idővetemítésnél, ami csak egész kifejezések felismerésére használható Tanítható Részben beszélőfüggetlen, a beszélőn főleg az E mátrix múlik A megfigyelések halmaza tetszőlegesen választható (pl spektrális információ és energia, egyéb akusztikus jegyek) Beszedf

39 Problémák Szegmentálás: ekvidisztáns időkeretek, vagy szegmentálási algoritmus? Egyforma keretek esetében sok múlik a keretek méretén. Ha a keret túl kicsi, az ai,i értékek túl nagyok lesznek. Szegmentálási algoritmus esetében az éles használatkor az adatbázistól eltérő körülmények között (más zaj, stb) elromolhat az A mátrix. Beszedf

40 Lehetőségek Hierarchikus HMM: fonémák szintje, szavak szintje, nyelvtani szint Adaptív HMM: a modell folyamatosan változik használat közben, fenntartva a modell lehetőségekhez mért optimalitását Másodrendű, sokadrendű HMM: az állapotátmenetek nem csak a megelőző, de a megelőző n mintától függnek. Beszedf

41 HTK (HMM Tool Kit) A HTK egy C/C++ könyvtár, ami hangfeldolgozó eljárásokat, és sok beszédfelismerésben hasznos algoritmust Tartalmaz Többek között: – HMM – LPC, és egyéb előfeldolgozók – Nyelvi modell – Fájlformátumok – VQ Beszedf

42 HTK (HMM Tool Kit) Fájlformátumok: – Saját formátumok
– Hangfájlok (WAV, AIFF, AU8 ..) – Tesztanyagok cimkézései (TIMIT, SCRIBE ..) HMM – Adatszerkezetek modellekhez, akár többedrendűekhez – Többféle tanítási módszer – Viterbi/Forward és egyéb kiértékelések – Adaptív HMM Beszedf

43 Egy HMM rendszer felépítése
Beszedf


Letölteni ppt "Takács György 15. előadás Készítette Feldhoffer Gergely"

Hasonló előadás


Google Hirdetések