Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszedf 2014.05.08.1 Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben Takács György 15. előadás 2014. 05. 08. Készítette.

Hasonló előadás


Az előadások a következő témára: "Beszedf 2014.05.08.1 Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben Takács György 15. előadás 2014. 05. 08. Készítette."— Előadás másolata:

1 Beszedf Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben Takács György 15. előadás Készítette Feldhoffer Gergely felhasználva Fodróczi Zoltán előadásanyagát

2 Beszedf Javasolt vizsgaidőpontok: •Május 22. csütörtök 11:00 •Június 4. szerda 10:00 •Június 25. szerda 10:00

3 Beszedf A beszédhangok folytonos és diszkrét természete

4 Beszedf A rejtett Markov Modell alapú felismerők lényege: diszkrét elemek (fonémák) sorozatának optimális előállítása a folyamatos beszédjelből. Felhasználva ehhez az egymás utáni bekövetkező elemek (nyelvfüggő) statisztikai adatait.

5 Beszedf Jól alkalmazható beszédfelismerés kritériumai •Személyfüggetlen •Folyamatos, természetes beszédet felismer a rendszer. •A felismerés hibája nem több kb. 1%-nál (szavak szintjén)! •Értenie is kell valamilyen szinten azt amit felismer! •Reakcióideje nem több 100 ms-nál!! •Indulatok, érzelmek elemeit is képes felismerni! •Platform független, a létező erőforrásokkal működtethető!

6 Beszedf Alapproblémák •A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak •Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) •Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba érthetetlen artikuláció gyakran előfordul •„érteni” kell a mondandót ahhoz, hogy jól felismerhessük!

7 Példa folyamatos feldolgozásra Beszedf

8 Folyamatos feldolgozás ● Célok: – szegmentálás – fonéma azonosítás – szóhatár döntések ● Bemenet: jellegvektorok ● Nehézségek: – bizonytalan, zajjal terhelt bemenet – sok hasonló fonéma, hasonulások, kiejtésbeli változatosság – szóhatáron nincs szünet, ismerni kell a nyelvet Beszedf

9 9 Jellegvektorok: 1.Zöngésség 2.Zajosság 3.Orrhangzósság 4.Elől-képzettség 5.Középen-képzettség 6.Hátul-képzettség 7.Magánhangzósság (részletek a neurális hálózatos felismerésnél) ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok

10 Beszedf ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok

11 Beszedf ● Jellegvektorok ● Szegmentálás ● Fonéma kiválasztása ● Szóhatárok

12 Markov Modell •Állapotok, állapotátmenetek Beszedf

13 Markov Modell példa: időjárás Beszedf

14 Rejtett Markov Modell a beszédfelismerésben •Az állapotokat a fonémáknak feleltetjük meg •Az állapotátmenetek ismertek: •Nagy nyelvstatisztikai adatbázisokból kinyerhető az A mátrix •A felismeréskor a tényleges állapotokat NEM ismerjük, de vannak megfigyeléseink a tényleges állapotokról. Beszedf

15 A Rejtett Markov Modell (HMM) Minden állapothoz hozzárendelhető a lehetséges megfigyelések valószínűsége ● e si (x) : x megfigyelés valószínűsége az i állapotban ● Ismerjük az állapotátmeneti valószínűségeket: Az A mátrix ● Keressük az állapotok sorozatát a megfigyelések sorozata alapján Beszedf

16 Rejtett Markov Modell (HMM) Példa Beszedf

17 Rejtett Markov Modell (HMM) Példa Beszedf

18 A Rejtett Markov Modell (HMM) Példa: Viterbi algoritmus Beszedf

19 Példa: Viterbi algoritmus Beszedf

20 Példa: Viterbi algoritmus Beszedf

21 Beszedf

22 Beszedf

23 Beszedf

24 Beszedf

25 Beszedf

26 Beszedf

27 Beszedf

28 Viterbi algoritmus C++ nyelven Beszedf

29 Összefoglalás •A HMM jól leírja a beszédfolyamatokat •Megfigyelés bármilyen jellegvektor lehet •Állapotoknak a fonémákat nevezzük ki •Az optimális állapotsorozat feladatára a Viterbi algoritmus a megoldás •A módszer a dinamikus idővetemítéshez hasonlóan egy valószínűséghalmozás, és egy visszafelé haladó optimális út keresés •Dinamikus programozás •Kitekintés: Viterbi eredetileg jelátvitel hibajavítására találta ki az algoritmust Beszedf

30 Paraméterek becslése •Ahhoz, hogy egy HMM sikeresen működjön beszédfelismerési, vagy egyéb rendszerekben, az A és E mátrixok pontos becslése szükséges. •Ezeket az értékeket adatbázisok tartalmából ki lehet számítani megközelítőleg •A megoldás a statisztika, azon belül is a •maximum likelihood módszer. Beszedf

31 Paraméterek naív becslése Beszedf

32 Paraméterek naív becslése Beszedf

33 Paraméterek becslése •A naív becslés sajnos nem optimális •Az optimális paraméterek megadására analitikus megoldás nem ismert •Közelítő módszerrel pontosabb: •Baum-Welch algoritmus Beszedf

34 Baum – Welch algoritmus Beszedf

35 Baum – Welch algoritmus Beszedf

36 Baum – Welch algoritmus Beszedf

37 Baum – Welch algoritmus Összefoglalás •A naív becslés egy torzítatlan egylépéses iteráció a BW algoritmushoz képest •A tanítás iteratív volta miatt a neuronhálózatos módszerekhez hasonlóan a tanítás sebessége a tanító adatbázis méretétől és jellegétől függ •Statisztikai szemszög: Gauss eloszlások keverékét szeretnénk szeparált (ismert) Gauss eloszlások összegeként előállítani Beszedf

38 HMM: Értékelés •Az állapot-sorozatok elemzésével a fonémák kinyerhetőek a beszédjelből •Ez jóval erősebb eszköz a dinamikus •idővetemítésnél, ami csak egész kifejezések felismerésére használható •Tanítható •Részben beszélőfüggetlen, a beszélőn főleg az E mátrix múlik •A megfigyelések halmaza tetszőlegesen választható (pl spektrális információ és energia, egyéb akusztikus jegyek ) Beszedf

39 Problémák •Szegmentálás: ekvidisztáns időkeretek, vagy szegmentálási algoritmus? •Egyforma keretek esetében sok múlik a •keretek méretén. Ha a keret túl kicsi, az a i,i értékek túl nagyok lesznek. •Szegmentálási algoritmus esetében az éles használatkor az adatbázistól eltérő körülmények között (más zaj, stb) elromolhat az A mátrix. Beszedf

40 Lehetőségek •Hierarchikus HMM: fonémák szintje, szavak szintje, nyelvtani szint •Adaptív HMM: a modell folyamatosan változik használat közben, fenntartva a modell lehetőségekhez mért optimalitását •Másodrendű, sokadrendű HMM: az állapotátmenetek nem csak a megelőző, de a megelőző n mintától függnek. Beszedf

41 HTK (HMM Tool Kit) •A HTK egy C/C++ könyvtár, ami hangfeldolgozó eljárásokat, és sok beszédfelismerésben hasznos algoritmust Tartalmaz •Többek között: – HMM – LPC, és egyéb előfeldolgozók – Nyelvi modell – Fájlformátumok – VQ Beszedf

42 HTK (HMM Tool Kit) •Fájlformátumok: – Saját formátumok – Hangfájlok (WAV, AIFF, AU8..) – Tesztanyagok cimkézései (TIMIT, SCRIBE..) •HMM – Adatszerkezetek modellekhez, akár többedrendűekhez – Többféle tanítási módszer – Viterbi/Forward és egyéb kiértékelések – Adaptív HMM Beszedf

43 Egy HMM rendszer felépítése Beszedf


Letölteni ppt "Beszedf 2014.05.08.1 Beszédfelismerés és beszédszintézis Rejtett Markov Modell a beszédfelismerésben Takács György 15. előadás 2014. 05. 08. Készítette."

Hasonló előadás


Google Hirdetések