Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

T.Gy. Beszedfelism es szint. 2012.05. 03. 1 Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.

Hasonló előadás


Az előadások a következő témára: "T.Gy. Beszedfelism es szint. 2012.05. 03. 1 Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012."— Előadás másolata:

1 T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás

2 T.Gy. Beszedfelism es szint Egy létező és működő technikai kompromisszum: az izolált szavas kötöttszótárú felismerő A felismerendő alapelemek szavak (tehát meghatározott szótárral dolgozik) A rendszer két fő eleme a tényleges felismerő és a szótárszerkesztő Lehet személyfüggő és személyfüggetlen (ez alapvetően a szótáralkotásra hat ki)

3 T.Gy. Beszedfelism es szint A felismerő rész fő elemei Kezdet és vég detektálás Lényegkiemelés Normálás Mintaillesztés

4 T.Gy. Beszedfelism es szint Mintaillesztés A felismerendő szavak és a szótárelemek azonos méretű és elemeikben is normált mátrixok A felismerés lényege, hogy a felismerendő beszédjelet leíró a mátrix melyik szótárelem mátrixhoz illeszkedik legjobban Kézenfekvő megoldás az elemenkénti különbségek abszolút értekeinek halmazata alapján minimum keresés. Probléma: a hibás végpont-detektálás és a ritmuskülönbségek miatt nem összeillő elemeket vetünk össze, ezért nagy a különbség halmazat, nincs meg a jó illeszkedés Megoldás: idővetemítés, (Dynamic Time Warping)

5 T.Gy. Beszedfelism es szint Idővetemítés x i a felismerendő szó i-edik keretét leíró lényegkiemelt (normált) vektor, komponensei a sávenergiák, LPC együtthatók stb. p elemmel y j az éppen vizsgált szótárelem j-edik keretének vektora azonos (és normált) komponensekkel, p elemmel x i és y i lokális távolsága számolható a képlettel

6 T.Gy. Beszedfelism es szint A mintaillesztésen alapuló modell problémái Új szótárelem – új tanítás Nem izolált szavakat ejtünk A szótár elemszáma nem növelhető néhány száz fölé

7 T.Gy. Beszedfelism es szint A markov modell

8 T.Gy. Beszedfelism es szint A Markov modell előnyei Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, A rendszerek értékelésére gazdag tanító- és teszt- adatbázisok rendelkezésre állnak a világnyelveken

9 T.Gy. Beszedfelism es szint A Markov modell problémái Diszkrét állapotok sorozatával modellez Az állapotban maradás esélye dominál Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat Nehezen kezelhetők a bizonytalan állapotok

10 T.Gy. Beszedfelism es szint A beszédhangok folytonos és diszkrét természete

11 T.Gy. Beszedfelism es szint A feladat: beszédjel bemenet – írott szöveg kimenet

12 T.Gy. Beszedfelism es szint Az időben folytonos bemenő jel jön (néha szünet) A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. A feldolgozás több rétegben célszerű (akusztikai- fonetikai réteg, szintaktikai réteg, szemantikai réteg …)

13 T.Gy. Beszedfelism es szint Modellek a folyamatos beszéd felismerési folyamatához Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi.

14 T.Gy. Beszedfelism es szint Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre?

15 T.Gy. Beszedfelism es szint A mai bemutatott neurális hálózatos megoldás jellegzetességei Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak…..

16 T.Gy. Beszedfelism es szint Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) - - Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek.

17 T.Gy. Beszedfelism es szint A feladat: beszédjel bemenet – írott szöveg kimenet

18 T.Gy. Beszedfelism es szint A rendszer elemei

19 T.Gy. Beszedfelism es szint

20 T.Gy. Beszedfelism es szint

21 T.Gy. Beszedfelism es szint

22 T.Gy. Beszedfelism es szint

23 T.Gy. Beszedfelism es szint

24 T.Gy. Beszedfelism es szint

25 T.Gy. Beszedfelism es szint A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor

26 T.Gy. Beszedfelism es szint Az előfeldolgozó szűrő jellemzői

27 T.Gy. Beszedfelism es szint A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési jellemzői

28 T.Gy. Beszedfelism es szint

29 T.Gy. Beszedfelism es szint

30 T.Gy. Beszedfelism es szint

31 T.Gy. Beszedfelism es szint A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma készletre

32 T.Gy. Beszedfelism es szint

33 T.Gy. Beszedfelism es szint

34 T.Gy. Beszedfelism es szint

35 T.Gy. Beszedfelism es szint

36 T.Gy. Beszedfelism es szint

37 T.Gy. Beszedfelism es szint

38 T.Gy. Beszedfelism es szint

39 T.Gy. Beszedfelism es szint

40 T.Gy. Beszedfelism es szint

41 T.Gy. Beszedfelism es szint

42 T.Gy. Beszedfelism es szint

43 T.Gy. Beszedfelism es szint

44 T.Gy. Beszedfelism es szint

45 T.Gy. Beszedfelism es szint

46 T.Gy. Beszedfelism es szint

47 T.Gy. Beszedfelism es szint


Letölteni ppt "T.Gy. Beszedfelism es szint. 2012.05. 03. 1 Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012."

Hasonló előadás


Google Hirdetések