Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaHunor Kozma Megváltozta több, mint 10 éve
1
T.Gy. Beszedfelism es szint. 2012.05. 03. 1 Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012. 05. 03.
2
T.Gy. Beszedfelism es szint. 2012.05. 03. 2 Egy létező és működő technikai kompromisszum: az izolált szavas kötöttszótárú felismerő A felismerendő alapelemek szavak (tehát meghatározott szótárral dolgozik) A rendszer két fő eleme a tényleges felismerő és a szótárszerkesztő Lehet személyfüggő és személyfüggetlen (ez alapvetően a szótáralkotásra hat ki)
3
T.Gy. Beszedfelism es szint. 2012.05. 03. 3 A felismerő rész fő elemei Kezdet és vég detektálás Lényegkiemelés Normálás Mintaillesztés
4
T.Gy. Beszedfelism es szint. 2012.05. 03. 4 Mintaillesztés A felismerendő szavak és a szótárelemek azonos méretű és elemeikben is normált mátrixok A felismerés lényege, hogy a felismerendő beszédjelet leíró a mátrix melyik szótárelem mátrixhoz illeszkedik legjobban Kézenfekvő megoldás az elemenkénti különbségek abszolút értekeinek halmazata alapján minimum keresés. Probléma: a hibás végpont-detektálás és a ritmuskülönbségek miatt nem összeillő elemeket vetünk össze, ezért nagy a különbség halmazat, nincs meg a jó illeszkedés Megoldás: idővetemítés, (Dynamic Time Warping)
5
T.Gy. Beszedfelism es szint. 2012.05. 03. 5 Idővetemítés x i a felismerendő szó i-edik keretét leíró lényegkiemelt (normált) vektor, komponensei a sávenergiák, LPC együtthatók stb. p elemmel y j az éppen vizsgált szótárelem j-edik keretének vektora azonos (és normált) komponensekkel, p elemmel x i és y i lokális távolsága számolható a képlettel
6
T.Gy. Beszedfelism es szint. 2012.05. 03. 6 A mintaillesztésen alapuló modell problémái Új szótárelem – új tanítás Nem izolált szavakat ejtünk A szótár elemszáma nem növelhető néhány száz fölé
7
T.Gy. Beszedfelism es szint. 2012.05. 03. 7 A markov modell
8
T.Gy. Beszedfelism es szint. 2012.05. 03. 8 A Markov modell előnyei Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, A rendszerek értékelésére gazdag tanító- és teszt- adatbázisok rendelkezésre állnak a világnyelveken
9
T.Gy. Beszedfelism es szint. 2012.05. 03. 9 A Markov modell problémái Diszkrét állapotok sorozatával modellez Az állapotban maradás esélye dominál Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat Nehezen kezelhetők a bizonytalan állapotok
10
T.Gy. Beszedfelism es szint. 2012.05. 03. 10 A beszédhangok folytonos és diszkrét természete
11
T.Gy. Beszedfelism es szint. 2012.05. 03. 11 A feladat: beszédjel bemenet – írott szöveg kimenet
12
T.Gy. Beszedfelism es szint. 2012.05. 03. 12 Az időben folytonos bemenő jel jön (néha szünet) A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. A feldolgozás több rétegben célszerű (akusztikai- fonetikai réteg, szintaktikai réteg, szemantikai réteg …)
13
T.Gy. Beszedfelism es szint. 2012.05. 03. 13 Modellek a folyamatos beszéd felismerési folyamatához Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi.
14
T.Gy. Beszedfelism es szint. 2012.05. 03. 14 Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre?
15
T.Gy. Beszedfelism es szint. 2012.05. 03. 15 A mai bemutatott neurális hálózatos megoldás jellegzetességei Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak…..
16
T.Gy. Beszedfelism es szint. 2012.05. 03. 16 Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) - - Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek.
17
T.Gy. Beszedfelism es szint. 2012.05. 03. 17 A feladat: beszédjel bemenet – írott szöveg kimenet
18
T.Gy. Beszedfelism es szint. 2012.05. 03. 18 A rendszer elemei
19
T.Gy. Beszedfelism es szint. 2012.05. 03. 19
20
T.Gy. Beszedfelism es szint. 2012.05. 03. 20
21
T.Gy. Beszedfelism es szint. 2012.05. 03. 21
22
T.Gy. Beszedfelism es szint. 2012.05. 03. 22
23
T.Gy. Beszedfelism es szint. 2012.05. 03. 23
24
T.Gy. Beszedfelism es szint. 2012.05. 03. 24
25
T.Gy. Beszedfelism es szint. 2012.05. 03. 25 A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor
26
T.Gy. Beszedfelism es szint. 2012.05. 03. 26 Az előfeldolgozó szűrő jellemzői
27
T.Gy. Beszedfelism es szint. 2012.05. 03. 27 A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési jellemzői
28
T.Gy. Beszedfelism es szint. 2012.05. 03. 28
29
T.Gy. Beszedfelism es szint. 2012.05. 03. 29
30
T.Gy. Beszedfelism es szint. 2012.05. 03. 30
31
T.Gy. Beszedfelism es szint. 2012.05. 03. 31 A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma készletre
32
T.Gy. Beszedfelism es szint. 2012.05. 03. 32
33
T.Gy. Beszedfelism es szint. 2012.05. 03. 33
34
T.Gy. Beszedfelism es szint. 2012.05. 03. 34
35
T.Gy. Beszedfelism es szint. 2012.05. 03. 35
36
T.Gy. Beszedfelism es szint. 2012.05. 03. 36
37
T.Gy. Beszedfelism es szint. 2012.05. 03. 37
38
T.Gy. Beszedfelism es szint. 2012.05. 03. 38
39
T.Gy. Beszedfelism es szint. 2012.05. 03. 39
40
T.Gy. Beszedfelism es szint. 2012.05. 03. 40
41
T.Gy. Beszedfelism es szint. 2012.05. 03. 41
42
T.Gy. Beszedfelism es szint. 2012.05. 03. 42
43
T.Gy. Beszedfelism es szint. 2012.05. 03. 43
44
T.Gy. Beszedfelism es szint. 2012.05. 03. 44
45
T.Gy. Beszedfelism es szint. 2012.05. 03. 45
46
T.Gy. Beszedfelism es szint. 2012.05. 03. 46
47
T.Gy. Beszedfelism es szint. 2012.05. 03. 47
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.