T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás
T.Gy. Beszedfelism es szint Egy létező és működő technikai kompromisszum: az izolált szavas kötöttszótárú felismerő A felismerendő alapelemek szavak (tehát meghatározott szótárral dolgozik) A rendszer két fő eleme a tényleges felismerő és a szótárszerkesztő Lehet személyfüggő és személyfüggetlen (ez alapvetően a szótáralkotásra hat ki)
T.Gy. Beszedfelism es szint A felismerő rész fő elemei Kezdet és vég detektálás Lényegkiemelés Normálás Mintaillesztés
T.Gy. Beszedfelism es szint Mintaillesztés A felismerendő szavak és a szótárelemek azonos méretű és elemeikben is normált mátrixok A felismerés lényege, hogy a felismerendő beszédjelet leíró a mátrix melyik szótárelem mátrixhoz illeszkedik legjobban Kézenfekvő megoldás az elemenkénti különbségek abszolút értekeinek halmazata alapján minimum keresés. Probléma: a hibás végpont-detektálás és a ritmuskülönbségek miatt nem összeillő elemeket vetünk össze, ezért nagy a különbség halmazat, nincs meg a jó illeszkedés Megoldás: idővetemítés, (Dynamic Time Warping)
T.Gy. Beszedfelism es szint Idővetemítés x i a felismerendő szó i-edik keretét leíró lényegkiemelt (normált) vektor, komponensei a sávenergiák, LPC együtthatók stb. p elemmel y j az éppen vizsgált szótárelem j-edik keretének vektora azonos (és normált) komponensekkel, p elemmel x i és y i lokális távolsága számolható a képlettel
T.Gy. Beszedfelism es szint A mintaillesztésen alapuló modell problémái Új szótárelem – új tanítás Nem izolált szavakat ejtünk A szótár elemszáma nem növelhető néhány száz fölé
T.Gy. Beszedfelism es szint A markov modell
T.Gy. Beszedfelism es szint A Markov modell előnyei Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, A rendszerek értékelésére gazdag tanító- és teszt- adatbázisok rendelkezésre állnak a világnyelveken
T.Gy. Beszedfelism es szint A Markov modell problémái Diszkrét állapotok sorozatával modellez Az állapotban maradás esélye dominál Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat Nehezen kezelhetők a bizonytalan állapotok
T.Gy. Beszedfelism es szint A beszédhangok folytonos és diszkrét természete
T.Gy. Beszedfelism es szint A feladat: beszédjel bemenet – írott szöveg kimenet
T.Gy. Beszedfelism es szint Az időben folytonos bemenő jel jön (néha szünet) A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. A feldolgozás több rétegben célszerű (akusztikai- fonetikai réteg, szintaktikai réteg, szemantikai réteg …)
T.Gy. Beszedfelism es szint Modellek a folyamatos beszéd felismerési folyamatához Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi.
T.Gy. Beszedfelism es szint Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre?
T.Gy. Beszedfelism es szint A mai bemutatott neurális hálózatos megoldás jellegzetességei Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak…..
T.Gy. Beszedfelism es szint Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) - - Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek.
T.Gy. Beszedfelism es szint A feladat: beszédjel bemenet – írott szöveg kimenet
T.Gy. Beszedfelism es szint A rendszer elemei
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor
T.Gy. Beszedfelism es szint Az előfeldolgozó szűrő jellemzői
T.Gy. Beszedfelism es szint A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési jellemzői
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma készletre
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint