Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf 2016. 05. 03.

Hasonló előadás


Az előadások a következő témára: "Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf 2016. 05. 03."— Előadás másolata:

1 Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf

2 A Markov modell előnyei
Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, A rendszerek értékelésére gazdag tanító- és teszt-adatbázisok rendelkezésre állnak a világnyelveken Beszedf

3 A Markov modell problémái
Diszkrét állapotok sorozatával modellez Az állapotban maradás esélye dominál Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat Nehezen kezelhetők a bizonytalan állapotok Beszedf

4 A beszédhangok folytonos és diszkrét természete
Beszedf

5 A feladat: beszédjel bemenet – írott szöveg kimenet
Beszedf

6 Az időben folytonos bemenő jel jön (néha szünet)
A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. A feldolgozás több rétegben célszerű (akusztikai-fonetikai réteg, szintaktikai réteg, szemantikai réteg …) Beszedf

7 Modellek a folyamatos beszéd felismerési folyamatához
Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi. Beszedf

8 A -- az agy beszédfelfogási folyamatait utánzó modellekre?
Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre? Beszedf

9 A mai bemutatott neurális hálózatos megoldás jellegzetességei
Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak….. Beszedf

10 Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk
A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) -- Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek. Beszedf

11 A feladat: beszédjel bemenet – írott szöveg kimenet
Beszedf

12 A rendszer elemei Beszedf

13 Beszedf

14 Beszedf

15 Beszedf

16 Beszedf

17 Beszedf

18 Beszedf

19 A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző
és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor Beszedf

20 Az előfeldolgozó szűrő jellemzői
Beszedf

21 A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési
jellemzői Beszedf

22 Beszedf

23 Beszedf

24 Beszedf

25 A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma
készletre Beszedf

26 Beszedf

27 Beszedf

28 Beszedf

29 Beszedf

30 Beszedf

31 Beszedf

32 Beszedf

33 Beszedf

34 Beszedf

35 Beszedf

36 Beszedf

37 Beszedf

38 Beszedf

39 Beszedf

40 Beszedf

41 Beszedf

42 Beszélő személy felismerés beszélő személy azonosítás beszélő személy verifikálás
Beszedf

43 Speaker recognition: who is speaking
Speaker verification (voice authentication) : the speaker claims to be of a certain identity and the voice is used to verify this claim . Speaker verification is a 1:1 match where one speaker's voice is matched to one template Speaker identification is the task of determining an unknown speaker's identity. Speaker identification is a 1:N match where the voice is matched to N templates. Speaker identification problems generally fall into two categories: Differentiating multiple speakers when a conversation is taking place. Identifying an individual's voice based upon previously supplied data regarding that individual's voice. Beszedf

44 Személy azonosítás alapjai
Alapulhat az azonosítás olyan tárgyon, amit az adott személy birtokol (kulcs, kártya, igazolvány) Alapulhat azon, amit az érintett személy tud (PIN, jelszó) Alapulhat a személy statikus testi jellemzőin (magasság, testsúly, ujjlenyomat, kéz alakja, retina jellemzők, arc, egyes beszédjellemzők) Alapulhat a személy tevékenységi, viselkedési jellemzőin (kézírás, gesztusok, arckifejezések, egyes beszédjellemzők) Beszedf

45 Személy azonosítás gyakorlati megvalósításai
A feladattól függően a birtokolt, a tudott, a statikus testi jellemzők és a viselkedési jellemzők együttese. Tényleges letagadhatatlanok és utánozhatatlanok a bevett jellemzők? Ujjlenyomat, aláírás, fényképes igazolvány, PIN … Kellenek az újak? Szem felvétel DNS vizsgálat Hanglenyomat mozgásminták Beszedf

46 Mennyire megbízható a „hanglenyomat”?
Összemérhető az aláírással biztonsági szempontból? gépesítés szempontjából? költség szempontjából? Összemérhető az ujjlenyomattal Beszedf

47 Beszedf

48 Something they carry, like a key.
This credit card might be too secure for you                                                   I've been checking out a new high-tech credit card that reminds me of a security lesson I learned years ago. Soon after I started a tech reporting job at the San Jose Mercury News in 1999, I was lucky enough to land a cubicle next to a guy named David L. Wilson. Dave, who covered the Microsoft anti-trust trial, was a geek's geek and a treasure trove of information. One of the things he explained to me early on was a basic concept in security — something called three-factor authentication. If you want to make it hard to break into something — I mean, really lock it down — demand three unique pieces of information from people before they're allowed in. Something they carry, like a key. Something they know, like a password. Something they are — a piece of biometric data like a fingerprint, a voice print or a retinal scan. Beszedf

49 Beszedf

50 Beszedf

51 Beszedf

52 Beszedf

53 Beszedf

54 Beszedf

55 Beszedf

56 Automatic speaker recognition
is the use of a machine to recognize a person from a spoken phrase. These systems can operate in two modes: to identify a particular person or to verify a person’s claimed identity. Beszedf

57 Alapkérdések a beszélő személy felismerésben
Milyen jellemzőket mérjünk? Hogyan normalizáljunk? Szövegfüggő vagy szöveg-független legyen? Hogyan ítélhető meg a döntés biztonsága? Mennyire utánozható? Mennyire változtatható el tudatosan (esetleg náthától magától is)? Menyire eredeti vagy manipulált a bemondás/felvétel? Beszedf

58 Mért jellemzők Anatómiai meghatározottságúak (magasabb formánsok, zárfelpattanási idő, toldalékcső hossza, arcüreg, homloküreg rezonanciái, akusztikus csőmodell paraméterei – LPC paraméterek) Tanult vonások (egyes hangok ejtése, intonáció, ritmus, tempó, szófordulatok…) Beszedf

59 Normalizálás Kétszer nem tudunk pontosan ugyanúgy elmondani még egy szót sem. A hangerő, környezeti zaj, tempó viszonylag széles skálán változhat. Normalizálás lehetséges az időben, szintben (mint izolált szavas felismerésnél) Normalizálás lehetséges a szövegfüggetlen beszélő felismerésnél hosszabb időre vett átlagok alapján a paraméter térben. Beszedf

60 Szövegfüggő vagy szövegfüggetlen legyen?
Beszedf

61 1) Fixed password system, where all users share the same password sentence. This kind of system is not likely to be used in a real application, instead, every user would have a unique password to improve security. However, it is a good way to test speaker discriminability in a text-dependent system 2) User-specific text-dependent system, where every user has his own password 3) Vocabulary-dependent system, where a password sequence is composed from a fixed vocabulary to make up new password sequences. Note that the password may or may not be prompted by the system. Examples: randomised digit sequences. 4) Speech-event-dependent system, where the system spots, and depends on specific speech events. Phonetic events, such as the occurrence of vowels, fricatives or nasals, are candidates for the characteristic speech events 5) Machine-driven text-independent system, where the system prompts for an unpredictable text to be spoken. In this case, speaker recognition is combined with speech recognition techniques to verify that the right text was uttered 6) User-driven text-independent system, where the user can say any text he wants Beszedf

62 Szövegfüggőség és rendszerjellemzők kategóriákba rendezve:
1 – gyenge, 2 – közepes, -- jó Beszedf

63 Hogyan ítélhető meg a döntés biztonsága egy rendszerben?
Beszedf

64 Beszedf

65 A beszélő azonosítás állatkertje
„birkák” – gondnélküli felhasználók alacsony hibaértékekkel „kecskék” – megbízhatatlan felhasználók, változatos hanglenyomatok, nagy hibaértékekkel „bárányok” – sebezhető felhasználók, könnyen utánozhatók „farkasok” – a potenciálisan sikeres imposztorok Beszedf

66 Az imposztorok ügyei Nehéz ezekről statisztikailag értékes anyagot gyűjteni, Lehetnek alapos ismereteik a támadott személy hangjáról, A hangfelvétel gyűjtést akadályozni kell! Lehetnek technikailag igen képzett imposztorok (felvételek készítése, lejátszása, manipulálása, személyfüggő szintézis) Gyanús lehet, ha a referencia és azonosítandó felvétel túl hasonló (felvétel visszajátszása) Beszedf

67 Beszedf

68 Beszedf

69 Mennyire változtatható el tudatosan (esetleg náthától magától is)?
Mennyire utánozható? Mennyire változtatható el tudatosan (esetleg náthától magától is)? Menyire eredeti vagy manipulált a bemondás/felvétel? Beszedf

70 VoiceID 99,5% biztonság Beszedf

71 Azonosítási vagy verifikálási hibákhoz vezető tényezők:
Beszedf

72 Beszedf

73 Beszedf

74 Azonos személyek mért beszédjellemzőinek változásai
a felvételek közötti idő függvényében Beszedf

75 Beszedf

76 Beszedf

77 Beszedf

78 System Operation Decision Enrollment Microphone A/D Conversion
Filtering Feature Extraction Pattern Matching Decision Enrollment Speaker Model Beszedf

79 Technical Overview Preprocessing Pattern Matching Reference Template
Sample Utterence Cepstrum Coefficient Reference Template Weight A/D Conversion Cepstral Normalization Dynamic Time Warping End Point Detection Silence Removal Distance Computation Expansion by Polynomial Function Emphasis Filtering Comparison Segmentation Feature Selection Accept/Reject Beszedf Speaker Model

80 Beszedf

81 Beszedf

82 Beszedf

83 Termék példa: Nuance Voice Biometric
Beszedf

84 Beszedf

85 Beszedf

86 Beszedf

87 Beszedf

88 Beszedf


Letölteni ppt "Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf 2016. 05. 03."

Hasonló előadás


Google Hirdetések