T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszélő személy felismerés beszélő személy azonosítás beszélő személy verifikálás Takács György 16. előadás
T.Gy. Beszedfelism es szint Speaker recognition: who is speaking Speaker verification (voice authentication) : the speaker claims to be of a certain identity and the voice is used to verify this claim. Speaker verification is a 1:1 match where one speaker's voice is matched to one template Speaker identification is the task of determining an unknown speaker's identity. Speaker identification is a 1:N match where the voice is matched to N templates. Speaker identification problems generally fall into two categories: –Differentiating multiple speakers when a conversation is taking place. –Identifying an individual's voice based upon previously supplied data regarding that individual's voice.
T.Gy. Beszedfelism es szint Biometriai alapú személyfelismerés Tényleges személyes testi jellemzőkön alapszik Gyakorlatilag letagadhatatlan és utánozhatatlan Példák: –Ujjlenyomat –Szem felvétel –DNS vizsgálat –Hanglenyomat
T.Gy. Beszedfelism es szint Mennyire megbízható a „hanglenyomat”? Összemérhető az aláírással –biztonsági szempontból? –gépesítés szempontjából? –költség szempontjából? Összemérhető az ujjlenyomattal –biztonsági szempontból? –gépesítés szempontjából? –költség szempontjából?
T.Gy. Beszedfelism es szint
This credit card might be too secure for you I've been checking out a new high-tech credit card that reminds me of a security lesson I learned years ago. Soon after I started a tech reporting job at the San Jose Mercury News in 1999, I was lucky enough to land a cubicle next to a guy named David L. Wilson. Dave, who covered the Microsoft anti-trust trial, was a geek's geek and a treasure trove of information. One of the things he explained to me early on was a basic concept in security — something called three-factor authentication. If you want to make it hard to break into something — I mean, really lock it down — demand three unique pieces of information from people before they're allowed in. 1.Something they carry, like a key. 2.Something they know, like a password. 3.Something they are — a piece of biometric data like a fingerprint, a voice print or a retinal scan.
T.Gy. Beszedfelism es szint
8
9
10
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint Automatic speaker recognition is the use of a machine to recognize a person from a spoken phrase. These systems can operate in two modes: to identify a particular person or to verify a person’s claimed identity.
T.Gy. Beszedfelism es szint Alapkérdések a beszélő személy felismerésben Milyen jellemzőket mérjünk? Hogyan normalizáljunk? Szövegfüggő vagy szöveg-független legyen? Hogyan ítélhető meg a döntés biztonsága? Mennyire utánozható? Mennyire változtatható el tudatosan (esetleg náthától magától is)? Menyire eredeti vagy manipulált a bemondás/felvétel?
T.Gy. Beszedfelism es szint Mért jellemzők Anatómiai meghatározottságúak (magasabb formánsok, zárfelpattanási idő, toldalékcső hossza, arcüreg, homloküreg rezonanciái, akusztikus csőmodell paraméterei – LPC paraméterek) Tanult vonások (egyes hangok ejtése, intonáció, ritmus, tempó, szófordulatok…)
T.Gy. Beszedfelism es szint Normalizálás Kétszer nem tudunk pontosan ugyanúgy elmondani még egy szót sem. A hangerő, környezeti zaj, tempó viszonylag széles skálán változhat. Normalizálás lehetséges az időben, szintben (mint izolált szavas felismerésnél) Normalizálás lehetséges a szövegfüggetlen beszélő felismerésnél hosszabb időre vett átlagok alapján a paraméter térben.
T.Gy. Beszedfelism es szint Szövegfüggő vagy szövegfüggetlen legyen?
T.Gy. Beszedfelism es szint ) Fixed password system, where all users share the same password sentence. This kind of system is not likely to be used in a real application, instead, every user would have a unique password to improve security. However, it is a good way to test speaker discriminability in a text-dependent system 2) User-specific text-dependent system, where every user has his own password 3) Vocabulary-dependent system, where a password sequence is composed from a fixed vocabulary to make up new password sequences. Note that the password may or may not be prompted by the system. Examples: randomised digit sequences. 4) Speech-event-dependent system, where the system spots, and depends on specific speech events. Phonetic events, such as the occurrence of vowels, fricatives or nasals, are candidates for the characteristic speech events 5) Machine-driven text-independent system, where the system prompts for an unpredictable text to be spoken. In this case, speaker recognition is combined with speech recognition techniques to verify that the right text was uttered 6) User-driven text-independent system, where the user can say any text he wants
T.Gy. Beszedfelism es szint Szövegfüggőség és rendszerjellemzők kategóriákba rendezve: 1 – gyenge, 2 – közepes, -- jó
T.Gy. Beszedfelism es szint Hogyan ítélhető meg a döntés biztonsága egy rendszerben?
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint Mennyire utánozható? Mennyire változtatható el tudatosan (esetleg náthától magától is)? Menyire eredeti vagy manipulált a bemondás/felvétel?
T.Gy. Beszedfelism es szint VoiceID 99,5% biztonság
T.Gy. Beszedfelism es szint Azonosítási vagy verifikálási hibákhoz vezető tényezők:
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint Azonos személyek mért beszédjellemzőinek változásai a felvételek közötti idő függvényében
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint System Operation Microphone A/D Conversion Filtering Feature Extraction Pattern Matching Speaker Model Decision Enrollment
T.Gy. Beszedfelism es szint Technical Overview Feature Extraction Preprocessing Sample Utterence End Point Detection Silence Removal Emphasis Filtering Segmentation Cepstrum Coefficient Cepstral Normalization Expansion by Polynomial Function Feature Selection Speaker Model Dynamic Time Warping Reference Template Weight Pattern Matching Distance Computation Comparison Accept/Reject A/D Conversion
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint
T.Gy. Beszedfelism es szint