Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf 2016. 05. 03.

Slides:



Advertisements
Hasonló előadás
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 5.5. Model Based Architecture módszerek BelAmI_H Spring.
Advertisements

Winnie the pooh & friends
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis.
Takács György 15. előadás Készítette Feldhoffer Gergely
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz.
Mintacím szerkesztése •Mintaszöveg szerkesztése •Második szint •Harmadik szint •Negyedik szint •Ötödik szint D modelling in the terrestrial.
ILBK451, 2013/2014. I. félév, ea: Kovács Zita 4.Azonosítás AZ INFORMATIKAI BIZTONSÁG ALAPJAI.
A buddhizmus szerepe a modern tudatkutatásban
„Songlish” How not to be a „Bicky Chewnigh”. Lehet zöld az ég…
Számold meg a fekete pontokat!
A beszéd.
A Windows 7 automatizált telepítése Windows AIK használatával
Tanszéki konzulens: Horváth Ákos Készítette: Kóródi Norbert.
Informatikai biztonság alapjai 2. Azonosítás
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
Krizsán Zoltán.  Ha az algoritmus sokáig dolgozik,  de el akarjuk kerülni a „fagyást”.  Kisebb a költsége, mint az új folyamatnak.  Programozás szempontjából.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 14. előadás Beszedf
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszélő személy felismerés beszélő személy azonosítás beszélő személy verifikálás.
Kliensoldali Programozás
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
SEVEN DONT'S AFTER A MEAL Hét dolog amit nemszabad tenni, étkezés után.
De-stress Therapy A hug from ‘Zorro’ to feel pampered.. Egy kényeztet ő ölelés „Zorro”- tól… Antonio Banderas.
Rendelkezésre álló erőforrások pontos ismerete Kiosztott feladatok közel „valósidejű” követése Átláthatóság Tervezési folyamatok támogatása.
Torr-1 Pierre Fermat, the great French mathematician (and lawyer) asked the following problem from Torricelli, the physician living in Firense: Find.
Web 2.0 Budapest – San Francisco Only the Web 2.0 Conference brings the intelligence, innovation, and leadership of the internet industry together in one.
Entropy Lawrence Sklar: Up and Down, Left and Right, Past and Future.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Slides for Quantum Computing and Communications – An Engineering Approach Chapter 7 Searching in an Unsorted Database Sándor Imre Ferenc Balázs.
Akusztikai mérések Sztahó Dávid
AAA AAA Ki, mikor, mivel, hogyan? Mit csinált, mit csinálhat, (mit fog csinálni)? Ki mihez hogyan férhet hozzá? Authentication Authorization Accounting/Audit.
Christopher Chapman | MCT Content PM, Microsoft Learning, PDG Planning, Microsoft.
Beginner Dialogues - In a motel / hotel Getting a room for the night - Good evening. Can I help you? - Yes, please. I'd like a room for the night. - Would.
Krónikus regurgitáció Chronic regurgitation A képen látható információk alapján fogalmazza meg mit lát a felvételen és mire gondolna ez alapján! Based.
Winnie the pooh & friends
Virgo Augustus 24. – September 23.. Virgo Symbols.
ATM VONATKOZÁSÚ ESEMÉNYEK KBSZ SZAKMAI NAPOK- REPÜLÉS Siófok, április 8. Pál László balesetvizsgáló.
A világon elsőként: NEMZETKÖZI VIRTUÁLIS SAKKISKOLA (  Világszerte elfogadott tény, melyet számos kutatási eredmény is.
Pozitron Emissziós Tomográfia (PET) olyan nukleáris orvosi képalkotási technika, amely - három dimenziós felvételt készít a test egy kiválasztott részének.
„Tisztább kép” – együttműködési program Az új szintetikus drogok feltérképezéséért 2 nd European Workshop – ’Breaking the Drug Cycle’ project Budapest,
2009.IV.30.Argumentation techniques 1 Non-mirrorable argumentation techniques in English Analysis of theological texts aiming persuasion effects László.
Kiss Tibor System Administrator (MCP) ISA Server 2006.
Azonosítás és biztonság pénzintézeti környezetben Jakab Péter igazgató Magyar Külkereskedelmi Bank Rt. Bankbiztonság.
A BCD használata üzleti partnerek felkutatásához
Maven és Ant Build eszközök bemutatása
Farkas Bálint | Technical Evangelist | Microsoft
Virtualizált kliensek, virtualizált alkalmazások
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Pozitron Emissziós Tomográfia (PET)
ResearcherID bemutatása
Beszédfelismerés és beszédszintézis Beszédfelismerés alapjai, izolált szavas kötöttszótárú felismerők Takács György 13. előadás Beszedf
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
XDSL hálózatok tervezése 9. Előadás
Farkas Bálint | Technical Evangelist | Microsoft
Mi a megbocsátás jelentősége? What is the significant of forgivness?
Polymer Theory Why are we looking at polymer theory?
Pairwise object comparison based on Likert-scales and time series – the idea of human-oriented science in light of artificial intelligence and value.
Zoltán Baracskai In the age of digital natives: fast thinking, experience mining, and rule based behaviour these three metaphors are sufficient to describe.
Semmi szükség a biztonságra
egyetemi docens, tanszékvezető, KJE
Takács György, Olaszy Gábor, Podoletz György, Tihanyi Attila
SZÁMVÁLTOZÁS BEMONDÓ AUTOMATA
Vasas Lívia, PhD 2017 DART-Europe E-theses Portal European Portal for the discovery.
Remembering 9/11. 9/11/01 19 Terrorists hijacked four planes. The intended targets were: –Twin Towers (North and South) –The Pentagon –Washington D.C.
What’s new in Java 2019 Tömösvári Imre
Előadás másolata:

Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerése Takács György 15. előadás Beszedf 2016. 05. 03.

A Markov modell előnyei Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, A rendszerek értékelésére gazdag tanító- és teszt-adatbázisok rendelkezésre állnak a világnyelveken Beszedf 2016. 05. 03.

A Markov modell problémái Diszkrét állapotok sorozatával modellez Az állapotban maradás esélye dominál Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat Nehezen kezelhetők a bizonytalan állapotok Beszedf 2016. 05. 03.

A beszédhangok folytonos és diszkrét természete Beszedf 2016. 05. 03.

A feladat: beszédjel bemenet – írott szöveg kimenet Beszedf 2016. 05. 03.

Az időben folytonos bemenő jel jön (néha szünet) A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. A feldolgozás több rétegben célszerű (akusztikai-fonetikai réteg, szintaktikai réteg, szemantikai réteg …) Beszedf 2016. 05. 03.

Modellek a folyamatos beszéd felismerési folyamatához Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi. Beszedf 2016. 05. 03.

A -- az agy beszédfelfogási folyamatait utánzó modellekre? Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? A -- az agy beszédfelfogási folyamatait utánzó modellekre? B -- beszédkeltési folyamatokat leíró modellekre? Beszedf 2016. 05. 03.

A mai bemutatott neurális hálózatos megoldás jellegzetességei Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak….. Beszedf 2016. 05. 03.

Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) -- Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek. Beszedf 2016. 05. 03.

A feladat: beszédjel bemenet – írott szöveg kimenet Beszedf 2016. 05. 03.

A rendszer elemei Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor Beszedf 2016. 05. 03.

Az előfeldolgozó szűrő jellemzői Beszedf 2016. 05. 03.

A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési jellemzői Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma készletre Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszélő személy felismerés beszélő személy azonosítás beszélő személy verifikálás Beszedf 2016. 05. 03.

Speaker recognition: who is speaking Speaker verification (voice authentication) : the speaker claims to be of a certain identity and the voice is used to verify this claim . Speaker verification is a 1:1 match where one speaker's voice is matched to one template Speaker identification is the task of determining an unknown speaker's identity. Speaker identification is a 1:N match where the voice is matched to N templates. Speaker identification problems generally fall into two categories: Differentiating multiple speakers when a conversation is taking place. Identifying an individual's voice based upon previously supplied data regarding that individual's voice. Beszedf 2016. 05. 03.

Személy azonosítás alapjai Alapulhat az azonosítás olyan tárgyon, amit az adott személy birtokol (kulcs, kártya, igazolvány) Alapulhat azon, amit az érintett személy tud (PIN, jelszó) Alapulhat a személy statikus testi jellemzőin (magasság, testsúly, ujjlenyomat, kéz alakja, retina jellemzők, arc, egyes beszédjellemzők) Alapulhat a személy tevékenységi, viselkedési jellemzőin (kézírás, gesztusok, arckifejezések, egyes beszédjellemzők) Beszedf 2016. 05. 03.

Személy azonosítás gyakorlati megvalósításai A feladattól függően a birtokolt, a tudott, a statikus testi jellemzők és a viselkedési jellemzők együttese. Tényleges letagadhatatlanok és utánozhatatlanok a bevett jellemzők? Ujjlenyomat, aláírás, fényképes igazolvány, PIN … Kellenek az újak? Szem felvétel DNS vizsgálat Hanglenyomat mozgásminták Beszedf 2016. 05. 03.

Mennyire megbízható a „hanglenyomat”? Összemérhető az aláírással biztonsági szempontból? gépesítés szempontjából? költség szempontjából? Összemérhető az ujjlenyomattal Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Something they carry, like a key. 2006.10.31 This credit card might be too secure for you                                                   I've been checking out a new high-tech credit card that reminds me of a security lesson I learned years ago. Soon after I started a tech reporting job at the San Jose Mercury News in 1999, I was lucky enough to land a cubicle next to a guy named David L. Wilson. Dave, who covered the Microsoft anti-trust trial, was a geek's geek and a treasure trove of information. One of the things he explained to me early on was a basic concept in security — something called three-factor authentication. If you want to make it hard to break into something — I mean, really lock it down — demand three unique pieces of information from people before they're allowed in. Something they carry, like a key. Something they know, like a password. Something they are — a piece of biometric data like a fingerprint, a voice print or a retinal scan. Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Automatic speaker recognition is the use of a machine to recognize a person from a spoken phrase. These systems can operate in two modes: to identify a particular person or to verify a person’s claimed identity. Beszedf 2016. 05. 03.

Alapkérdések a beszélő személy felismerésben Milyen jellemzőket mérjünk? Hogyan normalizáljunk? Szövegfüggő vagy szöveg-független legyen? Hogyan ítélhető meg a döntés biztonsága? Mennyire utánozható? Mennyire változtatható el tudatosan (esetleg náthától magától is)? Menyire eredeti vagy manipulált a bemondás/felvétel? Beszedf 2016. 05. 03.

Mért jellemzők Anatómiai meghatározottságúak (magasabb formánsok, zárfelpattanási idő, toldalékcső hossza, arcüreg, homloküreg rezonanciái, akusztikus csőmodell paraméterei – LPC paraméterek) Tanult vonások (egyes hangok ejtése, intonáció, ritmus, tempó, szófordulatok…) Beszedf 2016. 05. 03.

Normalizálás Kétszer nem tudunk pontosan ugyanúgy elmondani még egy szót sem. A hangerő, környezeti zaj, tempó viszonylag széles skálán változhat. Normalizálás lehetséges az időben, szintben (mint izolált szavas felismerésnél) Normalizálás lehetséges a szövegfüggetlen beszélő felismerésnél hosszabb időre vett átlagok alapján a paraméter térben. Beszedf 2016. 05. 03.

Szövegfüggő vagy szövegfüggetlen legyen? Beszedf 2016. 05. 03.

1) Fixed password system, where all users share the same password sentence. This kind of system is not likely to be used in a real application, instead, every user would have a unique password to improve security. However, it is a good way to test speaker discriminability in a text-dependent system 2) User-specific text-dependent system, where every user has his own password 3) Vocabulary-dependent system, where a password sequence is composed from a fixed vocabulary to make up new password sequences. Note that the password may or may not be prompted by the system. Examples: randomised digit sequences. 4) Speech-event-dependent system, where the system spots, and depends on specific speech events. Phonetic events, such as the occurrence of vowels, fricatives or nasals, are candidates for the characteristic speech events 5) Machine-driven text-independent system, where the system prompts for an unpredictable text to be spoken. In this case, speaker recognition is combined with speech recognition techniques to verify that the right text was uttered 6) User-driven text-independent system, where the user can say any text he wants Beszedf 2016. 05. 03.

Szövegfüggőség és rendszerjellemzők kategóriákba rendezve: 1 – gyenge, 2 – közepes, -- jó Beszedf 2016. 05. 03.

Hogyan ítélhető meg a döntés biztonsága egy rendszerben? Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

A beszélő azonosítás állatkertje „birkák” – gondnélküli felhasználók alacsony hibaértékekkel „kecskék” – megbízhatatlan felhasználók, változatos hanglenyomatok, nagy hibaértékekkel „bárányok” – sebezhető felhasználók, könnyen utánozhatók „farkasok” – a potenciálisan sikeres imposztorok Beszedf 2016. 05. 03.

Az imposztorok ügyei Nehéz ezekről statisztikailag értékes anyagot gyűjteni, Lehetnek alapos ismereteik a támadott személy hangjáról, A hangfelvétel gyűjtést akadályozni kell! Lehetnek technikailag igen képzett imposztorok (felvételek készítése, lejátszása, manipulálása, személyfüggő szintézis) Gyanús lehet, ha a referencia és azonosítandó felvétel túl hasonló (felvétel visszajátszása) Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Mennyire változtatható el tudatosan (esetleg náthától magától is)? Mennyire utánozható? Mennyire változtatható el tudatosan (esetleg náthától magától is)? Menyire eredeti vagy manipulált a bemondás/felvétel? Beszedf 2016. 05. 03.

VoiceID 99,5% biztonság Beszedf 2016. 05. 03.

Azonosítási vagy verifikálási hibákhoz vezető tényezők: Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Azonos személyek mért beszédjellemzőinek változásai a felvételek közötti idő függvényében Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

System Operation Decision Enrollment Microphone A/D Conversion Filtering Feature Extraction Pattern Matching Decision Enrollment Speaker Model Beszedf 2016. 05. 03.

Technical Overview Preprocessing Pattern Matching Reference Template Sample Utterence Cepstrum Coefficient Reference Template Weight A/D Conversion Cepstral Normalization Dynamic Time Warping End Point Detection Silence Removal Distance Computation Expansion by Polynomial Function Emphasis Filtering Comparison Segmentation Feature Selection Accept/Reject Beszedf 2016. 05. 03. Speaker Model

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Termék példa: Nuance Voice Biometric Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.

Beszedf 2016. 05. 03.