Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz.

Slides:



Advertisements
Hasonló előadás
TWS ALAP. TWS Ticker beírása.
Advertisements

Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis.
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Takács György 15. előadás Készítette Feldhoffer Gergely
Mintacím szerkesztése •Mintaszöveg szerkesztése •Második szint •Harmadik szint •Negyedik szint •Ötödik szint D modelling in the terrestrial.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
1.A hallàsi rendszer egyszerű: -- nem lineàris (1 dB be 1 dB ki) -- sàvszűrő ~àllandó Q-val ? inhibició, komodulalt takaras leengedese (CMR) -- mindez.
Szintetikus látható beszéd bemutató és megbeszélés Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1083 Budapest, Práter u. 50/a június.
Az ötlettől a projekttervig
Híranyagok tömörítése
A beszéd.
Függvények BMEEPAGA301 Építész informatika 1
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Gazdaságelemzési és Statisztikai Tanszék
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
Témavezető: Dr. Gömze A. László
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
Beszéd és érzelem Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis - előadás április 12. Bárdi Tamás.
Hálózattervezés nov XDSL hálózatok tervezése 14. Előadás Takács György.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Hálózattervezés nov XDSL hálózatok tervezése 14. Előadás Takács György.
Adaptív jelfeldolgozás Rádiócsatorna kiegyenlítése
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis.
Önálló laboratórium II május 23.1 Mobiltelefonon futtatható program készítése Hegedűs Iván Mihály Pázmány Péter Katolikus Egyetem Információs.
A virtuális technológia alapjai Dr. Horv á th L á szl ó Budapesti Műszaki Főiskola Neumann János Informatikai Kar, Intelligens Mérnöki Rendszerek.
KÖZMŰ INFORMATIKA NUMERIKUS MÓDSZEREK I.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Lázár István Témavezető: Hajdu András
Szinger Veronika HANGTAN Szinger Veronika
Zöngétlenedés: beszélőfüggő paraméter? Gráczi Tekla Etelka, MTA Nyelvtudományi Intézet II. Alkalmazott Nyelvészeti Doktorandusz Konferencia, Budapest,
Bevezetés az alakmodellezésbe I. Budapesti Műszaki Főiskola Neumann János Informatikai Főiskolai Kar A Műszaki Tervezés Rendszerei 2000/2001 tanév, I.
A hiba-előjel alapú FxLMS algoritmus analízise Orosz György Konzulensek: Péceli Gábor, Sujbert László Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika.
Tömbök és programozási tételek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Méréstechnika.
Hallási illúziók 1 Bőhm Tamás
Rezgésakusztikai és Audio Laboratórium Department of Telecommunications Budapest University of Technology and Economics 1-es villamos átvezetése a Lágymányosi.
Slides for Quantum Computing and Communications – An Engineering Approach Chapter 7 Searching in an Unsorted Database Sándor Imre Ferenc Balázs.
Mérnöki tervezés december Hangelemző rendszer fejlesztése Symbian OS-re Hegedűs Iván Mihály Pázmány Péter Katolikus Egyetem Információs Technológiai.
Akusztikai mérések Sztahó Dávid
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás GY. – 02.
Spike Sorting Solutions Csercsa Richárd Magony Andor.
From eco-efficiency to sustainable production Maria Csutora Pietro Bertazzi The workshop is based on research done in the HU-0056 “Sustainable consumption,
Spektrum, FFT, hangok Beszédinformációs rendszerek, 2. gyakorlat
Beszédinformációs rendszerek Szegmentális és szupraszegmentális elemek a beszédtechnológiában.
Ismétlés. "Man - a being in search of meaning." Plato Searching in an Unsorted Database.
A cél-meghatározási, projektdefiniálási fázis Készítette: Szentirmai Róbert (minden jog fenntartva)
Information on the sources of information on the quality of education Hungary Daniel Horn research fellow MTA KRTK KTI and ELTEcon
Adaptív jelfeldolgozás Rádiócsatorna kiegyenlítése
Az ötlettől a projekttervig
Tervezés I. Belsőtér BME-VIK.
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
XDSL hálózatok tervezése 9. Előadás
Miklós Kóbor Department of Geophysics & Space Sciences,
Agyi elektródák felületmódosítása
FAZEKAS ANDRÁS ISTVÁN PhD c. egyetemi docens
Vasas Lívia, PhD 2017 DART-Europe E-theses Portal European Portal for the discovery.
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
Jelkondicionálás.
Mikrofonok Principles, constructions, characteristics and applications
Basic notions of acoustics
Segédlet a Kommunikáció-akusztika tanulásához VIHIAV 035
Basic nositons of hearing and psychoacousics
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Geometriai Algoritmusok
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Előadás másolata:

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz előadása alapján

Péter Pázmány Catholic University, Department of Information Technology Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F 0

Péter Pázmány Catholic University, Department of Information Technology Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

Péter Pázmány Catholic University, Department of Information Technology Pitch is….. “…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale” (American Standards Association, 1960; cited in Moore, 1997) What is the definition of pitch? Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F 0 ) fizikai mennyiség

Péter Pázmány Catholic University, Department of Information Technology Azonos-e a hangmagasság?  Egyik hang  Másik hang

Péter Pázmány Catholic University, Department of Information Technology

 Egyik hang  Másik hang

Péter Pázmány Catholic University, Department of Information Technology Time Frequency Tones that have the same repetition rate tend to have the same pitch:

Péter Pázmány Catholic University, Department of Information Technology Melyik hang alapfrekvenciája nagyobb?

Péter Pázmány Catholic University, Department of Information Technology Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

Péter Pázmány Catholic University, Department of Information Technology Pitch kontúr előállítása  Fő részfeladatok:- F0 becslése, - zöngésség megállapítása  PDA – Pitch Detector Algorithm: Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani.  VDA – Voicing Detection Algorithm: A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

Péter Pázmány Catholic University, Department of Information Technology Pitch detektorok alkalmazásai  Low-bitrate speech coding: pitch adaptive (pl. GSM)  Speech Synthesis: processing unit inventories  Linguistic analysis, prosody processing  Music: auto-scoring, editing, midi conversion …

Péter Pázmány Catholic University, Department of Information Technology Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást

Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel; w – az elemzett ablak hossza

Péter Pázmány Catholic University, Department of Information Technology Csúcs kiválasztás ACF-en Az elemzett beszédablak:Csúcskeresés az ACF-en:

Péter Pázmány Catholic University, Department of Information Technology Detekciós hiba lehetőségek  Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában. Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén.  Kis hibák: apróbb pontatlanságok az alapfrekvenciában. Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók)  Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

Péter Pázmány Catholic University, Department of Information Technology Examples for ACF

Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza

Péter Pázmány Catholic University, Department of Information Technology Examples for ASDF

Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza

Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: LPC  Csúcsokat keresünk az LPC hibajelben: - ezt pitch-mark kijelölésnek is hívják

Péter Pázmány Catholic University, Department of Information Technology F0 contour with ACF method Applying ACF directly on speech signal: Preproc.

Péter Pázmány Catholic University, Department of Information Technology A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filteringandcenter clipping.

Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level) - a burkoló 40%-a:

Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):

Péter Pázmány Catholic University, Department of Information Technology F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original

Péter Pázmány Catholic University, Department of Information Technology Egy összetett Pitch Detektor struktúrája Preprocesszor Basic Extractor - ACF számítása és elemzése - F0 becslés Bemenő beszédjel Meghallgatható: Ablakozás V/UV döntés Pitch kontúr *

Péter Pázmány Catholic University, Department of Information Technology A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 2: FDA Evaluation Database Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh Database 1: Keele Pitch Database Georg Meyer Keele University

Péter Pázmány Catholic University, Department of Information Technology Beszédfelvétel és laryngográf jel

Péter Pázmány Catholic University, Department of Information Technology Zöngés-zöngétlen átmenet

Péter Pázmány Catholic University, Department of Information Technology Zöngés-zöngétlen átmenet

Péter Pázmány Catholic University, Department of Information Technology Optimization on the database Expected decision error rate in terms of the threshold: Without preprocessor After preprocessor

Péter Pázmány Catholic University, Department of Information Technology Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként. Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%

Péter Pázmány Catholic University, Department of Information Technology Összehasonlítás: Bagshaw (1993):

Péter Pázmány Catholic University, Department of Information Technology Rekedt beszédhang pitch kontúrja:

Péter Pázmány Catholic University, Department of Information Technology Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual 80% eredeti 167% 125% 200%

Péter Pázmány Catholic University, Department of Information Technology

SD Á hang Á hang hibajele