Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz előadása alapján
Péter Pázmány Catholic University, Department of Information Technology Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F 0
Péter Pázmány Catholic University, Department of Information Technology Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.
Péter Pázmány Catholic University, Department of Information Technology Pitch is….. “…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale” (American Standards Association, 1960; cited in Moore, 1997) What is the definition of pitch? Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F 0 ) fizikai mennyiség
Péter Pázmány Catholic University, Department of Information Technology Azonos-e a hangmagasság? Egyik hang Másik hang
Péter Pázmány Catholic University, Department of Information Technology
Egyik hang Másik hang
Péter Pázmány Catholic University, Department of Information Technology Time Frequency Tones that have the same repetition rate tend to have the same pitch:
Péter Pázmány Catholic University, Department of Information Technology Melyik hang alapfrekvenciája nagyobb?
Péter Pázmány Catholic University, Department of Information Technology Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.
Péter Pázmány Catholic University, Department of Information Technology Pitch kontúr előállítása Fő részfeladatok:- F0 becslése, - zöngésség megállapítása PDA – Pitch Detector Algorithm: Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. VDA – Voicing Detection Algorithm: A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős
Péter Pázmány Catholic University, Department of Information Technology Pitch detektorok alkalmazásai Low-bitrate speech coding: pitch adaptive (pl. GSM) Speech Synthesis: processing unit inventories Linguistic analysis, prosody processing Music: auto-scoring, editing, midi conversion …
Péter Pázmány Catholic University, Department of Information Technology Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást
Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel; w – az elemzett ablak hossza
Péter Pázmány Catholic University, Department of Information Technology Csúcs kiválasztás ACF-en Az elemzett beszédablak:Csúcskeresés az ACF-en:
Péter Pázmány Catholic University, Department of Information Technology Detekciós hiba lehetőségek Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában. Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. Kis hibák: apróbb pontatlanságok az alapfrekvenciában. Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.
Péter Pázmány Catholic University, Department of Information Technology Examples for ACF
Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza
Péter Pázmány Catholic University, Department of Information Technology Examples for ASDF
Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza
Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))
Péter Pázmány Catholic University, Department of Information Technology Algoritmusok: LPC Csúcsokat keresünk az LPC hibajelben: - ezt pitch-mark kijelölésnek is hívják
Péter Pázmány Catholic University, Department of Information Technology F0 contour with ACF method Applying ACF directly on speech signal: Preproc.
Péter Pázmány Catholic University, Department of Information Technology A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filteringandcenter clipping.
Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:
Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level) - a burkoló 40%-a:
Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:
Péter Pázmány Catholic University, Department of Information Technology A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):
Péter Pázmány Catholic University, Department of Information Technology F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original
Péter Pázmány Catholic University, Department of Information Technology Egy összetett Pitch Detektor struktúrája Preprocesszor Basic Extractor - ACF számítása és elemzése - F0 becslés Bemenő beszédjel Meghallgatható: Ablakozás V/UV döntés Pitch kontúr *
Péter Pázmány Catholic University, Department of Information Technology A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 2: FDA Evaluation Database Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh Database 1: Keele Pitch Database Georg Meyer Keele University
Péter Pázmány Catholic University, Department of Information Technology Beszédfelvétel és laryngográf jel
Péter Pázmány Catholic University, Department of Information Technology Zöngés-zöngétlen átmenet
Péter Pázmány Catholic University, Department of Information Technology Zöngés-zöngétlen átmenet
Péter Pázmány Catholic University, Department of Information Technology Optimization on the database Expected decision error rate in terms of the threshold: Without preprocessor After preprocessor
Péter Pázmány Catholic University, Department of Information Technology Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként. Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%
Péter Pázmány Catholic University, Department of Information Technology Összehasonlítás: Bagshaw (1993):
Péter Pázmány Catholic University, Department of Information Technology Rekedt beszédhang pitch kontúrja:
Péter Pázmány Catholic University, Department of Information Technology Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual 80% eredeti 167% 125% 200%
Péter Pázmány Catholic University, Department of Information Technology
SD Á hang Á hang hibajele