Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

Hasonló előadás


Az előadások a következő témára: "Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -"— Előadás másolata:

1 Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
Bárdi Tamás doktorandusz előadása alapján Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

2 Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F0

3 Gerjesztés típusok a beszédben
Alapfrekvenciát csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

4 What is the definition of pitch?
Pitch is….. “…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale” (American Standards Association, 1960; cited in Moore, 1997) Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F0) fizikai mennyiség

5 Azonos-e a hangmagasság?
Egyik hang Másik hang

6

7 Egyik hang Másik hang

8 Tones that have the same repetition rate tend to have the same pitch:
Time Frequency

9 Melyik hang alapfrekvenciája nagyobb?

10 Miért érdekes az alapfrekvencia?
A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

11 Pitch kontúr előállítása
Fő részfeladatok: - F0 becslése, zöngésség megállapítása PDA – Pitch Detector Algorithm: Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. VDA – Voicing Detection Algorithm: A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

12 Pitch detektorok alkalmazásai
Low-bitrate speech coding: pitch adaptive (pl. GSM) Speech Synthesis: processing unit inventories Linguistic analysis, prosody processing Music: auto-scoring, editing, midi conversion …

13 Hogyan áll össze egy pitch kontúr
Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást

14 Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény):
s(t) – a beszédjel; w – az elemzett ablak hossza

15 Csúcs kiválasztás ACF-en
Az elemzett beszédablak: Csúcskeresés az ACF-en:

16 Detekciós hiba lehetőségek
Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában. Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. Kis hibák: apróbb pontatlanságok az alapfrekvenciában. Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

17 Examples for ACF

18 Algoritmusok: ASDF Average Squared Difference Function:
s(t) – a beszédjel; w – az elemzett ablak hossza

19 Examples for ASDF

20 Algoritmusok: AMDF Average Magnitude Difference Function:
s(t) – a beszédjel; w – az elemzett ablak hossza

21 Algoritmusok: Cepstrum
Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

22 Algoritmusok: LPC Csúcsokat keresünk az LPC hibajelben: - ezt pitch-mark kijelölésnek is hívják

23 F0 contour with ACF method
Applying ACF directly on speech signal: Preproc.

24 A beszédjel célszerű torzításával csökkenthetjük a hibák arányát
My preprocessor is a combination of low-pass filtering and center clipping.

25 A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

26 A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level) - a burkoló 40%-a:

27 A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

28 A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):

29 F0 contour with ACF method
Applying ACF after preprocessing the speech signal: Original

30 Egy összetett Pitch Detektor struktúrája
Bemenő beszédjel Preprocesszor Meghallgatható: Ablakozás Basic Extractor - ACF számítása és elemzése - F0 becslés * V/UV döntés Pitch kontúr

31 A kiértékelés adatbázisa
Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 1: Keele Pitch Database Georg Meyer Keele University Database 2: FDA Evaluation Database Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh

32 Beszédfelvétel és laryngográf jel

33 Zöngés-zöngétlen átmenet

34 Zöngés-zöngétlen átmenet

35 Optimization on the database
Expected decision error rate in terms of the threshold: Without preprocessor After preprocessor

36 Zöngés/zöngétlen megkülönböztetés:
A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként. Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%

37 Összehasonlítás: Bagshaw (1993):

38 Rekedt beszédhang pitch kontúrja:

39 Hangmagasság módosítása
Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual eredeti 80% 125% 167% 200%

40 SD Á hang Á hang hibajele

41


Letölteni ppt "Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -"

Hasonló előadás


Google Hirdetések