Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

Slides:



Advertisements
Hasonló előadás
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz.
Advertisements

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis.
A kollektív munkajogi szabályozás az új munka törvénykönyvében.
Lorem ipsum dolor sit amet, consectetur Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore Közlekedési.
A családsegítő és gyermekjóléti szolgálatokat érintő változások A család és gyermekjóléti szolgáltatás.
Hogyan készüljünk a francia nyelvi érettségi változásaira?
TÖMÖRÍTÉS. Fogalma A tömörítés egy olyan eljárás, amelynek segítségével egy fájlból egy kisebb fájl állítható elő. A tömörítési arány függ a fájl típusától,
A szoftver mint komplex rendszer (folyt.) A SunTone módszertan 3 dimenziós osztályozási sémája kifinomultabb osztályozást tesz lehetővé.
Manhertz Gábor; Raj Levente Tanársegéd; Tanszéki mérnök Budapesti Műszaki és Gazdaságtudományi Egyetem Mechatronika, Optika és Gépészeti Informatika Tanszék.
Manhertz Gábor; Raj Levente Tanársegéd; Tanszéki mérnök Budapesti Műszaki és Gazdaságtudományi Egyetem Mechatronika, Optika és Gépészeti Informatika Tanszék.
1 Az önértékelés mint projekt 6. előadás 1 2 Az előadás tartalmi elemei  A projekt fogalma  A projektek elemei  A projekt szervezete  Projektfázisok.
Hullámmozgás. Hullámmozgás  A lazán felfüggesztett gumiszalagra merőlegesen ráütünk, akkor a gumiszalag megütött része rezgőmozgást végez.
Vetésforgó tervezése és kivitelezése. Vetésforgó Vetésterv növényi sorrend kialakításához őszi búza250 ha őszi árpa50 ha lucerna ebből új telepítés 300.
Grafológia. Tű Valéria 7.b Homola Melinda 6.a Jánoska Dorina 5.a.
TEROTECHNOLÓGIA Az állóeszközök újratermelési folyamata.
Piaci formák Piaci résztvevők száma Termék jellege sok kevés egy
Számítógépes szimuláció
EN 1993 Eurocode 3: Acélszerkezetek tervezése
A kérdőívek, a kérdőívszerkesztés szabályai
PANNON-LNG Projekt Tanulmány LNG lehetséges hazai előállításának
2. előadás Viszonyszámok
Gyűjtőköri szabályzat
1. témazáró előkészítése
Összeállította: Horváth Józsefné
Programstruktúrák.
Quality 4 Children: a minőségi gyermekgondozás sztenderdjei az európai családon kívüli gondozásban.
videós team Team vezetője: Tariné Péter Judit Tagok:
Az erő fogalma. Az erő fogalma Mozgásállapot-változásról akkor beszélünk, ha megváltozik egy test mozgásának sebessége, mozgásának iránya vagy mindkettő.
MTMT szervezeti hierarchia kialakítása a Széchenyi István Egyetemen
Kockázat és megbízhatóság
T.R. Adatbázis-kezelés - Alapfogalmak Adatbázis:
Követelményelemzés Cél: A rendszer tervezése, a feladatok leosztása.
Korrelációszámítás.
Algoritmusok és Adatszerkezetek I.
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
A naptevékenységi ciklus vizsgálata a zöld koronavonal alapján
Az energiamérlegünk torzulásai és javítási lehetőségei
10. A MAGÁNHANGZÓK ÉS MÁSSALHANGZÓK RENDSZERE, A HANGTÖRVÉNYEK ÉS HELYESÍRÁSUK.
VÁRATLAN MŰSZAKI ESEMÉNYEK
A PDCA elv alkalmazása az információvédelmi irányítási rendszerekben 1
KINEMATIKA (MOZGÁSTAN).
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Business Mathematics
Standardizálás.
Regressziós modellek Regressziószámítás.
A rendszeres gyógyszerszedők aránya %
Quality 4 Children: a minőségi gyermekgondozás sztenderdjei az európai családon kívüli gondozásban.
CONTROLLING ÉS TELJESÍTMÉNYMENEDZSMENT DEBRECENI EGYETEM
Tilk Bence Konzulens: Dr. Horváth Gábor
RUGÓK.
Cash flow A vállalat működése, befektetései és pénzügyi tevékenysége által genarált pénzáramlásokat tartalmazó kimutatás. Az eredménykimutatásban és a.
Önköltségszámítás.
Tevékenységünk Célunk P92rdi Kft - p92rdi.hu Kutatás (Research)
Szervezet-fejlesztés
KÖFOP VEKOP A közszolgáltatás komplex kompetencia, életpálya-program és oktatás technológiai fejlesztése Az értékelési szempontok.
Alkalmazott statisztikai alapok
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
Föderalizmus és decentralizáció kutatás svájci–magyar együttműködésben
A hallás és a pszichoakusztika alapfogalmai
KRÉTA-ESL Bemutató.
Dr. Vasas Lívia, PhD december
Bemeneti kompetenciamérés 2007/2008 tanév
Tájékoztató az EPER pályázati folyamatáról
Szállításszervezési módszerek Járattípusok 1
Az MKET új stratégiája – Szolgáltató MKET
A program értékelése Kerekasztal beszélgetés
Üzlezi információelemző specializió
A statisztikus elemző specializió
Intuitív szakértői módszerek
Előadás másolata:

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Beszédfelismerés és szintézis - előadás - 2007. március 8. Bárdi Tamás Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F0

Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

What is the definition of pitch? Pitch is….. “…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale” (American Standards Association, 1960; cited in Moore, 1997) Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F0) fizikai mennyiség

Tones that have the same repetition rate tend to have the same pitch: Time Frequency

Melyik hang alapfrekvenciája nagyobb?

Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

Pitch kontúr előállítása Fő részfeladatok: - F0 becslése, - zöngésség megállapítása PDA – Pitch Detector Algorithm: Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. VDA – Voicing Detection Algorithm: A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

Pitch detektorok alkalmazásai Low-bitrate speech coding: pitch adaptive (pl. GSM) Speech Synthesis: processing unit inventories Linguistic analysis, prosody processing Music: auto-scoring, editing, midi conversion …

Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást

Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel; w – az elemzett ablak hossza

Csúcs kiválasztás ACF-en Az elemzett beszédablak: Csúcskeresés az ACF-en:

Detekciós hiba lehetőségek Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában. Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. Kis hibák: apróbb pontatlanságok az alapfrekvenciában. Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

Examples for ACF

Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza

Examples for ASDF

Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza

Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

Algoritmusok: LPC Csúcsokat keresünk az LPC hibajelben: - ezt pitch-mark kijelölésnek is hívják

F0 contour with ACF method Applying ACF directly on speech signal: Preproc.

A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filtering and center clipping.

A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level) - a burkoló 40%-a:

A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):

F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original

Egy összetett Pitch Detektor struktúrája Bemenő beszédjel Preprocesszor Meghallgatható: Ablakozás Basic Extractor - ACF számítása és elemzése - F0 becslés * V/UV döntés Pitch kontúr

A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 1: Keele Pitch Database Georg Meyer Keele University Database 2: FDA Evaluation Database Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh

Beszédfelvétel és laryngográf jel

Zöngés-zöngétlen átmenet

Zöngés-zöngétlen átmenet

Optimization on the database Expected decision error rate in terms of the threshold: Without preprocessor After preprocessor

Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként. Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%

Összehasonlítás: Bagshaw (1993):

Rekedt beszédhang pitch kontúrja:

Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual eredeti 80% 125% 167% 200%

Köszönöm a figyelmet