Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

Slides:



Advertisements
Hasonló előadás
TWS ALAP. TWS Ticker beírása.
Advertisements

Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis.
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Takács György 15. előadás Készítette Feldhoffer Gergely
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Bárdi Tamás doktorandusz.
Mintacím szerkesztése •Mintaszöveg szerkesztése •Második szint •Harmadik szint •Negyedik szint •Ötödik szint D modelling in the terrestrial.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Az elemzés és tervezés módszertana
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
1.A hallàsi rendszer egyszerű: -- nem lineàris (1 dB be 1 dB ki) -- sàvszűrő ~àllandó Q-val ? inhibició, komodulalt takaras leengedese (CMR) -- mindez.
Szintetikus látható beszéd bemutató és megbeszélés Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1083 Budapest, Práter u. 50/a június.
TÖMEG-SPEKTROMETRIA (MS) Irodalom: H.H. Willard et al.: Instrumental methods of Analysis, Wadsworth, Belmont, USA, 1988.
Az ötlettől a projekttervig
Híranyagok tömörítése
A beszéd.
Függvények BMEEPAGA301 Építész informatika 1
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Gazdaságelemzési és Statisztikai Tanszék
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
Hálózattervezés nov XDSL hálózatok tervezése 14. Előadás Takács György.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Hálózattervezés nov XDSL hálózatok tervezése 14. Előadás Takács György.
Adaptív jelfeldolgozás Rádiócsatorna kiegyenlítése
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis.
Önálló laboratórium II május 23.1 Mobiltelefonon futtatható program készítése Hegedűs Iván Mihály Pázmány Péter Katolikus Egyetem Információs.
A virtuális technológia alapjai Dr. Horv á th L á szl ó Budapesti Műszaki Főiskola Neumann János Informatikai Kar, Intelligens Mérnöki Rendszerek.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Lázár István Témavezető: Hajdu András
Zöngétlenedés: beszélőfüggő paraméter? Gráczi Tekla Etelka, MTA Nyelvtudományi Intézet II. Alkalmazott Nyelvészeti Doktorandusz Konferencia, Budapest,
Bevezetés az alakmodellezésbe I. Budapesti Műszaki Főiskola Neumann János Informatikai Főiskolai Kar A Műszaki Tervezés Rendszerei 2000/2001 tanév, I.
A hiba-előjel alapú FxLMS algoritmus analízise Orosz György Konzulensek: Péceli Gábor, Sujbert László Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Méréstechnika.
Hallási illúziók 1 Bőhm Tamás
Slides for Quantum Computing and Communications – An Engineering Approach Chapter 7 Searching in an Unsorted Database Sándor Imre Ferenc Balázs.
Mérnöki tervezés december Hangelemző rendszer fejlesztése Symbian OS-re Hegedűs Iván Mihály Pázmány Péter Katolikus Egyetem Információs Technológiai.
Akusztikai mérések Sztahó Dávid
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás GY. – 02.
Spike Sorting Solutions Csercsa Richárd Magony Andor.
From eco-efficiency to sustainable production Maria Csutora Pietro Bertazzi The workshop is based on research done in the HU-0056 “Sustainable consumption,
Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
Spektrum, FFT, hangok Beszédinformációs rendszerek, 2. gyakorlat
Beszédinformációs rendszerek Szegmentális és szupraszegmentális elemek a beszédtechnológiában.
Ismétlés. "Man - a being in search of meaning." Plato Searching in an Unsorted Database.
A cél-meghatározási, projektdefiniálási fázis Készítette: Szentirmai Róbert (minden jog fenntartva)
„Tisztább kép” – együttműködési program Az új szintetikus drogok feltérképezéséért 2 nd European Workshop – ’Breaking the Drug Cycle’ project Budapest,
Adaptív jelfeldolgozás Rádiócsatorna kiegyenlítése
Az ötlettől a projekttervig
Tervezés I. Belsőtér BME-VIK.
XDSL hálózatok tervezése 9. Előadás
Miklós Kóbor Department of Geophysics & Space Sciences,
Agyi elektródák felületmódosítása
FAZEKAS ANDRÁS ISTVÁN PhD c. egyetemi docens
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Vasas Lívia, PhD 2017 DART-Europe E-theses Portal European Portal for the discovery.
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Mikrofonok Principles, constructions, characteristics and applications
A Box-Jenkins féle modellek
Basic notions of acoustics
Segédlet a Kommunikáció-akusztika tanulásához VIHIAV 035
Basic nositons of hearing and psychoacousics
Acf, pacf, arima, arfima.
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Geometriai Algoritmusok
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Előadás másolata:

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Bárdi Tamás doktorandusz előadása alapján Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F0

Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

What is the definition of pitch? Pitch is….. “…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale” (American Standards Association, 1960; cited in Moore, 1997) Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F0) fizikai mennyiség

Azonos-e a hangmagasság? Egyik hang Másik hang

Egyik hang Másik hang

Tones that have the same repetition rate tend to have the same pitch: Time Frequency

Melyik hang alapfrekvenciája nagyobb?

Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

Pitch kontúr előállítása Fő részfeladatok: - F0 becslése, - zöngésség megállapítása PDA – Pitch Detector Algorithm: Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. VDA – Voicing Detection Algorithm: A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

Pitch detektorok alkalmazásai Low-bitrate speech coding: pitch adaptive (pl. GSM) Speech Synthesis: processing unit inventories Linguistic analysis, prosody processing Music: auto-scoring, editing, midi conversion …

Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást

Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel; w – az elemzett ablak hossza

Csúcs kiválasztás ACF-en Az elemzett beszédablak: Csúcskeresés az ACF-en:

Detekciós hiba lehetőségek Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában. Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. Kis hibák: apróbb pontatlanságok az alapfrekvenciában. Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

Examples for ACF

Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza

Examples for ASDF

Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel; w – az elemzett ablak hossza

Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

Algoritmusok: LPC Csúcsokat keresünk az LPC hibajelben: - ezt pitch-mark kijelölésnek is hívják

F0 contour with ACF method Applying ACF directly on speech signal: Preproc.

A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filtering and center clipping.

A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level) - a burkoló 40%-a:

A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):

F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original

Egy összetett Pitch Detektor struktúrája Bemenő beszédjel Preprocesszor Meghallgatható: Ablakozás Basic Extractor - ACF számítása és elemzése - F0 becslés * V/UV döntés Pitch kontúr

A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 1: Keele Pitch Database Georg Meyer Keele University Database 2: FDA Evaluation Database Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh

Beszédfelvétel és laryngográf jel

Zöngés-zöngétlen átmenet

Zöngés-zöngétlen átmenet

Optimization on the database Expected decision error rate in terms of the threshold: Without preprocessor After preprocessor

Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként. Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%

Összehasonlítás: Bagshaw (1993):

Rekedt beszédhang pitch kontúrja:

Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual eredeti 80% 125% 167% 200%

SD Á hang Á hang hibajele