T.Gy. Beszedfel 2013. 03. 20.1 Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 7. előadás.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements


„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Készítette: Boros Erzsi
Kvantitatív Módszerek
Erőállóképesség mérése Találjanak teszteket az irodalomban
Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Beszédjelek Házman DIGITÁLIS BESZÉDJEL ÁTVITEL.
Humánkineziológia szak
Mellár János 5. óra Március 12. v
Műveletek logaritmussal
Elektromos mennyiségek mérése
Koordináta transzformációk
Híranyagok tömörítése
3. Folytonos wavelet transzformáció (CWT)
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Euklidészi gyűrűk Definíció.
A tételek eljuttatása az iskolákba
Mérés és adatgyűjtés laboratóriumi gyakorlat Karakterisztikák mérése 1 Makan Gergely, Mingesz Róbert, Nagy Tamás V
Elektronikai Áramkörök Tervezése és Megvalósítása
A diákat jészítette: Matthew Will
Védőgázas hegesztések
T.Gy. Intrernetes médiakommunikáció Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédkodekek Takács György 8. beszédelőadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédkodekek Takács György.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója PARCOR módszerrel és a beszédképzés akusztikus.
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
Darupályák tervezésének alapjai
2007 december Szuhay Péter SPECTRIS Components Kft
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
Ma sok mindenre fény derül! (Optika)
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
dr. Szalkai István Pannon Egyetem, Veszprém
Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Beszédjelek Spisák 1. példa Beszéd 4,5 s hosszú.
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
Exponenciális egyenletek
A évi demográfiai adatok értékelése
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
MIKROELEKTRONIKA, VIEEA306
Két kvantitatív változó kapcsolatának vizsgálata
IV. Terjeszkedés.
IV. Terjeszkedés 2..
Csurik Magda Országos Tisztifőorvosi Hivatal
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Analóg digitális átalakítás
T.Gy. Beszedfelism es szint
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Virtuális Méréstechnika Sub-VI és grafikonok 1 Makan Gergely, Vadai Gergely v
Mérés és adatgyűjtés laboratóriumi gyakorlat - levelező Sub-VI és grafikonok 1 Mingesz Róbert V
Kvantitatív módszerek
Kommunikációs Rendszerek
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
előadások, konzultációk
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
A termelés költségei.
FARKAS VIVIEN. MINTAVÉTELEZÉSI FREKVENCIA  A digitalizálás során használt legfontosabb minőségi tényező a mintavételezési frekvencia, vagy mintavételezési.
Hibaszámítás Gräff József 2014 MechatrSzim.
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás február 25. Takács György.
Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács György 4. előadás Beszedfelism.
Beszédfelismerés és beszédszintézis Beszédjel-tömörítés
Előadás másolata:

T.Gy. Beszedfel Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 7. előadás

T.Gy. Beszedfel Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?

T.Gy. Beszedfel Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

T.Gy. Beszedfel Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)

T.Gy. Beszedfel Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s A kb. 50 beszédhang van nyelvenként (angolban kb. 25) 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s

T.Gy. Beszedfel Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s

T.Gy. Beszedfel Miből fakad a nagyságrendi eltérés?

T.Gy. Beszedfel Miből fakad a nagyságrendi eltérés – válaszaim: Amikor én Önök elé állok mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

T.Gy. Beszedfel Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

T.Gy. Beszedfel A természetes beszédlánc

T.Gy. Beszedfel A beszédhangok folytonos és diszkrét természete

T.Gy. Beszedfel

T.Gy. Beszedfel A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért????

T.Gy. Beszedfel Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

T.Gy. Beszedfel Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul, az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!.

T.Gy. Beszedfel Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL Shannon szerinti telefon 13 óra (96000bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) GSM HALF RATE 23 óra 18 perc (5600 bit/s) Laboratóriumi csúcs 23 óra 51 perc 1000bit/s Elvi kiejtési határ 23 óra 58 perc 250 bit/s

T.Gy. Beszedfel "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s

T.Gy. Beszedfel

T.Gy. Beszedfel

T.Gy. Beszedfel Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége

T.Gy. Beszedfel (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

T.Gy. Beszedfel Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A 0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára

T.Gy. Beszedfel Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

T.Gy. Beszedfel Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt:

T.Gy. Beszedfel Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában

T.Gy. Beszedfel Térfogatsebesség viszonyok a cső végén

T.Gy. Beszedfel Térfogatsebesség viszonyok a cső elején

T.Gy. Beszedfel A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

T.Gy. Beszedfel Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?

T.Gy. Beszedfel Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

T.Gy. Beszedfel A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az α i értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

T.Gy. Beszedfel Ez a négyzetes hiba az [n 0, n 1 ] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.

T.Gy. Beszedfel

T.Gy. Beszedfel

T.Gy. Beszedfel A PARCOR eljárás

T.Gy. Beszedfel

T.Gy. Beszedfel Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!

T.Gy. Beszedfel Először kiszámoljuk k 1 -et minden n-re Majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | k i |≤1

T.Gy. Beszedfel Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha r i = ─ k i

T.Gy. Beszedfel A beszédtömörítés alapvető modelljei ban A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.

Audio compression format Creator First public release date Latest stable versionEncoder Cost Player Cost AMR-WB3GPP ETSI TS V8.0.0 ( ) Non-free AMR-WB+3GPP ETSI TS V8.0.0 ( ) Non-free apt-XAPTX Non-free CELT Xiph.Org Foundation, Jean-Marc Valin Free G.711ITU-T 1972 (ITU-T standard from 1988) G.711 Appendix II (02/00)Free G.722ITU-Tnov.88 Free G.722.1ITU-Tszept.99G (05/05)Free G.723.1ITU-Tmárc.96G (05/06)Non-free 41T.Gy. Beszedfel

Audio compression format Creator First public release date Latest stable versionEncoder Cost Player Cost G.726ITU-Tdec.90 Free G.728ITU-Tszept.92 Non-free G.729ITU-Tmárc.96G.729 (01/07)Non-free GSM-FR ETSI Special Mobile Group (ETS ) ETSI EN V8.1.1 (2000– 11) Free iLBCGlobal IP Solutions2002 Free iSACGlobal IP Solutions ? Non-free SILK Skype Limited Free Siren 7 PictureTel Corp. (now Polycom Inc.) 1999 Speex Xiph.Org Foundation, Jean-Marc Valin Free SVOPCSkype Limited2007 ?? 42T.Gy. Beszedfel