T.Gy. Beszedfelism es szint. 2011. 03. 22. 1 Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.

Slides:

Advertisements

Hasonló előadás

Összetett kísérleti tervek és kiértékelésük:

Advertisements

Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009

Készítette: Boros Erzsi

Weblap szerkesztés HTML oldal felépítése Nyitó tag Záró tag Nyitó tag Záró tag oldalfej tözs.

Kvantitatív Módszerek

Erőállóképesség mérése Találjanak teszteket az irodalomban

Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Beszédjelek Házman DIGITÁLIS BESZÉDJEL ÁTVITEL.

Humánkineziológia szak

Műveletek logaritmussal

Elektromos mennyiségek mérése

Kalman-féle rendszer definíció

Koordináta transzformációk

Híranyagok tömörítése

3. Folytonos wavelet transzformáció (CWT)

Utófeszített vasbeton lemez statikai számítása Részletes számítás

Euklidészi gyűrűk Definíció.

A tételek eljuttatása az iskolákba

Mérés és adatgyűjtés laboratóriumi gyakorlat Karakterisztikák mérése 1 Makan Gergely, Mingesz Róbert, Nagy Tamás V

Elektronikai Áramkörök Tervezése és Megvalósítása

A diákat jészítette: Matthew Will

T.Gy. Intrernetes médiakommunikáció Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.

T.Gy. Beszedfel Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 7. előadás.

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás

Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédkodekek Takács György.

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója PARCOR módszerrel és a beszédképzés akusztikus.

Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján

Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:

Darupályák tervezésének alapjai

2007 december Szuhay Péter SPECTRIS Components Kft

Regresszióanalízis 10. gyakorlat.

Ma sok mindenre fény derül! (Optika)

DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.

ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.

Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /

dr. Szalkai István Pannon Egyetem, Veszprém

Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Beszédjelek Spisák 1. példa Beszéd 4,5 s hosszú.

Matematikai alapok és valószínűségszámítás

szakmérnök hallgatók számára

Készítette: Horváth Zoltán (2012)

Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat

MIKROELEKTRONIKA, VIEEA306

13. A zillmerezés, mint bruttó

IV. Terjeszkedés.

IV. Terjeszkedés 2..

A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése

QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.

Analóg digitális átalakítás

T.Gy. Beszedfelism es szint

MIKROELEKTRONIKA, VIEEA306

1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.

Virtuális Méréstechnika Sub-VI és grafikonok 1 Makan Gergely, Vadai Gergely v

Mérés és adatgyűjtés laboratóriumi gyakorlat - levelező Sub-VI és grafikonok 1 Mingesz Róbert V

Kommunikációs Rendszerek

Írja fel a tizes számrendszerbeli

A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.

előadások, konzultációk

1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.

A termelés költségei.

FARKAS VIVIEN. MINTAVÉTELEZÉSI FREKVENCIA  A digitalizálás során használt legfontosabb minőségi tényező a mintavételezési frekvencia, vagy mintavételezési.

Hibaszámítás Gräff József 2014 MechatrSzim.

Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás február 25. Takács György.

Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács György 4. előadás Beszedfelism.

Beszédfelismerés és beszédszintézis Beszédjel-tömörítés

Előadás másolata:

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács György 7. beszédelőadás 1. Internetes média előadás

T.Gy. Beszedfelism es szint Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?

T.Gy. Beszedfelism es szint Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

T.Gy. Beszedfelism es szint Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)

T.Gy. Beszedfelism es szint Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 fonéma/s A kb. 50 fonéma van nyelvenként (angolban kb. 25) 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s

T.Gy. Beszedfelism es szint Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s

T.Gy. Beszedfelism es szint Miből fakad a nagyságrendi eltérés?

T.Gy. Beszedfelism es szint Miből fakad a nagyságrendi eltérés – válaszaim: Amikor én Önök elé állok reggel mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

T.Gy. Beszedfelism es szint Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

T.Gy. Beszedfelism es szint A természetes beszédlánc

T.Gy. Beszedfelism es szint A beszédhangok folytonos és diszkrét természete

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért????

T.Gy. Beszedfelism es szint Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

T.Gy. Beszedfelism es szint Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul, az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!.

T.Gy. Beszedfelism es szint Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL Shannon szerinti telefon 13 óra (96000bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) GSM HALF RATE 23 óra 18 perc (5600 bit/s) Laboratóriumi csúcs 23 óra 51 perc 1000bit/s Elvi kiejtési határ 23 óra 58 perc 250 bit/s

T.Gy. Beszedfelism es szint "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége

T.Gy. Beszedfelism es szint (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

T.Gy. Beszedfelism es szint Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A 0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára

T.Gy. Beszedfelism es szint Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

T.Gy. Beszedfelism es szint Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt:

T.Gy. Beszedfelism es szint Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában

T.Gy. Beszedfelism es szint Térfogatsebesség viszonyok a cső végén

T.Gy. Beszedfelism es szint Térfogatsebesség viszonyok a cső elején

T.Gy. Beszedfelism es szint A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

T.Gy. Beszedfelism es szint Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?

T.Gy. Beszedfelism es szint Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

T.Gy. Beszedfelism es szint A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az α i értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

T.Gy. Beszedfelism es szint Ez a négyzetes hiba az [n 0, n 1 ] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint A PARCOR eljárás

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!

T.Gy. Beszedfelism es szint Először kiszámoljuk k 1 -et minden n-re Majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | k i |≤1

T.Gy. Beszedfelism es szint Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha r i = ─ k i

T.Gy. Beszedfelism es szint A beszédtömörítés alapvető modelljei ben A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.

T.Gy. Beszedfelism es szint