Beszédfelismerés és beszédszintézis Beszédjel-tömörítés

Slides:

Advertisements

Hasonló előadás

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.

Advertisements

T.Gy. Beszedfel Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 7. előadás.

Számvitel S ZÁMVITEL. Számvitel Ormos Mihály, Budapesti Műszaki és Gazdaságtudományi Egyetem, Hol tartunk... Hiányzik egy jól strukturált rendszer.

Számítógépes alapismeretek Kommunikáció Információs és Kommunikációs Technológiák (IKT)

KIÜRÍTÉS. ÁLTALÁNOS ELŐÍRÁSOK A kiürítésre számításba vett útvonalon körforgó, toló, billenő és emelkedő zsalus rendszerű, valamint csak fotocella elven.

Követelményelemzés – követelményspecifikáció A szoftverfejlesztés kapcsán az elemzés speciálisan egy kezdeti szakaszt jelöl, amelynek alapvető feladata.

Hullámmozgás. Hullámmozgás  A lazán felfüggesztett gumiszalagra merőlegesen ráütünk, akkor a gumiszalag megütött része rezgőmozgást végez.

Informatikai rendszerek általános jellemzői 1.Hierarchikus felépítés Rendszer → alrendszer->... → egyedi komponens 2.Az elemi komponensek halmaza absztrakciófüggő.

TEROTECHNOLÓGIA Az állóeszközök újratermelési folyamata.

Kockázat és megbízhatóság

Gazdasági informatika - bevezető

2. előadás Viszonyszámok

Adatbázis normalizálás

Gyűjtőköri szabályzat

Logo Országos Számítástechnikai Tanulmányi Verseny

Vezetékes átviteli közegek

Frekvencia függvényében változó jellemzők mérése

Alhálózat számítás Osztályok Kezdő Kezdete Vége Alapértelmezett CIDR bitek alhálózati maszk megfelelője A /8 B

Becslés gyakorlat november 3.

A FELÜGYELŐBIZOTTSÁG BESZÁMOLÓJA A VSZT

Komplex természettudomány 9.évfolyam

Beck Róbert Fizikus PhD hallgató

A közigazgatással foglalkozó tudományok

Az Európai Uniós csatlakozás könyvtári kihívásai

Kockázat és megbízhatóság

Befektetések II. Dr. Ormos Mihály, Befektetések.

Balaton Marcell Balázs

Az integrált áramkörök (IC-k) típusai és tervezése

Észlelés és egyéni döntéshozatal, tanulás

Kockázat és megbízhatóság

Általános kémia előadás Gyógyszertári asszisztens képzés

RÁDIÓRENDSZEREK Képi jelek Győr.

Becsléselmélet - Konzultáció

Kockázat és megbízhatóság

Követelményelemzés Cél: A rendszer tervezése, a feladatok leosztása.

Korrelációszámítás.

Kockázat és megbízhatóság

Kvantitatív módszerek

A mozgási elektromágneses indukció

Környezeti teljesítményértékelés

Hipotézisvizsgálat.

Gazdaságstatisztika Korreláció- és regressziószámítás II.

Tartalékolás 1.

Varianciaanalízis- ANOVA (Analyze Of VAriance)

Kvantitatív módszerek

Kvantitatív módszerek

Business Mathematics

Regressziós modellek Regressziószámítás.

Számítógépes Hálózatok

STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság

„ Egy hatékony iskolai egészségnevelési program – az egyik legköltséghatékonyabb beruházás, amit egy nép (állam) csak megtehet annak érdekében, hogy párhuzamosan.

Munkanélküliség.

A villamos installáció problémái a tűzvédelem szempontjából

Környezeti Kontrolling

Új pályainformációs eszközök - filmek

A csoportok tanulása, mint a szervezeti tanulás alapja

Szerzője Konzulens neve

2. A KVANTUMMECHANIKA AXIÓMÁI

TÁRGYI ESZKÖZÖK ELSZÁMOLÁSA

SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8

Dr. Varga Beatrix egyetemi docens

Családi vállalkozások

Fizikai kémia 2 – Reakciókinetika

Kísérlettervezés 2018/19.

Tájékoztató az EPER pályázati folyamatáról

Állandó és Változó Nyomású tágulási tartályok és méretezésük

Szöveges adatok tárolása

Háttértárak Merevlemezek.

A program értékelése Kerekasztal beszélgetés

Háttértárak Merevlemezek.

Előadás másolata:

Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 8. előadás T.Gy. Beszed 2016. 04. 05.

Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz? T.Gy. Beszed 2016. 04. 05.

Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed 2016. 04. 05.

Mekkora redundancia van a beszédjelben Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Beszed 2016. 04. 05.

A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s A kb. 50 beszédhang van nyelvenként (angolban kb. 25) 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s T.Gy. Beszed 2016. 04. 05.

Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s T.Gy. Beszed 2016. 04. 05.

Miből fakad a nagyságrendi eltérés? T.Gy. Beszed 2016. 04. 05.

Miből fakad a nagyságrendi eltérés – válaszaim: Amikor én Önök elé állok mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Beszed 2016. 04. 05.

Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszed 2016. 04. 05.

A természetes beszédlánc T.Gy. Beszed 2016. 04. 05.

A beszédhangok folytonos és diszkrét természete T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05.

A nyelvi folyamatok szabályait és háttérismereteit? A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért???? T.Gy. Beszed 2016. 04. 05.

Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed 2016. 04. 05.

Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!. T.Gy. Beszed 2016. 04. 05.

Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Beszed 2016. 04. 05.

"A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05.

Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége T.Gy. Beszed 2016. 04. 05.

(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed 2016. 04. 05.

Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára T.Gy. Beszed 2016. 04. 05.

Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai T.Gy. Beszed 2016. 04. 05.

Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed 2016. 04. 05.

Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában T.Gy. Beszed 2016. 04. 05.

Térfogatsebesség viszonyok a cső végén T.Gy. Beszed 2016. 04. 05.

Térfogatsebesség viszonyok a cső elején T.Gy. Beszed 2016. 04. 05.

A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed 2016. 04. 05.

Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból? T.Gy. Beszed 2016. 04. 05.

Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed 2016. 04. 05.

A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Beszed 2016. 04. 05.

Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05.

A PARCOR eljárás T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05.

Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! T.Gy. Beszed 2016. 04. 05.

Először kiszámoljuk k1-et minden n-re Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | ki |≤1 T.Gy. Beszed 2016. 04. 05.

Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki T.Gy. Beszed 2016. 04. 05.

A beszédtömörítés alapvető modelljei 2013-ban A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05. Audio compression format Creator First public release date Latest stable version Encoder Cost Player Cost AMR-WB 3GPP 2001.4.10 ETSI TS 126 190 V8.0.0 (2009-01) Non-free AMR-WB+ 2004.6.14 ETSI TS 126 290 V8.0.0 (2009-01) apt-X APTX 1989 2007 CELT Xiph.Org Foundation, Jean-Marc Valin 2007.12.8 2000.9.1 Free G.711 ITU-T 1972 (ITU-T standard from 1988) G.711 Appendix II (02/00) G.722 nov.88 G.722.1 szept.99 G.722.1 (05/05) G.723.1 márc.96 G.723.1 (05/06) T.Gy. Beszed 2016. 04. 05.

T.Gy. Beszed 2016. 04. 05. Audio compression format Creator First public release date Latest stable version Encoder Cost Player Cost G.726 ITU-T dec.90 Free G.728 szept.92 Non-free G.729 márc.96 G.729 (01/07) GSM-FR ETSI Special Mobile Group 1990-1994 (ETS 300 580-2) ETSI EN 300 961 V8.1.1 (2000–11) iLBC Global IP Solutions 2002 iSAC ? SILK Skype Limited 2009.1.7 Siren 7 PictureTel Corp. (now Polycom Inc.) 1999 Speex Xiph.Org Foundation, Jean-Marc Valin 2003.3.24 2001.1.12 SVOPC 2007 ? T.Gy. Beszed 2016. 04. 05.