Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 8. előadás T.Gy. Beszed 2016. 04. 05.
Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz? T.Gy. Beszed 2016. 04. 05.
Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed 2016. 04. 05.
Mekkora redundancia van a beszédjelben Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Beszed 2016. 04. 05.
A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s A kb. 50 beszédhang van nyelvenként (angolban kb. 25) 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s T.Gy. Beszed 2016. 04. 05.
Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s T.Gy. Beszed 2016. 04. 05.
Miből fakad a nagyságrendi eltérés? T.Gy. Beszed 2016. 04. 05.
Miből fakad a nagyságrendi eltérés – válaszaim: Amikor én Önök elé állok mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Beszed 2016. 04. 05.
Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszed 2016. 04. 05.
A természetes beszédlánc T.Gy. Beszed 2016. 04. 05.
A beszédhangok folytonos és diszkrét természete T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05.
A nyelvi folyamatok szabályait és háttérismereteit? A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért???? T.Gy. Beszed 2016. 04. 05.
Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed 2016. 04. 05.
Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!. T.Gy. Beszed 2016. 04. 05.
Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Beszed 2016. 04. 05.
"A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05.
Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége T.Gy. Beszed 2016. 04. 05.
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed 2016. 04. 05.
Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára T.Gy. Beszed 2016. 04. 05.
Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai T.Gy. Beszed 2016. 04. 05.
Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed 2016. 04. 05.
Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában T.Gy. Beszed 2016. 04. 05.
Térfogatsebesség viszonyok a cső végén T.Gy. Beszed 2016. 04. 05.
Térfogatsebesség viszonyok a cső elején T.Gy. Beszed 2016. 04. 05.
A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed 2016. 04. 05.
Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból? T.Gy. Beszed 2016. 04. 05.
Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed 2016. 04. 05.
A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Beszed 2016. 04. 05.
Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05.
A PARCOR eljárás T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05.
Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! T.Gy. Beszed 2016. 04. 05.
Először kiszámoljuk k1-et minden n-re Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | ki |≤1 T.Gy. Beszed 2016. 04. 05.
Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki T.Gy. Beszed 2016. 04. 05.
A beszédtömörítés alapvető modelljei 2013-ban A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05. Audio compression format Creator First public release date Latest stable version Encoder Cost Player Cost AMR-WB 3GPP 2001.4.10 ETSI TS 126 190 V8.0.0 (2009-01) Non-free AMR-WB+ 2004.6.14 ETSI TS 126 290 V8.0.0 (2009-01) apt-X APTX 1989 2007 CELT Xiph.Org Foundation, Jean-Marc Valin 2007.12.8 2000.9.1 Free G.711 ITU-T 1972 (ITU-T standard from 1988) G.711 Appendix II (02/00) G.722 nov.88 G.722.1 szept.99 G.722.1 (05/05) G.723.1 márc.96 G.723.1 (05/06) T.Gy. Beszed 2016. 04. 05.
T.Gy. Beszed 2016. 04. 05. Audio compression format Creator First public release date Latest stable version Encoder Cost Player Cost G.726 ITU-T dec.90 Free G.728 szept.92 Non-free G.729 márc.96 G.729 (01/07) GSM-FR ETSI Special Mobile Group 1990-1994 (ETS 300 580-2) ETSI EN 300 961 V8.1.1 (2000–11) iLBC Global IP Solutions 2002 iSAC ? SILK Skype Limited 2009.1.7 Siren 7 PictureTel Corp. (now Polycom Inc.) 1999 Speex Xiph.Org Foundation, Jean-Marc Valin 2003.3.24 2001.1.12 SVOPC 2007 ? T.Gy. Beszed 2016. 04. 05.