Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszédfelismerés és beszédszintézis Beszédjel-tömörítés

Hasonló előadás


Az előadások a következő témára: "Beszédfelismerés és beszédszintézis Beszédjel-tömörítés"— Előadás másolata:

1 Beszédfelismerés és beszédszintézis Beszédjel-tömörítés
Takács György 8. előadás T.Gy. Beszed

2 Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?
T.Gy. Beszed

3 Minek tömöríteni a beszédjelet – válaszaim:
Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed

4 Mekkora redundancia van a beszédjelben
Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Beszed

5 A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s
Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s A kb. 50 beszédhang van nyelvenként (angolban kb. 25) 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s T.Gy. Beszed

6 Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s
Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s T.Gy. Beszed

7 Miből fakad a nagyságrendi eltérés?
T.Gy. Beszed

8 Miből fakad a nagyságrendi eltérés – válaszaim:
Amikor én Önök elé állok mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Beszed

9 Az emberi információ-feldolgozás egy általános modellje
Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszed

10 A természetes beszédlánc
T.Gy. Beszed

11 A beszédhangok folytonos és diszkrét természete
T.Gy. Beszed

12 T.Gy. Beszed

13 A nyelvi folyamatok szabályait és háttérismereteit?
A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért???? T.Gy. Beszed

14 Mit várunk a beszédtömörítőktől?
Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed

15 Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?
A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!. T.Gy. Beszed

16 Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL
GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Beszed

17 "A lathe is a big tool. Grab every dish of sugar."
Eredeti 2400 bit/s T.Gy. Beszed

18 T.Gy. Beszed

19 T.Gy. Beszed

20 Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek:
Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége T.Gy. Beszed

21 (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed

22 Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0
Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára T.Gy. Beszed

23 Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai
T.Gy. Beszed

24 Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért
A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed

25 Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok
térfogatsebesség viszonyai folyamatábrában T.Gy. Beszed

26 Térfogatsebesség viszonyok a cső végén
T.Gy. Beszed

27 Térfogatsebesség viszonyok a cső elején
T.Gy. Beszed

28 A toldalékcső modellje egyenletesen felosztott,
állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed

29 Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?
T.Gy. Beszed

30 Lineáris predikció alapok
A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed

31 A predikció pontatlanságát jellemzi az
predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Beszed

32 Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik!
A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. T.Gy. Beszed

33 T.Gy. Beszed

34 T.Gy. Beszed

35 A PARCOR eljárás T.Gy. Beszed

36 T.Gy. Beszed

37 Az egyenleteket rendezgetve egy rekurzív formula nyerhető:
Bevezetve az új k változót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! T.Gy. Beszed

38 Először kiszámoljuk k1-et minden n-re
Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | ki |≤1 T.Gy. Beszed

39 Belátható, hogy az alábbi rács struktúrák ekvivalensek…
Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki T.Gy. Beszed

40 A beszédtömörítés alapvető modelljei 2013-ban
A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed

41 T.Gy. Beszed 2016. 04. 05. Audio compression format Creator
First public release date Latest stable version Encoder Cost Player Cost AMR-WB 3GPP ETSI TS V8.0.0 ( ) Non-free AMR-WB+ ETSI TS V8.0.0 ( ) apt-X APTX 1989 2007 CELT Xiph.Org Foundation, Jean-Marc Valin Free G.711 ITU-T 1972 (ITU-T standard from 1988) G.711 Appendix II (02/00) G.722 nov.88 G.722.1 szept.99 G (05/05) G.723.1 márc.96 G (05/06) T.Gy. Beszed

42 T.Gy. Beszed 2016. 04. 05. Audio compression format Creator
First public release date Latest stable version Encoder Cost Player Cost G.726 ITU-T dec.90 Free G.728 szept.92 Non-free G.729 márc.96 G.729 (01/07) GSM-FR ETSI Special Mobile Group (ETS ) ETSI EN V8.1.1 (2000–11) iLBC Global IP Solutions 2002 iSAC  ? SILK Skype Limited Siren 7 PictureTel Corp. (now Polycom Inc.) 1999 Speex Xiph.Org Foundation, Jean-Marc Valin SVOPC 2007 ? T.Gy. Beszed


Letölteni ppt "Beszédfelismerés és beszédszintézis Beszédjel-tömörítés"

Hasonló előadás


Google Hirdetések