Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

T.Gy. Beszedfelism es szint. 2011. 03. 22. 1 Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.

Hasonló előadás


Az előadások a következő témára: "T.Gy. Beszedfelism es szint. 2011. 03. 22. 1 Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács."— Előadás másolata:

1 T.Gy. Beszedfelism es szint. 2011. 03. 22. 1 Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács György 7. beszédelőadás 1. Internetes média előadás 2011. 03. 22.

2 T.Gy. Beszedfelism es szint. 2011. 03. 22. 2 Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?

3 T.Gy. Beszedfelism es szint. 2011. 03. 22. 3 Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

4 T.Gy. Beszedfelism es szint. 2011. 03. 22. 4 Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)

5 T.Gy. Beszedfelism es szint. 2011. 03. 22. 5 Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 fonéma/s A kb. 50 fonéma van nyelvenként (angolban kb. 25) 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s

6 T.Gy. Beszedfelism es szint. 2011. 03. 22. 6 Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s

7 T.Gy. Beszedfelism es szint. 2011. 03. 22. 7 Miből fakad a nagyságrendi eltérés?

8 T.Gy. Beszedfelism es szint. 2011. 03. 22. 8 Miből fakad a nagyságrendi eltérés – válaszaim: Amikor én Önök elé állok reggel mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

9 T.Gy. Beszedfelism es szint. 2011. 03. 22. 9 Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

10 T.Gy. Beszedfelism es szint. 2011. 03. 22. 10 A természetes beszédlánc

11 T.Gy. Beszedfelism es szint. 2011. 03. 22. 11 A beszédhangok folytonos és diszkrét természete

12 T.Gy. Beszedfelism es szint. 2011. 03. 22. 12

13 T.Gy. Beszedfelism es szint. 2011. 03. 22. 13 A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért????

14 T.Gy. Beszedfelism es szint. 2011. 03. 22. 14 Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

15 T.Gy. Beszedfelism es szint. 2011. 03. 22. 15 Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul, az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!.

16 T.Gy. Beszedfelism es szint. 2011. 03. 22. 16 Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL Shannon szerinti telefon 13 óra (96000bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) GSM HALF RATE 23 óra 18 perc (5600 bit/s) Laboratóriumi csúcs 23 óra 51 perc 1000bit/s Elvi kiejtési határ 23 óra 58 perc 250 bit/s

17 T.Gy. Beszedfelism es szint. 2011. 03. 22. 17 "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s

18 T.Gy. Beszedfelism es szint. 2011. 03. 22. 18

19 T.Gy. Beszedfelism es szint. 2011. 03. 22. 19

20 T.Gy. Beszedfelism es szint. 2011. 03. 22. 20 Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége

21 T.Gy. Beszedfelism es szint. 2011. 03. 22. 21 (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

22 T.Gy. Beszedfelism es szint. 2011. 03. 22. 22 Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A 0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára

23 T.Gy. Beszedfelism es szint. 2011. 03. 22. 23 Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

24 T.Gy. Beszedfelism es szint. 2011. 03. 22. 24 Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt:

25 T.Gy. Beszedfelism es szint. 2011. 03. 22. 25 Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában

26 T.Gy. Beszedfelism es szint. 2011. 03. 22. 26 Térfogatsebesség viszonyok a cső végén

27 T.Gy. Beszedfelism es szint. 2011. 03. 22. 27 Térfogatsebesség viszonyok a cső elején

28 T.Gy. Beszedfelism es szint. 2011. 03. 22. 28 A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

29 T.Gy. Beszedfelism es szint. 2011. 03. 22. 29 Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?

30 T.Gy. Beszedfelism es szint. 2011. 03. 22. 30 Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

31 T.Gy. Beszedfelism es szint. 2011. 03. 22. 31 A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az α i értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

32 T.Gy. Beszedfelism es szint. 2011. 03. 22. 32 Ez a négyzetes hiba az [n 0, n 1 ] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.

33 T.Gy. Beszedfelism es szint. 2011. 03. 22. 33

34 T.Gy. Beszedfelism es szint. 2011. 03. 22. 34

35 T.Gy. Beszedfelism es szint. 2011. 03. 22. 35 A PARCOR eljárás

36 T.Gy. Beszedfelism es szint. 2011. 03. 22. 36

37 T.Gy. Beszedfelism es szint. 2011. 03. 22. 37 Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!

38 T.Gy. Beszedfelism es szint. 2011. 03. 22. 38 Először kiszámoljuk k 1 -et minden n-re Majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | k i |≤1

39 T.Gy. Beszedfelism es szint. 2011. 03. 22. 39 Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha r i = ─ k i

40 T.Gy. Beszedfelism es szint. 2011. 03. 22. 40 A beszédtömörítés alapvető modelljei 2010- ben A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.

41 T.Gy. Beszedfelism es szint. 2011. 03. 22. 41


Letölteni ppt "T.Gy. Beszedfelism es szint. 2011. 03. 22. 1 Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács."

Hasonló előadás


Google Hirdetések