Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaRegina Hegedűsné Megváltozta több, mint 6 éve
1
Beszédfelismerés és beszédszintézis Beszédjel-tömörítés
Takács György 8. előadás T.Gy. Beszed
2
Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?
T.Gy. Beszed
3
Minek tömöríteni a beszédjelet – válaszaim:
Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed
4
Mekkora redundancia van a beszédjelben
Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Beszed
5
A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s
Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s A kb. 50 beszédhang van nyelvenként (angolban kb. 25) 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s T.Gy. Beszed
6
Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s
Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s T.Gy. Beszed
7
Miből fakad a nagyságrendi eltérés?
T.Gy. Beszed
8
Miből fakad a nagyságrendi eltérés – válaszaim:
Amikor én Önök elé állok mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Beszed
9
Az emberi információ-feldolgozás egy általános modellje
Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszed
10
A természetes beszédlánc
T.Gy. Beszed
11
A beszédhangok folytonos és diszkrét természete
T.Gy. Beszed
12
T.Gy. Beszed
13
A nyelvi folyamatok szabályait és háttérismereteit?
A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? A nyelvi folyamatok szabályait és háttérismereteit? A beszédkeltés folyamatának kötöttségét? A hallási folyamat megkötöttségeit? Az agyi beszédmegértési folyamat megkötöttségeit? Miért???? T.Gy. Beszed
14
Mit várunk a beszédtömörítőktől?
Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed
15
Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?
A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!. T.Gy. Beszed
16
Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL
GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Beszed
17
"A lathe is a big tool. Grab every dish of sugar."
Eredeti 2400 bit/s T.Gy. Beszed
18
T.Gy. Beszed
19
T.Gy. Beszed
20
Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek:
Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége T.Gy. Beszed
21
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed
22
Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0
Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára T.Gy. Beszed
23
Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai
T.Gy. Beszed
24
Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért
A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed
25
Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok
térfogatsebesség viszonyai folyamatábrában T.Gy. Beszed
26
Térfogatsebesség viszonyok a cső végén
T.Gy. Beszed
27
Térfogatsebesség viszonyok a cső elején
T.Gy. Beszed
28
A toldalékcső modellje egyenletesen felosztott,
állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed
29
Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?
T.Gy. Beszed
30
Lineáris predikció alapok
A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed
31
A predikció pontatlanságát jellemzi az
predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Beszed
32
Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik!
A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. T.Gy. Beszed
33
T.Gy. Beszed
34
T.Gy. Beszed
35
A PARCOR eljárás T.Gy. Beszed
36
T.Gy. Beszed
37
Az egyenleteket rendezgetve egy rekurzív formula nyerhető:
Bevezetve az új k változót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! T.Gy. Beszed
38
Először kiszámoljuk k1-et minden n-re
Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | ki |≤1 T.Gy. Beszed
39
Belátható, hogy az alábbi rács struktúrák ekvivalensek…
Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki T.Gy. Beszed
40
A beszédtömörítés alapvető modelljei 2013-ban
A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed
41
T.Gy. Beszed 2016. 04. 05. Audio compression format Creator
First public release date Latest stable version Encoder Cost Player Cost AMR-WB 3GPP ETSI TS V8.0.0 ( ) Non-free AMR-WB+ ETSI TS V8.0.0 ( ) apt-X APTX 1989 2007 CELT Xiph.Org Foundation, Jean-Marc Valin Free G.711 ITU-T 1972 (ITU-T standard from 1988) G.711 Appendix II (02/00) G.722 nov.88 G.722.1 szept.99 G (05/05) G.723.1 márc.96 G (05/06) T.Gy. Beszed
42
T.Gy. Beszed 2016. 04. 05. Audio compression format Creator
First public release date Latest stable version Encoder Cost Player Cost G.726 ITU-T dec.90 Free G.728 szept.92 Non-free G.729 márc.96 G.729 (01/07) GSM-FR ETSI Special Mobile Group (ETS ) ETSI EN V8.1.1 (2000–11) iLBC Global IP Solutions 2002 iSAC ? SILK Skype Limited Siren 7 PictureTel Corp. (now Polycom Inc.) 1999 Speex Xiph.Org Foundation, Jean-Marc Valin SVOPC 2007 ? T.Gy. Beszed
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.