Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04. 1 Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás 2009. 03. 04.

Hasonló előadás


Az előadások a következő témára: "T.Gy. Intrernetes médiakommunikáció. 2009.03. 04. 1 Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás 2009. 03. 04."— Előadás másolata:

1 T.Gy. Intrernetes médiakommunikáció Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás

2 T.Gy. Intrernetes médiakommunikáció Ismétlés Beszéd-kodekek általában GSM beszéd-kodekek SPEEX kodekek

3 T.Gy. Intrernetes médiakommunikáció Alapfogalmak Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal.

4 T.Gy. Intrernetes médiakommunikáció A beszédhangok folytonos és diszkrét természete

5 T.Gy. Intrernetes médiakommunikáció A beszéd szerkezete A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

6 T.Gy. Intrernetes médiakommunikáció Lineári predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

7 T.Gy. Intrernetes médiakommunikáció A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az α i értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

8 T.Gy. Intrernetes médiakommunikáció (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

9 T.Gy. Intrernetes médiakommunikáció Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?

10 T.Gy. Intrernetes médiakommunikáció Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos és nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

11 T.Gy. Intrernetes médiakommunikáció Mekkora redundancia van a beszédjelben? Hány bitet kell átvinni legalább elvileg? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)

12 T.Gy. Intrernetes médiakommunikáció Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: A leggyorsabb beszéd átlagosan kb. 10 fonéma/s A kb. 50 fonéma van nyelvenként (angolban kb. 25) 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt) Eredmény kb. 250 (angolban 125) bit/s (de ez nem tartalmazza a beszélő személyét, hangulatát, a hangsúlyokat stb….)

13 T.Gy. Intrernetes médiakommunikáció Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s (hivatkozott cikk lásd 2. előadás)

14 T.Gy. Intrernetes médiakommunikáció Miből fakad a nagyságrendi eltérés?

15 T.Gy. Intrernetes médiakommunikáció Miből fakad a nagyságrendi eltérés – válaszaim: Amikor én Önök elé állok szerdán délután mit szoktam mondani első mondatban? Mekkora új információt hordoz Önök számára, ha ismét elmondom? A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya???? Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

16 T.Gy. Intrernetes médiakommunikáció Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvaló a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

17 T.Gy. Intrernetes médiakommunikáció Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? A laboratóriumi rendszerek lementek 1 kbit/s alá! Ami az Önök zsebében most ott lapul, az 5,6 kbit/s értéket tudja (half rate codec) Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható.

18 T.Gy. Intrernetes médiakommunikáció Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL Shannon szerinti telefon 13 óra (96000bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) GSM HALF RATE 23 óra 18 perc (5600 bit/s) Laboratóriumi csúcs 23 óra 51 perc 1000bit/s Elvi kiejtési határ 23 óra 58 perc 250 bit/s

19 T.Gy. Intrernetes médiakommunikáció "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s

20 T.Gy. Intrernetes médiakommunikáció

21 T.Gy. Intrernetes médiakommunikáció A GSM rendszer -- áttekintés Nyilvános cellás (analóg) rádiótelefon rendszerek működtek az 1980-as évek elejétől Korlátaik: –sávszélesség pazarlás, –csak a saját hálózaton belül használható egy végberendezés, –nem tudott kialakulni a kritikus tömeg a magas árak miatt…

22 T.Gy. Intrernetes médiakommunikáció A GSM rendszer – áttekintés (2) GSM Memory of Understanding ország megállapodása 1987-ben, hogy kidolgozzák a közös technológiát 1991 július 1-re. A rendszer legyen korszerű, hatékony, tegye lehetővé a bolyongást egész (nyugat) Európában. A végberendezés legyen egységes, az előfizetés SIM kártyához kapcsolódik…. Legyen versenylehetőség országon belül is….. Először szabványosítás, utána gyártás…. Szabványosítás az ETSI keretében… Első változat 6000 oldal!!!!

23 T.Gy. Intrernetes médiakommunikáció A GSM rendszer – áttekintés (3) Az európai megoldás eredménye: –Soha nem látott ütemű fejlődés, –Ma Magyarországon közel 11 millió előfizető (2008. április), –A világon több, mint 2 milliárd GSM előfizető volt 2007 végén –2003-ban kb. 400 millió codec chip készült (több mint napi 1 millió darab!!!!) –Ma csak erről az „apróságról” lesz szó….

24 T.Gy. Intrernetes médiakommunikáció A GSM rendszer – áttekintés (4) Egy GSM terminál funkciói: Hány csip kell ehhez?

25 T.Gy. Intrernetes médiakommunikáció KODEK követelmények Nagy tömörítés (64 kbit/s-ről kb. 10 kbit/s-re) Tisztán digitális rendszer Jó minőség Hibatűrés (a rádiós átvitel sajátosságai miatt) Stabilitás Kis késleltetés (max. 50 ms) Kis fogyasztás Implementálhatóság Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok

26 T.Gy. Intrernetes médiakommunikáció

27 T.Gy. Intrernetes médiakommunikáció GSM KODEK követelmények Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re) Tisztán digitális rendszer Jó minőség Hibatűrés (a rádiós átvitel sajátosságai miatt) Stabilitás Kis késleltetés (max. 50 ms) Kis fogyasztás Implementálhatóság Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok

28 T.Gy. Intrernetes médiakommunikáció GSM Kodek alapjellemzők Mintavételi frekvencia 8kHz Analízis keret 20ms (160 minta) Reflexiós együtthatók száma 8 (prediktor fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással 260 bit/20 ms (13000 bit/s) nettó bitsebesség

29 T.Gy. Intrernetes médiakommunikáció

30 T.Gy. Intrernetes médiakommunikáció

31 T.Gy. Intrernetes médiakommunikáció

32 T.Gy. Intrernetes médiakommunikáció

33 T.Gy. Intrernetes médiakommunikáció Kell-e egy mai mérnöknek CODEC programot írnia? Nem, mert letölthető sok változat, kapható kész chipset!

34 T.Gy. Intrernetes médiakommunikáció

35 T.Gy. Intrernetes médiakommunikáció

36 T.Gy. Intrernetes médiakommunikáció

37 T.Gy. Intrernetes médiakommunikáció

38 T.Gy. Intrernetes médiakommunikáció

39 T.Gy. Intrernetes médiakommunikáció Int. Headquarters ISRAEL AudioCodes Ltd. 1 Hayarden Street, Airport City Lod, (Get Directions)Get Directions Tel: Fax:

40 T.Gy. Intrernetes médiakommunikáció Egyik alapvető kodek termék: AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application.

41 T.Gy. Intrernetes médiakommunikáció AudioCodes’ AC494/5/6/7 Software Specifications Channel Density: Up to 6 channels Voice Coders: G.711, G.723, G.729, G.722.2, iLBC, G.722* Echo CancellerG compliant; Full duplex acoustic EC 3/4 Way Conferencing: 3/4 participants from PSTN or IPPSTN Quality Enhancement: –Voice Activity Detection (VAD), –Comfort Noise Generation (CNG), –Packet Loss Concealment (PLC), –Adaptive Jitter Buffer (up to 300 msec)

42 T.Gy. Intrernetes médiakommunikáció A SPEEX kodek koncepciója A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén. Nem a mobiltelefonok igényét tartották szemelött (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban.

43 T.Gy. Intrernetes médiakommunikáció A SPEEX kodek koncepciója Legyen rugalmas és széles beszédminőség- tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig. A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek. Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen.

44 T.Gy. Intrernetes médiakommunikáció A SPEEX kodek koncepciója A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre. A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps) A kódolás komplexitása is változtatható.

45 T.Gy. Intrernetes médiakommunikáció A SPEEX kodek koncepciója Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki. A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms.

46 T.Gy. Intrernetes médiakommunikáció SPEEX keskenysávú módban

47 T.Gy. Intrernetes médiakommunikáció SPEEX szélessávú módban

48 T.Gy. Intrernetes médiakommunikáció SPEEX kodek elemek - segédelemek Zajcsökkentés Automatikus szintszabályozás (AGC) Beszéddetektálás (VAD) Adaptív buffer Visszhangzár

49 T.Gy. Intrernetes médiakommunikáció Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza a saját hangját)

50 T.Gy. Intrernetes médiakommunikáció A CELP elv

51 T.Gy. Intrernetes médiakommunikáció A CELP eredő gerjesztőjele Ahol: –e(n) - az LPC szintézis szűrőt gerjesztő jel – a predikált periodikus hibajel –C(n) a rögzített kódkönyvtárból vett gerjesztő jel

52 T.Gy. Intrernetes médiakommunikáció Teljes keret elemzés 8 kHz mintavételt feltételezve Egy keret 20 ms – (160 minta) Keretenként számolandók a Line Spectra Pairs (LSP) értékek és global gain (g frame )értékek Az értékek kvantálandók

53 T.Gy. Intrernetes médiakommunikáció Miért nem az LPC együtthatókat kvantáljuk? stabilitási kritérium -- P(z) és Q(z) gyökei az egységkörön vannak és felváltva jönnek fizikai tartalom Vektorkvantálás után elegendő bit az LSP együtthatók kvantált leírására.

54 T.Gy. Intrernetes médiakommunikáció Alkeret elemzés szintézissel (AbS) 8 kHz-es mintavételnél Minden keretet 4 db 5 ms hosszú alkeretre bontunk (40 beszédminta) Az AbS a fő különbség a többi CELP kodekhez képest. A SPEEX egy valós számmal írja le a pitch értéket, de egy háromlépcsős prediktort és 3 pitch gain értéket használ fel az e a (n) kiszámolásához

55 T.Gy. Intrernetes médiakommunikáció

56 T.Gy. Intrernetes médiakommunikáció LSP are more correlated from one frame to the next than LPC. The frame size is 20 msec. There are 50 frames/sec bps is equivalent to 48 bits/frame. These bits are allocated as follows:

57 T.Gy. Intrernetes médiakommunikáció "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s

58 T.Gy. Intrernetes médiakommunikáció Forrás The Speex Codec Manual Version 1.2 Beta 3 Jean-Marc Valin December 8, 2007

59 T.Gy. Intrernetes médiakommunikáció Hasznos linkek sm/gsm.html ort.html Briefs/ chipset.pdf (komplett C nyelvű algoritmus) G S0010


Letölteni ppt "T.Gy. Intrernetes médiakommunikáció. 2009.03. 04. 1 Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás 2009. 03. 04."

Hasonló előadás


Google Hirdetések