T.Gy. Beszedfelism es szint. 2010. 03. 23. 1 Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédkodekek Takács György.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements


Kamarai prezentáció sablon
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
A társadalmi tényezők hatása a tanulásra
Module 10: Supporting Remote Users távoli felhasználó támogatása.
Mintacím szerkesztése •Mintaszöveg szerkesztése •Második szint •Harmadik szint •Negyedik szint •Ötödik szint D modelling in the terrestrial.
Erőállóképesség mérése Találjanak teszteket az irodalomban
Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Beszédjelek Házman DIGITÁLIS BESZÉDJEL ÁTVITEL.
MATEMATIKA Év eleji felmérés 3. évfolyam
1.A hallàsi rendszer egyszerű: -- nem lineàris (1 dB be 1 dB ki) -- sàvszűrő ~àllandó Q-val ? inhibició, komodulalt takaras leengedese (CMR) -- mindez.
Humánkineziológia szak
Mellár János 5. óra Március 12. v
Műveletek logaritmussal
Elektromos mennyiségek mérése
Az új történelem érettségiről és eredményeiről augusztus Kaposi József.
Műholdas hangátvitel Műholdas kapcsolatrendszer Előadó: Kovács Iván (MR Rt. Külső Közvetítések Osztálya)
Híranyagok tömörítése
Utófeszített vasbeton lemez statikai számítása Részletes számítás
A tételek eljuttatása az iskolákba
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
Mérés és adatgyűjtés Szenzorok II. Mingesz Róbert
Multimédiás technikák 1. kérdés Melyik diszkrét médium? a)hang b)videó c)animáció d)kép.
Ember László XUBUNTU Linux (ami majdnem UBUNTU) Ötödik nekifutás 192 MB RAM és 3 GB HDD erőforrásokkal.
VÁLOGATÁS ISKOLÁNK ÉLETÉBŐL KÉPEKBEN.
Védőgázas hegesztések
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.
T.Gy. Intrernetes médiakommunikáció Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédjel-tömörítés Takács.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédkodekek Takács György 8. beszédelőadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács.
T.Gy. Beszedfel Beszédfelismerés és beszédszintézis Beszédjel-tömörítés Takács György 7. előadás.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója PARCOR módszerrel és a beszédképzés akusztikus.
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
NOVÁK TAMÁS Nemzetközi Gazdaságtan
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
szakmérnök hallgatók számára
2. A KVANTUMMECHANIKA AXIÓMÁI 1. Erwin Schrödinger: Quantisierung als Eigenwertproblem (1926) 2.
Logikai szita Izsó Tímea 9.B.
Az LPQI rész a Partner Az LPQI-VES társfinanszírozója: Dr. Dán András Az MTA doktora, BME VET Meddőenergia kompenzálás elmélete és alkalmazása.
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Confidential1 Panasonic Communications Co., Ltd. Office Network Company 1.0 kiadás május fejezet VoIP DSP kapacitás KX-TDE100/200 Rendszer.
1 BESZÉDFELISMERŐ RENDSZERES ALKALMAZÁSA AZ ÉRDEKKÉPVISELETI MUNKÁBAN (ELŐKÉSZÍTÉS) A STRATOSZ SZÁMÁRA KIDOLGOZOTT VÁLTOZAT Készült a MAT támogatásával,
Csurik Magda Országos Tisztifőorvosi Hivatal
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
Nyitott Kapuk 2010 Beiskolázási kérdőívek értékelése.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Analóg digitális átalakítás
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Kommunikáció a hálózaton Kommunikáció a hálózaton.
> aspnet_regiis -i 8 9 TIPP: Az „Alap” telepítés gyors, nem kérdez, de később korlátozhat.
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
Időbeli redundancia. - Idő -> mozgás Intra-Frames: codiertes Einzelbild Inter-Frames: Differenzbild I-képek: Intra frame coded - csak képkockán belül.
Infokom dec. 8.1 Infocom Systems Infommunikációs rendszerek 13. előadás Next-generation network, VoIP, IPTV Wireless Home Gateway Takács György.
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás február 25. Takács György.
Infokom dec Infocom Systems Infommunikációs rendszerek 13. előadás Next-generation networks and services, VoIP, IPTV, Wireless Home Gateway.
Infocom Systems Infommunikációs rendszerek 13
Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács György 4. előadás Beszedfelism.
XDSL hálózatok tervezése 9. Előadás
Kooperatív Képzés - Avaya
Mérnöki Kamara előadás február 18. Takács György
Előadás másolata:

T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Internetes médiakommunikáció Közös előadás Beszédkodekek Takács György 9. beszédelőadás 2. Internetes média előadás

T.Gy. Beszedfelism es szint Definíció Ismétlés Általános kodek jellemzők G.729 kodek GSM kodek SPEEX kodek Kodek csipek Hallgatói kiegészítés

T.Gy. Beszedfelism es szint CODECS Codecs are used to convert an analog voice signal to digitally encoded version. Codecs vary in the sound quality, the bandwidth required, the computational requirements, etc. Each VoIP service, program, phone, gateway, etc typically supports several different codecs, and when talking to each other, negotiate which codec they will use.

T.Gy. Beszedfelism es szint Minek tömöríteni a beszédjelet – válaszaim: Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). Nagy az árverseny a transzkontinentális összeköttetéseken Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

T.Gy. Beszedfelism es szint Mit várunk a beszédtömörítőktől? Értse amit mondunk – nem! Tudja milyen nyelven beszélünk – nem! A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

T.Gy. Beszedfelism es szint "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s

T.Gy. Beszedfelism es szint

8 (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

T.Gy. Beszedfelism es szint Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

T.Gy. Beszedfelism es szint Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt:

T.Gy. Beszedfelism es szint A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

T.Gy. Beszedfelism es szint Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?

T.Gy. Beszedfelism es szint Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

T.Gy. Beszedfelism es szint A PARCOR eljárás

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint A beszédtömörítés alapvető modelljei ben A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. Az együtthatók kis hibával leírják a beszédjel egy szakaszát. A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint VoIP CODEC Family GIPS Family Kbps and up GSM - 13 Kbps (full rate), 20ms frame size iLBC - 15Kbps,20ms frame size: 13.3 Kbps, 30ms frame size ITU G Kbps, sample-based Also known as alaw/ulaw ITU G /56/64 Kbps ADPCM 7Khz audio bandwidth ITU G /32 Kbps 7Khz audio bandwidth (based on Polycom's SIREN codec) ITU G.722.1C - 32 Kbps, a Polycom extension, 14Khz audio bandwidth ITU G Kbps to 23.85Kbps. Also known as AMR-WB. CELP 7Khz audio bandwidth ITU G /6.3 Kbps, 30ms frame size ITU G /24/32/40 Kbps ITU G Kbps ITU G Kbps, 10ms frame size Speex to 44.2 Kbps LPC Kbps DoD CELP Kbps

T.Gy. Beszedfelism es szint To use G.729 or G you may need to pay a royalty fee!!!!!!!!!! this code is available for you to download for education purposes only!!!!!!!!!!!!

T.Gy. Beszedfelism es szint In VoIP networks, codecs are used to compress regular audio (16 bit signed linear audio, usually sampled at 8000Hz). Codecs are usually `lossy'. This means that the output data does not have to be perfectly identical to the source data, it just has to sound the same when converted to sound. If your VoIP network is on an office LAN and the signal doesn't ever traverse a WAN connection (internet, VPN, DSL, etc), then compression isn't critical. If your VoIP signals may need to traverse a WAN, then you need to compress the signal as much as possible. This allows you to fit more simultaneous phone calls into a single WAN connection. Compression also creates smaller packets. Smaller packets means less audible delay and lower risk of packet loss.

T.Gy. Beszedfelism es szint Many devices offer only 1 or 2 low bit rate codecs, usually G.729 and one other or just G.729. If you have bought phones that only support G.729, then you have little choice. Some gateway providers will only allow you to talk to their gateway with G.729. A good G.729 implementation uses less bandwidth and less CPU power than other low bit rate codecs such as iLBC. G.729 uses 8kbps, iLBC uses 13kbps. Some people have observed their CPU performing up to 50% better when doing G.729 compression compared to iLBC.

T.Gy. Beszedfelism es szint Few phones implement iLBC (one such phone is Budgetone 101 and 102). Many others - Cisco 7940, Snom, Swissvoice - only offer G.729 Most phones offer G.711 (ulaw/alaw) as well - that is actually 64kbps, eight times the bandwidth required by G.729. It is only for use on LANs. G is used for similar reasons to those just listed, but gives the benefit of using even less bandwidth but with a more noticable degradation of sound quality.

T.Gy. Beszedfelism es szint Features of G.729, G.729A & G.729AB Vocoder Compresses 8 kHz CODEC or linear audio data to 8 kbps. Operates on 10ms frames with short algorithm delays. Short-term synthesis filter is based on a 10th order Linear Prediction (LP) filter. Long-term, or pitch synthesis, filter is implemented using the adaptive-code book approach.

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint GSM KODEK követelmények Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re) Tisztán digitális rendszer Jó minőség Hibatűrés (a rádiós átvitel sajátosságai miatt) Stabilitás Kis késleltetés (max. 50 ms) Kis fogyasztás Implementálhatóság Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Kodek alapjellemzők Mintavételi frekvencia 8kHz Analízis keret 20ms (160 minta) Reflexiós együtthatók száma 8 (prediktor fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással 260 bit/20 ms (13000 bit/s) nettó bitsebesség

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Speex is based on CELP and is designed to compress voice at bitrates ranging from 2 to 44 kbps. Some of Speex's features include : Narrowband (8 kHz), wideband (16 kHz), and ultra- wideband (32 kHz) compression in the same bitstream Intensity stereo encoding Packet loss concealment Variable bitrate operation (VBR) Voice Activity Detection (VAD) Discontinuous Transmission (DTX) Fixed-point port Acoustic echo canceller Noise suppression

T.Gy. Beszedfelism es szint A SPEEX kodek koncepciója A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén. Nem a mobiltelefonok igényét tartották szemelőtt (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban.

T.Gy. Beszedfelism es szint A SPEEX kodek koncepciója Legyen rugalmas és széles beszédminőség- tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig. A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek. Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen.

T.Gy. Beszedfelism es szint A SPEEX kodek koncepciója A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre. A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps) A kódolás komplexitása is változtatható.

T.Gy. Beszedfelism es szint A SPEEX kodek koncepciója Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki. A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms.

T.Gy. Beszedfelism es szint SPEEX keskenysávú módban

T.Gy. Beszedfelism es szint SPEEX szélessávú módban

T.Gy. Beszedfelism es szint SPEEX kodek elemek - segédelemek Zajcsökkentés Automatikus szintszabályozás (AGC) Beszéddetektálás (VAD) Adaptív buffer Visszhangzár

T.Gy. Beszedfelism es szint Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza a saját hangját)

T.Gy. Beszedfelism es szint A CELP elv

T.Gy. Beszedfelism es szint A CELP eredő gerjesztőjele Ahol: –e(n) - az LPC szintézis szűrőt gerjesztő jel – a predikált periodikus hibajel –C(n) a rögzített kódkönyvtárból vett gerjesztő jel

T.Gy. Beszedfelism es szint Teljes keret elemzés 8 kHz mintavételt feltételezve Egy keret 20 ms – (160 minta) Keretenként számolandók a Line Spectra Pairs (LSP) értékek és global gain (g frame )értékek Az értékek kvantálandók

T.Gy. Beszedfelism es szint Miért nem az LPC együtthatókat kvantáljuk? stabilitási kritérium -- P(z) és Q(z) gyökei az egységkörön vannak és felváltva jönnek fizikai tartalom Vektorkvantálás után elegendő bit az LSP együtthatók kvantált leírására.

T.Gy. Beszedfelism es szint Alkeret elemzés szintézissel (AbS) 8 kHz-es mintavételnél Minden keretet 4 db 5 ms hosszú alkeretre bontunk (40 beszédminta) Az AbS a fő különbség a többi CELP kodekhez képest. A SPEEX egy valós számmal írja le a pitch értéket, de egy háromlépcsős prediktort és 3 pitch gain értéket használ fel az e a (n) kiszámolásához

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Forrás The Speex Codec Manual Version 1.2 Beta 3 Jean-Marc Valin December 8,

T.Gy. Beszedfelism es szint Kell-e egy mai mérnöknek CODEC programot írnia? Nem, mert letölthető sok változat, kapható kész chipset!

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint

T.Gy. Beszedfelism es szint Int. Headquarters ISRAEL AudioCodes Ltd. 1 Hayarden Street, Airport City Lod, (Get Directions)Get Directions Tel: Fax:

T.Gy. Beszedfelism es szint Egyik alapvető kodek termék: AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application.

T.Gy. Beszedfelism es szint AudioCodes’ AC494/5/6/7 Software Specifications Channel Density: Up to 6 channels Voice Coders: G.711, G.723, G.729, G.722.2, iLBC, G.722* Echo CancellerG compliant; Full duplex acoustic EC 3/4 Way Conferencing: 3/4 participants from PSTN or IPPSTN Quality Enhancement: –Voice Activity Detection (VAD), –Comfort Noise Generation (CNG), –Packet Loss Concealment (PLC), –Adaptive Jitter Buffer (up to 300 msec)

T.Gy. Beszedfelism es szint Hasznos linkek sm/gsm.html ort.html Briefs/ chipset.pdf (komplett C nyelvű algoritmus) G S0010