Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaErvin Dudás Megváltozta több, mint 9 éve
1
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás 2009. február 25. Takács György
2
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 2 Alapfogalmak Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal.
3
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 3 Nyelv és beszéd A nyelv az emberi kommunikáció és az emberi gondolkodás legfőbb eszköze A kommunikáció a társadalmi élet és a munkamegosztás alapvető feltétele A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelenség tartozik A beszéd a nyelv elsődleges megnyilvánulása A beszéd útján közvetíthető információ sebessége 15…20 bit/s értéket érhet el. (Webster, J.C.: Information in simple multidimensional speech messages. J.A. S. A. Vol. 33. pp. 940-944.)
4
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 4 Miért különleges információhordozó a beszéd? Sötétben is mindent kifejez… Álmunkban is megértjük….. Kb. 20dB szinttel halkabban elég a nevünket hallani az ébredéshez, mint egyéb szöveget…… Az ember információ befogadó sebessége kb. 50 bit/másodperc!!!!!!!!!! Ebből kb. 2/3 rész a hallás!!!!!!!!!!!! Óriási redundanciája van … a kabaré artikulálatlan hadarását is megértjük, de csak az anyanyelv és a háttérismeretek birtokosai!!!!!!!!!!! A nyelv (beszéd) segítségével szinte minden kifejezhető.
5
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 5 Néhány beszédminta elmélkedésre Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt…..
6
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 6 Beszédhang A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. A beszédhangok a nyelvre jellemzőek! Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet beszédhangokat. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.
7
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 7 A beszédhangok folytonos és diszkrét természete
8
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 8 A beszéd szerkezete A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.
9
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 9
10
10
11
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 11
12
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 12 válasz Gerjesztések különböző helyeken Időben változó toldalékcső lineáris idővariáns rendszer H g(t)v(t)
13
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 13 A beszéd, mint lineáris idővariáns rendszer A beszéd, mint akusztikus jelenség egy rendszer bizonyos gerjesztésekre adott válasza Lineáris idővariáns rendszer gerjesztés g(t) válasz v(t)
14
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 14
15
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 15
16
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 16 Formánsok A magánhangzók közelítően vonalas spektrumának burkolója több helyi maximummal rendelkezik. Egy helyi maximumot és környezetét formánsnak nevezzük. Szokásos jelölésük: F1, F2, F3, … FN
17
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 17 Magyar magánhangzók első és második formáns frekvenciái
18
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 18
19
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 19
20
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 20
21
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 21
22
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 22
23
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 23
24
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 24 Felpattanó zárhangok jellemzője A rákövetkező magánhangzó formánsfrekvenciái a megelőző felpattanó zárhangra jellemző módon egy kezdő értékből indulnak ki és érik el a magánhangzóra jellemző állandósult értéket. Legjellemzőbb a második formáns frekvencia kezdőértéke, amelyet a nyelvészeti szakirodalom lokusz-nak nevez.
25
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 25
26
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 26
27
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 27 Lineári predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma
28
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 28 A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az α i értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.
29
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 29 Ez a négyzetes hiba az [n 0, n 1 ] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.
30
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 30 Ebben a modellben bemenet az eredeti beszédminták sorozata és kimenő jel a predikált beszédminták sorozata.
31
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 31 Ebben a modellben bemenet az eredeti beszédminták sorozata és kimenő jel a predikciós hibaminták sorozata.
32
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 32 Ebben a modellben bemenet a pedikciós hibaminták sorozata és kimenő jel az eredeti beszédjel-minták sorozata.
33
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 33 Ezt az elvet használják a GSM és a VoIP rendszerekben!!
34
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 34 Ezt az elvet használják beszédfelismerőkben, beszédszintetizátorokban
35
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 35 A predikciós együtthatók kiszámolása a beszédjel mintákból Adva van a beszédminták sorozata s(0), s(1), ……s(N-1), összesen tehát N minta Keressük predikciós egyenletben szereplő α 1, α 2, ….. α p predikciós együtthatók olyan értékét, hogy az E négyzetes predikciós hiba minimális legyen
36
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 36 Kovarianciamódszer A predikciótól azt kívánjuk meg, hogy az n 0 =p és n 1 =N-1 határok között legyen jó! Tehát az első p elemet nem kell jól becsülnie!
37
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 37 Autokorrelációs módszer A 0≤n≤N-1 indextartományon kívüli jelemeket zérusnak tételezi fel és a hibát n 0 = - ∞ és n 1 = + ∞ között értelmezi, A megoldandó egyenletrendszer mátrixa szimmetrikus, a főátlóval párhuzamos átlókban azonos elemet tartalmaz, Az egyenletrendszer felírásához is csak p+1 darab együtthatót kell meghatározni
38
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 38 A PARCOR eljárás
39
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 39
40
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 40 A minimalizálandó visszairányú hiba: Összevetve az előre irányú hiba egyenleteivel látható, hogy
41
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 41 Az előre irányú predikciónál használt összefüggés
42
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 42 Saito és Itakura gondolata volt bevezetni az előre és visszairányú hibára együttesen jellemző Wp értéket
43
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 43 Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!
44
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 44
45
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 45 Először kiszámoljuk k 1 -et minden n-re Majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | k i |≤1
46
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 46 A beszédkeltés akusztikus csőmodellje Közelítő feltevések: –A toldalékcsőben a hullámok csak tengelyirányban terjednek (a keresztmetszeti méretek a hullámhosszhoz képest kicsik), –A hanghullám visszaverődése a csőfalról veszteségmentes, –A toldalékcső csatolásmentes, –A csőfalak merevek.
47
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 47 (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization
48
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 48 Állóhullámú minták egy egyenes csőben: félhullámú rezonátorok A cső zárt mindkét végén A cső nyitott mindkét végén
49
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 49 Állóhullámú minták egy egyenes csőben: negyedhullámú rezonátorok A cső zárt a bal végén és nyitott a jobb végén
50
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 50 A közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége
51
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 51
52
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 52 További egyszerűsítés a megoldhatóság érdekében: A(x,t)=A 0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára
53
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 53 Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai
54
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 54 Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt:
55
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 55 Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában
56
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 56 Térfogatsebesség viszonyok a cső végén
57
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 57 Térfogatsebesség viszonyok a cső elején
58
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 58 A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal
59
Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 59 Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha r i = ─ k i
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.