Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás 2009. február 25. Takács György.

Hasonló előadás


Az előadások a következő témára: "Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás 2009. február 25. Takács György."— Előadás másolata:

1 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás 2009. február 25. Takács György

2 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 2 Alapfogalmak Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal.

3 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 3 Nyelv és beszéd A nyelv az emberi kommunikáció és az emberi gondolkodás legfőbb eszköze A kommunikáció a társadalmi élet és a munkamegosztás alapvető feltétele A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelenség tartozik A beszéd a nyelv elsődleges megnyilvánulása A beszéd útján közvetíthető információ sebessége 15…20 bit/s értéket érhet el. (Webster, J.C.: Information in simple multidimensional speech messages. J.A. S. A. Vol. 33. pp. 940-944.)

4 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 4 Miért különleges információhordozó a beszéd? Sötétben is mindent kifejez… Álmunkban is megértjük….. Kb. 20dB szinttel halkabban elég a nevünket hallani az ébredéshez, mint egyéb szöveget…… Az ember információ befogadó sebessége kb. 50 bit/másodperc!!!!!!!!!! Ebből kb. 2/3 rész a hallás!!!!!!!!!!!! Óriási redundanciája van … a kabaré artikulálatlan hadarását is megértjük, de csak az anyanyelv és a háttérismeretek birtokosai!!!!!!!!!!! A nyelv (beszéd) segítségével szinte minden kifejezhető.

5 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 5 Néhány beszédminta elmélkedésre Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt…..

6 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 6 Beszédhang A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. A beszédhangok a nyelvre jellemzőek! Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet beszédhangokat. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.

7 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 7 A beszédhangok folytonos és diszkrét természete

8 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 8 A beszéd szerkezete A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

9 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 9

10 10

11 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 11

12 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 12 válasz Gerjesztések különböző helyeken Időben változó toldalékcső lineáris idővariáns rendszer H g(t)v(t)

13 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 13 A beszéd, mint lineáris idővariáns rendszer A beszéd, mint akusztikus jelenség egy rendszer bizonyos gerjesztésekre adott válasza Lineáris idővariáns rendszer gerjesztés g(t) válasz v(t)

14 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 14

15 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 15

16 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 16 Formánsok A magánhangzók közelítően vonalas spektrumának burkolója több helyi maximummal rendelkezik. Egy helyi maximumot és környezetét formánsnak nevezzük. Szokásos jelölésük: F1, F2, F3, … FN

17 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 17 Magyar magánhangzók első és második formáns frekvenciái

18 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 18

19 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 19

20 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 20

21 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 21

22 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 22

23 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 23

24 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 24 Felpattanó zárhangok jellemzője A rákövetkező magánhangzó formánsfrekvenciái a megelőző felpattanó zárhangra jellemző módon egy kezdő értékből indulnak ki és érik el a magánhangzóra jellemző állandósult értéket. Legjellemzőbb a második formáns frekvencia kezdőértéke, amelyet a nyelvészeti szakirodalom lokusz-nak nevez.

25 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 25

26 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 26

27 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 27 Lineári predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma

28 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 28 A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az α i értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

29 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 29 Ez a négyzetes hiba az [n 0, n 1 ] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.

30 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 30 Ebben a modellben bemenet az eredeti beszédminták sorozata és kimenő jel a predikált beszédminták sorozata.

31 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 31 Ebben a modellben bemenet az eredeti beszédminták sorozata és kimenő jel a predikciós hibaminták sorozata.

32 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 32 Ebben a modellben bemenet a pedikciós hibaminták sorozata és kimenő jel az eredeti beszédjel-minták sorozata.

33 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 33 Ezt az elvet használják a GSM és a VoIP rendszerekben!!

34 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 34 Ezt az elvet használják beszédfelismerőkben, beszédszintetizátorokban

35 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 35 A predikciós együtthatók kiszámolása a beszédjel mintákból Adva van a beszédminták sorozata s(0), s(1), ……s(N-1), összesen tehát N minta Keressük predikciós egyenletben szereplő α 1, α 2, ….. α p predikciós együtthatók olyan értékét, hogy az E négyzetes predikciós hiba minimális legyen

36 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 36 Kovarianciamódszer A predikciótól azt kívánjuk meg, hogy az n 0 =p és n 1 =N-1 határok között legyen jó! Tehát az első p elemet nem kell jól becsülnie!

37 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 37 Autokorrelációs módszer A 0≤n≤N-1 indextartományon kívüli jelemeket zérusnak tételezi fel és a hibát n 0 = - ∞ és n 1 = + ∞ között értelmezi, A megoldandó egyenletrendszer mátrixa szimmetrikus, a főátlóval párhuzamos átlókban azonos elemet tartalmaz, Az egyenletrendszer felírásához is csak p+1 darab együtthatót kell meghatározni

38 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 38 A PARCOR eljárás

39 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 39

40 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 40 A minimalizálandó visszairányú hiba: Összevetve az előre irányú hiba egyenleteivel látható, hogy

41 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 41 Az előre irányú predikciónál használt összefüggés

42 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 42 Saito és Itakura gondolata volt bevezetni az előre és visszairányú hibára együttesen jellemző Wp értéket

43 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 43 Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Bevezetve az új k változót Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!

44 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 44

45 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 45 Először kiszámoljuk k 1 -et minden n-re Majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | k i |≤1

46 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 46 A beszédkeltés akusztikus csőmodellje Közelítő feltevések: –A toldalékcsőben a hullámok csak tengelyirányban terjednek (a keresztmetszeti méretek a hullámhosszhoz képest kicsik), –A hanghullám visszaverődése a csőfalról veszteségmentes, –A toldalékcső csatolásmentes, –A csőfalak merevek.

47 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 47 (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

48 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 48 Állóhullámú minták egy egyenes csőben: félhullámú rezonátorok A cső zárt mindkét végén A cső nyitott mindkét végén

49 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 49 Állóhullámú minták egy egyenes csőben: negyedhullámú rezonátorok A cső zárt a bal végén és nyitott a jobb végén

50 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 50 A közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége

51 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 51

52 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 52 További egyszerűsítés a megoldhatóság érdekében: A(x,t)=A 0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára

53 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 53 Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

54 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 54 Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt:

55 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 55 Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában

56 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 56 Térfogatsebesség viszonyok a cső végén

57 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 57 Térfogatsebesség viszonyok a cső elején

58 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 58 A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

59 Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 59 Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha r i = ─ k i


Letölteni ppt "Internetes médiakommunkáció TGY 1. előadás intmedkom02_09 1 Internetes médiakommunikáció Beszédfeldolgozás 2009. február 25. Takács György."

Hasonló előadás


Google Hirdetések