Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaEszter Veresné Megváltozta több, mint 7 éve
1
Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója, PARCOR módszer, akusztikus csőmodell Takács György 4. előadás Beszedfelism és szint
2
Tartalom Ismétlés A lineáris predikció alapelvei
PARCOR módszer a lineáris predikció speciális formája Akusztikus csőmodell Az akusztikus csőmodell és a lineáris predikció kapcsolata Beszedfelism és szint
3
A beszédhangok folytonos és diszkrét természete
Beszedfelism és szint
4
A beszéd szerkezete A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. Beszedfelism és szint
5
Beszedfelism és szint
6
Gerjesztések különböző helyeken Időben változó toldalékcső
válasz Gerjesztések különböző helyeken Időben változó toldalékcső H g(t) v(t) lineáris idővariáns rendszer Beszedfelism és szint
7
Beszédjel spektrális jellemzésének nehézségei
Kezelhető periodikus függvényeknél a Fourier-sor, Egyszeri folyamatoknál a Fourier-integrál, stacionárius sztochasztikus folyamatoknál a spektrális sűrűség (az autokorrelációs függvény Fourier-transzformáltja A beszédjelnek csak rövid szakaszai sorolható be a fenti függvénytípusok valamelyikébe! Nem tudjuk hogyan csinálja a fül!!!! Bizonyosan végez valamifajta spektrális elemzést Csak véges szakaszok feldolgozása lehetséges gépi úton. A periódusidő meghatározása nehéz. Beszedfelism és szint
8
Beszedfelism és szint
9
Beszedfelism és szint
10
Beszedfelism és szint
11
Beszedfelism és szint
12
Beszedfelism és szint
13
Beszedfelism és szint
14
Lineári predikció alapok
A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma Beszedfelism és szint
15
T.Gy. Beszedfelism es szint. 2011.03.01.
válasz Gerjesztések különböző helyeken Időben változó toldalékcső H g(t) v(t) lineáris idővariáns rendszer T.Gy. Beszedfelism es szint Beszedfelism és szint 15
16
A predikció pontatlanságát jellemzi az
predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. Beszedfelism és szint
17
Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik!
A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. Beszedfelism és szint
18
Ebben a modellben bemenet az eredeti beszédminták sorozata és kimenő jel a predikált beszédminták sorozata. Beszedfelism és szint
19
Ebben a modellben bemenet az eredeti beszédminták sorozata és kimenő jel a predikciós hibaminták sorozata. Beszedfelism és szint
20
Ebben a modellben bemenet a pedikciós hibaminták sorozata és kimenő jel az eredeti beszédjel-minták sorozata. Beszedfelism és szint
21
T.Gy. Beszedfelism es szint. 2011.03.01.
válasz Gerjesztések különböző helyeken Időben változó toldalékcső H g(t) v(t) lineáris idővariáns rendszer T.Gy. Beszedfelism es szint Beszedfelism és szint 21
22
Tegyük fel, hogy tudunk a beszédjelre „jó” prediktort csinálni, azaz a hibaminták energiája sokkal kisebb, mint az eredeti beszédminták energiája Melyik állítás igaz? A predikciós együtthatók és a hibaminták együtt teljes pontossággal leírják a beszédjelet. A predikciós együtthatókat és a hibamintákat kvantálva és kódolva tömörített beszédátvitel vagy beszédjel-tárolás lehetséges. A predikciós együtthatók és a hibajel jellemzői tömören és jól leírják a beszédfolyamatot és a beszédszervek működését. Beszedfelism és szint
23
Ezt az elvet használják a GSM és a VoIP rendszerekben!!
Beszedfelism és szint
24
Ezt az elvet használják beszédfelismerőkben, beszédszintetizátorokban
Beszedfelism és szint
25
A predikciós együtthatók kiszámolása a beszédjel mintákból
Adva van a beszédminták sorozata s(0), s(1), ……s(N-1), összesen tehát N minta Keressük predikciós egyenletben szereplő α1, α2, ….. αp predikciós együtthatók olyan értékét, hogy az E négyzetes predikciós hiba minimális legyen Beszedfelism és szint
26
Emlékezzünk a hibajel képletére!
Beszedfelism és szint
27
Beszedfelism és szint
28
Beszedfelism és szint
29
Beszedfelism és szint
30
Beszedfelism és szint
31
Kovarianciamódszer A predikciótól azt kívánjuk meg, hogy az n0=p és n1=N-1 határok között legyen jó! Tehát az első p elemet nem kell jól becsülnie! Beszedfelism és szint
32
Autokorrelációs módszer
A 0≤n≤N-1 indextartományon kívüli jelemeket zérusnak tételezi fel és a hibát n0= - ∞ és n1= + ∞ között értelmezi, A megoldandó egyenletrendszer mátrixa szimmetrikus, a főátlóval párhuzamos átlókban azonos elemet tartalmaz, Az egyenletrendszer felírásához is csak p+1 darab együtthatót kell meghatározni Beszedfelism és szint
33
Beszedfelism és szint
34
Beszedfelism és szint
35
Beszedfelism és szint
36
Beszedfelism és szint
37
Beszedfelism és szint
38
A PARCOR eljárás Beszedfelism és szint
39
Beszedfelism és szint
40
A minimalizálandó visszairányú hiba:
Összevetve az előre irányú hiba egyenleteivel látható, hogy Beszedfelism és szint
41
Az előre irányú predikciónál használt összefüggés
Beszedfelism és szint
42
Saito és Itakura gondolata volt bevezetni az előre és visszairányú hibára együttesen jellemző Wp értéket Beszedfelism és szint
43
Az egyenleteket rendezgetve egy rekurzív formula nyerhető:
Bevezetve az új k változót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! Beszedfelism és szint
44
Beszedfelism és szint
45
Először kiszámoljuk k1-et minden n-re
Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! | ki |≤1 Beszedfelism és szint
46
A szintézismodell stabil, ha | ki |≤1
Beszedfelism és szint
47
Állóhullámú minták egy egyenes csőben: negyedhullámú rezonátorok
A cső zárt a bal végén és nyitott a jobb végén Beszedfelism és szint
48
Állóhullámú minták egy egyenes csőben: félhullámú rezonátorok
A cső zárt mindkét végén A cső nyitott mindkét végén Beszedfelism és szint
49
Beszedfelism és szint
50
Negyedhullámú rezonátor:
Ahol: c - a hang terjedési sebessége (340 m/s) l - a cső hossza (0,17m átlagos férfinél) F1=500, F2=1500, F3=2500 Beszedfelism és szint
51
Félhullámú rezonátor:
Ahol: c - a hang terjedési sebessége (340 m/s) l - a cső hossza (0,17m átlagos férfinél) F1=0, F2=1000, F3=2000 Beszedfelism és szint
52
A beszédkeltés akusztikus csőmodellje
Közelítő feltevések: A csőben a hullámok csak tengelyirányban terjednek (a keresztmetszeti méretek a hullámhosszhoz képest kicsik), A hanghullám visszaverődése a csőfalról veszteségmentes, A toldalékcső csatolásmentes, A csőfalak merevek. Beszedfelism és szint
53
Beszedfelism és szint
54
A közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek:
Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége Beszedfelism és szint
55
További egyszerűsítés a megoldhatóság érdekében: A(x,t)=A0
Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára Beszedfelism és szint
56
Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai
Beszedfelism és szint
57
Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért
A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: Beszedfelism és szint
58
Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok
térfogatsebesség viszonyai folyamatábrában Beszedfelism és szint
59
Térfogatsebesség viszonyok a cső végén
Beszedfelism és szint
60
Térfogatsebesség viszonyok a cső elején
Beszedfelism és szint
61
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization Beszedfelism és szint
62
A toldalékcső modellje egyenletesen felosztott,
állandó keresztmetszetű csőszakaszokkal Beszedfelism és szint
63
Belátható, hogy az alábbi rács struktúrák ekvivalensek…
Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki Beszedfelism és szint
64
A PARCOR eljárás olyan beszédfeldolgozási eszköz, amely
6-20 együtthatóval leírja a beszédjel egy szakaszát, Az együtthatók rekurzív képlettel meghatározhatók, A modell stabilitása garantálható, Az együtthatókból és valamilyen hibajelből a beszédjel előállítható, A csőmodellen keresztül fizikai tartalom rendelhető a modellhez, A csőmodell paraméterei magából a beszédjelből meghatározhatók!!!!! Beszedfelism és szint
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.