Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

M2: Jelek és kódolás M3: Hangtechnika.

Hasonló előadás


Az előadások a következő témára: "M2: Jelek és kódolás M3: Hangtechnika."— Előadás másolata:

1 M2: Jelek és kódolás M3: Hangtechnika

2 Hangtechnika

3 Hangtechnika Emberi hallás Hangtechnika Hangfájl formátumok

4 Hangtechnika A multimédiás információs rendszerek első lényeges és technikailag egyszerűen megvalósítható eleme a hangok, zajok, hanghatások, mindenekelőtt a beszéd és zene visszaadásának lehetősége, amit összefoglaló néven audio- vagy hangtechnikának nevezünk.

5 Hanghatások segítségével a számítógépes programok vonzóbbak lesznek.

6 Hangtani alapismeretek
A hang hosszanti hullámokban terjedő mechanikus rezgés

7 Hangtani alapismeretek
A multimédia rendszerek számára csak a hallható hangok tartományával érdemes foglalkoznunk.

8 Hangtani alapismeretek
A hangtan (akusztika) a mechanikus rezgések (hangok) tudománya. Levegőben a hang 1200 km/h (330 m/s) sebességgel terjed, ami 1 machnak felel meg (tengerszinten).

9 Hangtani alapismeretek
Az akusztikai jelek azok a nyomáshullám-váltakozások (hangnyomás-változások), amelyek szilárd testekben, folyadékokban, és gázokban képesek terjedni. Vákuumban az akusztikai jelek nem terjednek.

10 Hangtani alapismeretek
A hang (audio, latinul audire = "hallani") a hanghullámok frekvenciatartományába tartozó akusztikai jelek, például a zajok, csengések, vagy zene gyűjtőfogalma. Ide tartozik az emberi beszéd és az énekhang is.

11 Hangtani alapismeretek
A hangjelek (audiojelek) azok az emberi fül számára hallható tartományba eső akusztikai jelek, amelyeket az emberek észlelnek

12 Hangtani alapismeretek
Fizikailag az emberi fül számára hallható hangok körülbelül a 20 Hz-től Hz-ig (20 kHz) terjedő tartományban vannak ultrahang infrahang

13 Hangtani alapismeretek
A hangtechnika a hangjelek feldolgozásával foglalkozik. Ehhez elengedhetetlenek a hangtan, a pszichofizika, a digitális hangzás, és például a zene MIDI- ~ vel (Music Instrument Digital Interface) való feldolgozásának alapjai.

14 Hangtani alapismeretek
A pszichofizika a pszichológia észleléssel foglalkozó ágának részterülete, ami ~ a tárgyilagos (fizikai) és egyéni (pszichikai) világ közti összefüggésekkel foglalkozik

15 Hangtani alapismeretek
A hang tudománya a hangtechnika, ill. a fizika, pszichológia és a fiziológia elemeiből összetevődő pszichofizika összejátszása.

16 Hangtani alapismeretek
Az embernek a különböző fizikai ingerek érzékelésére különböző érzékszervei vannak: így például a fül észleli a hangingereket (akusztikai jelek), a szem a fényingereket (optikai jelek). Mindegyik érzékszervben a sajátságos elvárásoknak megfelelő érzékelők (receptorok) találhatók.

17 Hangtani alapismeretek
Ezek az érzékelők valójában jelátalakítók, mivel a fizikai ingereket (hang, fény) kémiai-elektromos jelekké változtatják (hallás, látás). Az elektromos ingerjeleket az idegszálak az agyba vezetik. Az agynak mindegyik érzékre van egy kifejezetten arra szakosodott területe, ahol az érzet keletkezik, majd abból az érzékelés.

18 Hangtani alapismeretek
Az érzékszervek csak jelátalakítók. Az észlelés az agy arra szakosodott területén történik

19 Inger – észlelés - érzékelés
Az inger (stimulus) egy érzékszerv fizikai ingerlése, amely választ (reakciót) vált ki. Minden ingerhez tartozik egy küszöb, az ingerküszöb, ami elengedhetetlen a hatékonyságához. Ezen küszöb (például fájdalomküszöb) átlépése a fájdalomérzékelők izgatását idézi elő.

20 Inger – észlelés - érzékelés
Az észlelés (sensatio) egy inger hatására kiváltott neurofiziológiai folyamat (hallás, látás, szaglás stb.).

21 Inger – észlelés - érzékelés
Az érzékelés (percepció) az észlelések összefoglalása, amely a tárgyilagos-valós környezet és az egyén belső világának a leképezése.

22 A pszichofizika három törvénye
Weber törvénye Fechner törvénye Stevens törvénye

23 Weber törvénye az ingernövekmény mindig a kiváltó ingernek egy bizonyos törtrésze: I - ingerintenzitás c - Weber-állandó

24 Weber törvénye A viszonylagos különbségküszöb állandó, míg az abszolút különbségküszöb az inger erősségével (intenzitásával) egyre nő, vagyis az ingert egy meghatározott állandó értékkel (százalékértékkel) növelni vagy csökkenteni kell ahhoz, hogy észrevehető különbséget érzékeljünk.

25 A hallás és a látás Weber állandója
Weber törvénye A hallás és a látás Weber állandója

26 Fechner törvénye az észlelés egyes még észlelhető különbségei megegyeznek: I - ingerintenzitás E – az észlelés erőssége

27 Fechner törvénye Ha ebben az egyenlőségben a Δ-t d-vel helyettesítjük, akkor ezt kapjuk:

28 Fechner törvénye Az előző átrendezéséből kapjuk a Fechner törvényt:
C – integrációs állandó

29 Fechner törvénye Az inger erősségének logaritmikus növekedése az észlelés erősségének lineáris növekedéséhez vezet.

30 Stevens törvénye Stevens (mintegy 100 évvel később) tovább megy Fechnernél: az észlelés erősségét nem közvetett módon, a különbségküszöbök segítségével határozza meg, hanem közvetlenül méri az észlelést.

31 Stevens törvénye Stevens-törvény (power law) általános érvényű, és az inger, valamint az észlelés mértéke közti összefüggést írja le: E=I k k - észlelési állandó (például hangerő k = 0,67; világosság k = 0,33)

32 Hangtechnikai alapok Az alaphang egyetlen frekvencia harmonikus rezgése

33 Hangtechnikai alapok Az alaphangot frekvenciájával (hangmagasság) és amplitúdójával (hangerő) jellemezhetjük.

34 Hangtechnikai alapok A zenében az alaphangot ("tonika") és a hozzá tartozó felhangokat is hangnak nevezzük. A hang természeténél fogva nem csak egyszerűen "ott van", hanem szüksége van berezgési időre is

35 Hangtechnikai alapok A berezgési idő két részből áll: a felütés az a szakasz, amíg a hang eléri a legnagyobb hangmagasságot, majd következik a hanyatlás, amíg a hang beáll egy bizonyos szintre, ahol kitarthatjuk. Ezután a szakasz után sem halkul el azonnal a hang, hanem szüksége van egy bizonyos kirezgési időre (eIhalkulás, lecsengés).

36 Hangtechnikai alapok A hangerő változásának időbeli lefutása

37 Hangtechnikai alapok Összetett rezgések esetében fizikailag hangzatról beszélünk, amelyet felbonthatunk alaphangra és felhangokra. Zaj esetében az intenzitás spektruma nem egyenes (lineáris), hanem szélessávú, erősen ingadozó amplitúdóval "Csattanás" esetében az intenzitás szélessávú és jelentős frekvenciaterületen állandó

38 Hangtechnikai alapok hangzat csattanás zaj

39 Hangtechnikai alapok A hangok, hangértékek és ütemek meghatározott sorozatának írott formáját kottának (vagy partitúrának) nevezzük, ami egyben a zene informatív ábrázolása

40 Kotta elemei

41 Hangtechnikai alapok A hangskála a hangok meghatározott sorozata egy hangközben Az egyes hangok időbeli együtthangzása a harmónia. Az egymás után megszólaló hangok a hangsorok, két hang egyszerre a hangköz, három pedig az akkord. A hangköz hangmagasság-különbséget jelent két zenei hang között, akár egymás után (dallam), akár egyszerre (harmónia, együtthangzás) szólalnak meg.

42 Hangtechnikai alapok A tempó határozza meg a hangok egymás utáni sorrendjének sebességét, ezáltal az egyes hangok időtartamát is. Az ütem a hangsúlyos és hangsúlytalan időközök számarányát adja meg dinamikának pedig a hangerő alakulását nevezzük az egyes hangok sorrendjén belül.

43 A fül és a hallás A mechanikai rezgéseket fülünk akusztikai rendszere vezeti a fül belsejébe, ahol elektromos jellé alakul, majd a hallóideg segítségével eljut az agy megfelelő területéhez, ahol a hallást érzékeljük.

44 A fül és a hallás

45 A fül és a hallás

46 A fül és a hallás A hangjelek a fülkagylón és a hallójáraton (1) keresztül jutnak hallószervünkhöz. E terület neve külső fül (auris externa). A hangnyomás változását a külső fület a középfültől elválasztó dobhártya (membrana tympanica, 2) alakítja rezgéssé, amit a hallócsontocskák (3) közvetítenek a középfülből (tympanum) a fül belsejébe.

47 A fül és a hallás A középfül mechanikai impedancia-átalakítóként működik: a hangot egy nagy felületről (dobhártya) egy kis felületre (ovális ablak) vezeti. A hallócsontocskák emelőszerkezete (kalapács, üllő, kengyel) növeli az erőátvitelt az ovális ablak membránjára. A legjobb érték az 1 és 2 kHz közti frekvenciatartományban található.

48 A fül és a hallás A rezgések következtében vándorhullám alakul ki a csigában (cochlea, 4). Ebben a csigában találhatók a csillók (hallósejtek). A vándorhullám ezen csillók mechanikus eltolódásához vezet ezáltal a hallóideg (nervus acusticus, 5) megfelelő rostjaiban elektromos akciópotenciált vált ki. Ez az idegi jelzés ingerli az agy megfelelő központját, a hallóközpontot, ami a halántéklebeny felső részében helyezkedik el. Itt keletkezik a hallásérzet, a hangok érzékelése.

49 Az érzékelés egyéni sajátságai és szelektivitása
Érzékelésünk azonban egyéni benyomásainkon alapul. Nem atomokat és rezgéseket érzékelünk, hanem színeket, szagokat, vagy éppen hangokat, vagyis olyan dolgokat, amelyek a külső, fizikai világunkban tulaj­donképpen nem is léteznek.

50 Az érzékelés egyéni sajátságai és szelektivitása
A fizikai ingerek minden fajtája bizonyos pszichológiai észlelésnek ("érzésnek", "érzetnek") felel meg. Mindegyik ilyen ingernek megvan a maga érzékszerve: így például fülünk a hanghullámok észlelésére szolgál.

51 Az érzékelés egyéni sajátságai és szelektivitása
Az észlelés (érzet) nem az érzékszerveinkben keletkezik, hanem az agyban. Az érzetek kiváltására az agy bizonyos részei hivatottak, és amennyiben ezek a részek hiányoznak - vagy a kapcsolat megszakad velük -, nem is jöhet létre az érzet.

52 Az érzékelés egyéni sajátságai és szelektivitása
A szelektivitás azt jelenti, hogy hangokat csak a kb. 20 Hz és Hz közti frekvenciatartományban érzékelünk. A hallás felső határa az életkor előrehaladtával akár 5000 Hz-ig is süllyedhet (presbyakusis).

53 Hangfrekvencia (hangmagasság)
Az emberi fül a hangmagasságot a hangfrekvencia arányában határozza meg. A viszonylagos hangmagasság-ingadozások érzékelési küszöbe a frekvenciától és a hangerőtől függ, ami közepes hangszint esetében a hangfrekvencia: +/- 0,3%-a. A hangmagasság észlelésének mérésére a hangészlelés frekvenciaterü1etét logaritmikusan oktávokra (nyolcas egységekre) osztották. A hangfrekvencia megkétszerezésével egy oktávnyi távolságot kapunk.

54 Hangfrekvencia (hangmagasság)
Az egymással szomszédos hangközök közti hangmagasság-különbség fél­hang esetén 1:1,0595 (2 tizenkettedik gyöke); egész hang esetén 1:1,1222 (2 hatodik gyöke).

55 Hangfrekvencia (hangmagasság)
Hangszerek hangolásánál általában a normál zenei A hang (f = 440 Hz) a viszonyítási alap. Az alsó és felső C közti félhanglépések a normál zenei A hanggal

56 A hangnyomás szintje A jelek erősebb, illetve gyengébb voltának meghatározására (valamint az erősítők és attenuátorok - villamos jel torzítás nélküli csillapítására szolgáló feszültségosztók - készítését segítendő) vezették be a decibelt (dB), melynek az az alapötlete, hogy az arányokat ne közvetlenül, hanem logaritmikusan adjuk meg. A dB mértékegységgel szereplő értékeket jelszintnek nevezzük.

57 A hangnyomás szintje A decibel mint a jelszint mértéke csak két érték arányáról árul el valamit, vagyis nincs alapegysége. Amennyiben azonban megállapítunk egy viszonyítási alapot, az értékek logaritmikusan meghatározhatók.

58 A hangnyomás szintje A Weber-Fechner törvény alapján a hangnyomásszintet a következőképp határozhatjuk meg:

59 A hangnyomás szintje A 2 *105 Pa hangnyomás-viszonyítási alap egy 1000 Hz frekvenciájú szinuszhang hangnyomásának felel meg, amit az emberi fül még éppen érzékel. Ez a hallásküszöb.

60 A hangnyomás szintje Körülbelül 120 dB-től válik a hang elviselhetetlenül hangossá (fájdalomküszöb). A hallás károsodása azonban nem csupán a hangnyomástól, hanem a hanghatás hosszától is függ.

61 Hangerőszint (hangintenzitás)
Az egyénileg érzékelt hangerő (volume) nem csupán a hangnyomástól, hanem annak frekvencia-összetevőitől is függ.

62 Hangerőszint (hangintenzitás)
Az egyénileg érzékelt hangerő (volume) nem csupán a hangnyomástól, hanem annak frekvencia-összetevőitől is függ. Két ugyanolyan hangnyomásszintű, de különböző frekvenciájú hangot (szinuszjelet) különböző hangerejűnek érzékelünk.

63 Hangerőszint (hangintenzitás)
A hangerő és hangnyomásszint közti összefüggést (úgynevezett hallási görbék, illetve "egyező hangerejű görbék") Fletcher és Munson (1933) állította össze és vezetette be nemzetközileg 1961-ben ISO-ajánlásként (DIN )

64 Hangerőszint (hangintenzitás)

65 Hangerőszint (hangintenzitás)
A szubjektív hangerőérzékelést a fon mértékegységgel mérjük. Az "egyező hangerejű görbék" minden egyes görbéjének meghatározott fonértéke van

66 Hangerőszint (hangintenzitás)
A hangnyomásszint decibelben fizikailag egyértelműen mérhető. Az emberi összehasonlításon alapuló hangerőszint-mérés azonban korántsem ilyen egyértelmű. Ez esetben ugyanis különböző emberekre vonatkozóan végzett mérések szubjektív középértékéről van szó. Ezért az ilyen hangmérő eszközökbe elektromos szűrőket építenek be, amelyeket A-val,B-vel, illetve C-vel jelölnek.

67 Hangerőszint (hangintenzitás)
Az A szűrőt úgy alkották meg, hogy az megfeleljen a fongörbének. A legkorszerűbb hangmérő eszközök már kizárólag ezt a szűrőt használják. Az ezek által mért hangerőszint neve dB(A). A környezetvédelemben vagy az autók zajszint-mérésénél az értékeket dB(A)-ban adják meg.

68 Hangerőszint (hangintenzitás)
A fül hangerőérzékelő tartománya 20 mPa (hallásküszöb, 0 fon) és 20 Pa (fájdalomküszöb, 130 fon) között van. Fülünk a legérzékenyebb érzékszervünk: a hallásküszöb eléréséhez már 5 * W energia is elegendő.

69 Az ép hallású emberek hallástartománya

70 Hangerőszint (hangintenzitás)
A fül érzékenysége 3500 Hz-nél a legnagyobb. A hangosság mértékegysége a szon. Viszonyítási alapként 1 szon egy 40 dB hangnyomásszintű szinuszhangnak (f = 1 kHz) felel meg

71 Hangerőszint (hangintenzitás)
A szon mértékegység az akusztikai méréstechnikában jóval nagyobb szerepet játszik, mint a hangstúdiókban. Így például a számítógépek merevlemezének minőségvizsgálatánál a zajszintet gyakran szonban adják meg.

72 A hang iránya A térbeli hallás a visszhang, a hangelnyelés, a hangárnyék és a külső fül irányérzékenységének eredménye. Ezek segítségével jutunk információhoz a körülöttünk levő tér méretéről, vagy hogy van-e valamilyen akadálya közelben. A vak élőlények akadályokat kerülhetnek ki azáltal, hogy hallják az általuk kibocsátott hangok visszaverődését ("denevér-hatás").

73 A hang iránya Egy adott helyiségben a hangforrások meghatározása kizárólag a mindkét fület érő egyidejű ingerek segítségével lehetséges (binaurális hallás).

74 A hang iránya Ahhoz, hogy irányra vonatkozó információkhoz jussunk, fejünket mozgatni kell.

75 A hang iránya Az A és B hangforrása ugyanakkora dc időkülönbséggel ér fülünkhöz. Csak amikor a hallgató a fejét például balra fordítja, akkor tolódik az A hangforrás érezhetően oldalra, így a dc nagyobb lesz, és csak ekkor érzékeli a hallgató, hogy az A hangforrás jobbra elöl, nem pedig jobbra hátul található.

76 Hangszín és harmónia Csak a hangszín teszi lehetővé, hogy különbséget tegyünk a hangszerek (például oboa, klarinét) és különböző emberek hangjai között. A hangok jellemzőit felhangtartományuk adja. A hang metszőnek tűnhet, ha a magas frekvenciaösszetevők vagy részhangok erőteljesebben képviseltetik magukat, mint a mélyek. Ha azonban a mély részhangok vannak túlsúlyban, a hangszín tompa, sötét lesz.

77 A beszéd A beszéd hangjeleken alapuló közlésmód. Fülünk a hangjelek felfogója, rajta keresztül jutnak a hangjelek a hallóközpontba, ahol az agy jelsorozatként értelmezi azokat.

78 A beszéd A légcsövünk (trachea) a gégétől (larynx) a tüdőhöz vezető porcos (madarakban gyakran csontos) gyűrűkkel körülvett cső, melyen keresztül a levegő egy kis résen (hangrés, glottis) át a rezgésbe hozható - összehúzódó és kitáguló – hangszálakkal egy légtérbe áramlik. A torok, a szájüreg és az orrüreg biztosítják a rezonanciát. Az izmok nagy száma miatt a cső formája számtalan módon változtatható, így a hang óriási változatossággal (regiszterek, hangfekvés) bír.

79 A beszéd

80 Az emberi hangképzés A digitális számítógépek képesek szintetikus beszédképzésre, ugyanakkor az így képzett beszéd - bár érthető - gyakran természetellenesen hangzik (gondoljunk például a telefonszám-tudakozóra). Az érthetőség alapvető követelmény, a természetesség pedig növeli a használók körében az elfogadottságot.

81 Az emberi hangképzés hangjellemzők
A beszéd alapfrekvenciája a zöngés hangok legkisebb periodikus jelhányada a beszédben. A fonémák a legkisebb jelentés-megkülönböztető szereppel bíró nyelvi jelek.

82 Az emberi hangképzés hangjellemzők
Allofónoknak nevezzük a fonémák hangkörnyezetük függvényében alakuló változatait. (Az allofónok szokásos jelölése a szögletes, míg a fonémáké a ferde zárójel, így például a [t] és a [th] a /t!/ fonéma allofónjai.)

83 Az emberi hangképzés hangjellemzők
A morfémák a legkisebb jelentéssel biró egységei a nyelvnek. (A "ház" morféma, a "házas" nem.) A "ház" és a "láz" szavak csak egy fonémában térnek el egymástól. A fonémákból bármelyik szó előállítható.

84 Az emberi hangképzés hangjellemzők
A frikatívák (réshangok) a hangképző szervek (száj, gége) kis résén áthaladó levegő által képzett hangok, az affrikáták (zár-réshangok) úgy keletkeznek, hogy egy explozívát (zárhangot) közvetlenül követ egy ugyanolyan nyelvállású réshang vagy aspiráta (hehezetes hang).

85 Az emberi hangképzés hangjellemzők
Az egyes fonémák megjelenési formáit hangoknak nevezzük. A zöngés hangokat (m, v, l) a hangszalagok megrezegtetésével idézzük elő, és alakításuk a beszélőtől függ, a zöngétlen hangokat (f, s) pedig a hangszalagok megnyitásával érjük el, így ezek jellemzői a beszélőtől függetlenek.

86 Hangokat ejtünk ki, nem pedig fonémákat.
az „a” magánhangzó a „k” zárhang

87 Az emberi hangképzés hangjellemzők
Diftongusnak (kettőshangzónak) két fonéma összekapcsolódását nevezzük. Ezek a különféle nyelvekben előállhatnak két magánhangzóból, egy magánhangzóból és egy mássalhangzóból, és két mássalhangzóból is.

88 Az emberi hangképzés hangjellemzők
A prozódia a nyelv dallama, és a jelentés függvénye. Egy kérdő mondatot például teljesen másképp ejtünk ki, mintha ugyanazt a mondatot állításként fogalmaznánk meg.

89 A multimédia-alkalmazásokban az emberi hang visszaadásának négy szokásos formáját különböztethetjük meg: a beszéd reprodukált visszaadását, az egyszerű (periodikus) hangösszekapcsolást, a frekvencia alapú hangösszekapcsolást, a beszédszintézist.

90 A beszéd reprodukált visszaadása
A beszéd reprodukált visszaadása a legegyszerűbb eljárás. A multimédia­rendszer számára szükséges nyelvi elemeket egészen egyszerűen valaki elmondja, ezt felveszik, kódolják (például PCM kódolással), majd lejátsszák, amikor szükséges.

91 Az egyszerű (periodikus) hangösszekapcsolás
Az egyszerű hangösszekapcsolással arra teszünk kísérletet, hogy hangokat, szavakat, mondatokat állítsunk össze szótagokból vagy szótagok töredékeiből. A beszéd leghívebb visszaadását teljesen kiejtett szavak tárolásával tehetjük lehetővé.

92 A frekvencia alapú hangösszekapcsolás
A frekvencia alapú hangösszekapcsolás esetében a formánsszintézist alkalmazzák. A formáns az adott hangnak az a része, ahol "az energia összpontosul" a hangjel tartományában. Az összekapcsolás során az emberi beszéd jellemzőit elektronikus szűrőkkel utánozzák. A folyamat fontos jellemzői az átlagos szűrőfrekvencia, valamint a szűrő sávszélessége. A zöngés hangokat a beszéd alapfrekvenciájával megegyező frekvenciájú impulzusjel helyettesíti, a zöngétlen hangokat pedig zajgenerátorral hozzák létre.

93 A frekvencia alapú hangösszekapcsolás
Egy másik lehetőség a lineáris előrejelző kódolás (Linear Predictive Coding) alkalmazása, melynek keretében az emberi hangtartományt egy többpólusú rácsszűrővel képezik le. A hangszalagok működését ebben az esetben egy zaj- és egy hanggenerátorral utánozzák.

94 A beszédszintézis Két lépése:
Az első lépésben egy lexikon (szoftver) segítségével átalakítjuk a szöveget fonetikus írásra (átírás, transzkripció). E lexikont használói bármikor javíthatják, illetve kiegészíthetik.

95 A beszédszintézis Két lépése:
A második lépésben a fonetikus írást (hardver segítségéve!) hangjelekké alakítjuk.

96 A beszédszintézis ábrája
Fonetikus írás Hangsúlyjel

97 Gépi beszédfelismerés
Az emberi hang bevitelére szolgáló rendszerekben jelentős erőfeszítéseket kell tennünk annak érdekében, hogy a beszéd felismerés kellő szintű legyen.

98 Gépi beszédfelismerés
A beszélő felismerése: ezen a szinten a tartalom lényegtelen, kizárólag a beszélők egyéni különbségeit értékeljük. A beszéd felismerése: a beszéd tartalmának van jelentősége, a beszélők egyéni változatosságai nehezítik a helyzetet. A beszélő elemzése: a tartalom nem lényeges, az számít, hogyan mondunk valamit (vagyis a beszélő lelkiállapotának és szándékainak vizsgálata).

99 A beszéd felismerésének osztályozása
A kifejezés összetettsége szerint A beszélőtől való függés szerint A zavaró behatások szerint A szótár terjedelme szerint

100 A kifejezés összetettsége szerint
egyszerű szavak (állj, most, tovább stb.), összetett szavak (tizennégy, hétvége), parancsok (tüzet szüntess), egyszerű mondatok (Abba fogom hagyni a játékot.),· összetett mondatok (Majd akkor megmondom nektek, hogy ilyen körülmények között hajlandó leszek-e a továbbiakban azzal foglalkozni, amit mondtatok.).

101 A beszélőtől való függés szerint
beszélőtől függő (a rendszer csak bizonyos beszélők felismerésére képes), beszélőkhöz alkalmazkodó (a rendszer a beszéd felismerése közben alkalmazkodik az új beszélőhöz), beszélőtől független (a rendszer akármennyi beszélőt képes felismerni).

102 A zavaró behatások szerint
Zavartalan (laboratóriumi körülmények között), valóságos, mindennapi jellegű környezeti zajok, magas zajszint (üzemterület stb.).

103 A szótár terjedelme szerint
kicsi (100 szóig), közepes ( szó), nagy ( szó).

104 Beszédfelismerés A legkönnyebb a beszélőtől függő egyszerű szavak felismerése, kis szókincs és alacsony zajszint mellett. A legnehezebb a helyzet, ha a gazdag szókincsű beszédet beszélőtől független rendszerben, nagy zajszint mellett próbáljuk felismertetni.

105 A beszéd felismerése közben a következő hibák léphetnek fel:
Tévesztés: A szótárból nem a megfelelő szót választjuk ki. Visszautasítás: A kiejtett szót nem rendeljük hozzá a szótár egyetlen szavához sem. Helytelen felismerés: A szó nem szerepel a szótárban vagy a zaj hatás miatt a szót hibásan ismerjük fel.

106 Beszédfelismerő programok
egy tanulási szakasszal és egy munkaszakasszal műkődnek

107 Tanulási szakasz A tanulási szakaszban a felhasználó "felmondja" a kívánt szótárat. A rendszer minden egyes szót elemez, hogy a nyelvi jel olyan megkülönböztető jegyeit kiemelje, amelyek alapján a szó egyszerűbben, jellegzetesen felismerhető. Ezekből a jegyekből aztán kialakul egy ismertetőjel-vektor ("attribútumvektor"). Minden ismertetőjel-vektorként tárolt adat egy-egy szót jelképez.

108 Munkaszakasz A munkaszakaszban ismeri fel a program a beszéd szavait és mondatait.

109 A beszédfelismerés munkaszakaszának ábrája

110 A hang megjelenése számítógépes környezetben
Nyers hangadatok Digitális hangfelvétel PCM Digitális hangfelvétel ADPCM GSM szabvány μ-Law kódolás

111 Nyers hangadatok Az analóg, állandó és folyamatos (például hangszerek által kibocsátott) hangjeleket a digitális számítógép nem képes közvetlenül megjeleníteni, ezért a jelet először „le kell tapogatni" (mintavétel), majd mennyiségi mutatókká kell alakítani és kódolni kell

112 Nyers hangadatok A hangjelek digitalizálásakor három összetevőt nem szabad figyelmen kívül hagynunk: a mintavételi frekvenciát (gyakoriságot), az amplitúdót, a hangcsatornák számát (monó vagy sztereó).

113 Nyers hangadatok A multimédia területén a következő három szabványos mintavételi frekvencia fordulhat elő: 11,025 kHz, 22,05 kHz, 44,1 kHz (zenei Cd)

114 Nyers hangadatok 44,1 kHz mintavételi értékkel csak a 0 és 22,05 kHz frekvencia közé eső tartományt lehet elérni. Ez a terület nagyon közel van az emberi hallás tartományához (20 Hz-20 kHz).

115 Nyers hangadatok Az adatállomány méretét a következő egyenlet segítségével számíthatjuk ki: F=c*s*t*b F - fájlméret, c - csatornák száma (monó c = 1, sztereó c = 2), s - mintavételi sebesség Hz-ben, t - idő másodpercben, b - bájtok száma (8 bit = 1 bájt; 16 bit = 2 bájt).

116 A tömörítés fontossága
A növekvő merevlemez-kapacitás ellenére sem lehet elhanyagolni az adatméret tömörítésére irányuló eljárásokat, mint amilyenek a következők: "Downsampling", vagyis a mintavételi frekvencia csökkentése 22 kHz­re vagy 11 kHz-re, a felbontás csökkentése 1 bájtra, a sztereó hangról való lemondás, adattömörítés (például ADPCM, MPEG).

117 Hang-fájlok mére-te

118 Digitális hangfelvétel PCM
A DAT felvétel szintén a PCM kódoláson alapul. Számítógépes környezetben a WAV fájlformátum szintén PCM kódolású.

119 Digitális hangfelvétel PCM
Figyelem: mivel a PCM felvételek mintavételi "mélységüket" és mintavételi sebességüket illetően különbözhetnek, közvetlen digitális adatcsere esetén ügyelni kell rá, hogy rendelkezzünk megfelelő átalakítóval!

120 Digitális hangfelvétel PCM
A PCM formátumot a telekommunikáció területén az ISDN technológiánál alkalmazzák, ahol a mintavételi frekvencia 8 kHz, a felbontás pedig 8 bit, ami által másodpercenként 64 kbit vagy 8 Kbájt adatáramlás érhető el. A beszéd így nagyon jól érthető, de a mai igények már meghaladják ezeket az értékeket.

121 Digitális hangfelvétel PCM
A PCM alkalmazására további példa a WAV formátum, amivel gyakran találkozhatunk a számítógépek világában. Bár ebben a formátumban elvileg bármekkora mintavételi érték és bitmélység tárolható, a mintavételi frekvencia általában 44,1 kHz, a felbontás pedig 16 bit. Ha ezeket a lehetőségeket teljes mértékig kihasználjuk, nagyon jó minőségű felvételek készítésére van módunk. Az ehhez szükséges adatsebesség és tárolási kapacitás óriási: egy sztereó jelhez másodpercenként 172 Kbájt szükséges.

122 Digitális hangfelvétel ADPCM
Az ADPCM eljárás a szomszédos jelek hasonlóságán (nem azonosságán!) alapul. Az eljárás során az előrejelzési együtthatók segítségével próbáljuk kikövetkeztetni a következő jelet.

123 Digitális hangfelvétel ADPCM
A gyakorlatban ez az alkalmazkodás úgy néz ki, hogy egyforma hosszú időközönként (ami általában 20 ms) újra kiszámoljuk az előrejelzési együtthatót.

124 ADPCM kódoló A kódoló alapvetően a visszaalakítóhoz (dekóderhez) hasonlóan működik, amikor a jel alakulását "megjósolja". Először a logaritmikus bemeneti értékeket változtatja lineárissá (uniform PCM). Az így újra számszerűsített értékeket egy - az adott kódoló-megvalósításnak - megfelelő eltolással súlyozzuk. Ezt az eltolást használjuk arra, hogy az egységes PCM értéket el tudjuk helyezni

125 ADPCM kódoló alkalmazkodik a jel jellegzetességeihez azáltal, hogy változtatja a "számszerűsítési" és előrejelzési lépcsőfokok számát. A kimeneti jeleket csupán mint különbségeket közvetíti. Ezért ahhoz, hogy az esetleg eltérő megvalósítású számszerűsítő és előrejelző egység összeférhetőségét biztosítsuk, ezeket a mennyiségeket az ADPCM kódolású kimeneti jelekkel együtt kódoljuk.

126 IMA algoritmus Ezen algoritmus segítségével 4: 1 arányú tömörítésre nyílik lehetőség. Gyorsasága az előrejelző egyszerűségéből következik. Az előrejelző érték egész egyszerűen az előző hangminta, ezért ezt a lépést "nem alkalmazkodónak" is nevezik.

127 ADPCM visszaalakító A visszaalakító (dekóder) fordított alkalmazkodó számszerűsítőt (Inverse Adaptive Quantizer) alkalmaz, így teremti meg a különbségjelet. A mintát azután e különbségjel és az alkalmazkodó előrejelző (Adaptive Predictor) segítségével állítja elő így változtatja az egyenjelet hagyományos PCM jellé.

128 ADPCM visszaalakító Az ADPCM-et a telekommunikációban (ISDN) is előszeretettel alkalmazzák, mivel kiválóan alkalmas beszéd közvetítésére. Ebben az esetben a tömörítési módszereket a telekommunikációban alkalmazott frekvenciatartományokhoz igazítják.

129 GSM szabvány A GSM (Global System for Mobile Communication, globális mobilkommunikációs rendszer) Európa-szerte alkalmazott (digitális) szabvány rádiótelefonok számára, ami lehetővé teszi a nemzetközi barangolást ("roaming") a hálózatban.

130 GSM szabvány A GSM hálózatba különböző nyelvi és adatszolgáltatások is tartoznak, amelyek azonban különböző mértékben szabványosítottak.

131 GSM szabvány A GSM időosztásos (time multiplexing) digitális átvitel, átviteli egységenként nyolc csatornával, 200 kbit/s sávszélességgel és 13 kbit/s beszédkódolással.

132 GSM szabvány A GSM kódolás alapja a lineáris előrejelző kódolás (Linear Prediction Coding); matematikailag összetett, és csak nagyon leegyszerűsítve ábrázolható

133 GSM kódolás - LPC Az LPC a zöngés hangokat alacsonyabb rezgésszámmal írja le. Az egyes mintavételi értékek lineáris függésben állnak és korábbi értékek súlyozott összegei alapján jelzik őket előre.

134 GSM kódolás A GSM minősége mindenesetre jelentősen gyengébb, mint a PCM-é vagy az ADPCM-é.

135 μ - Law kódolás A kiindulási alap a logaritmikus átváltás és egy 13 bites átalakító felbontás, amely az átalakítás után 8 bitre csökken. Maga az átalakítás az ajánlásban előírt ,,13-ról 8 bitre" és ,,8-ról 13 bitre" táblázatok segítségével történik. Az átalakítás ilyen módjával a kódolást az emberi fül logaritmikus hallóképességéhez igazítják.

136 μ - Law kódolás Az átalakítás matematikailag a következőképpen írható le: y = 255 -ln (1 +x) minden x esetén = 0 y = 127 -ln (1 +x) minden x esetén < 0 ahol x mindig egy 0 és 1 közötti szabványos jelérték, vagyis az értékek 0 és 255 között mozognak

137 μ - Law kódolás A μ-law kódolást ISDN-en történő átvitelre Észak-Amerikában és Japánban használják. Egyes átviteli csatornák a nullák folyamatos átvitelét nem engedik, mert akkor elvész a bitáramlás.

138 a - Law kódolás Európában a-law kódolást az ISDN telefonhálózatban alkalmazzák, ahol 13-ról 8 bitre átalakító táblázatokat használnak és -128 és 127 közötti értékeket.

139 Hangfájlok Az idők folyamán az éppen rendelkezésre álló számítógéprendszereknek megfelelően számos hangfájl-formátumot dolgoztak ki, ám ezek közül csak néhánynak sikerült elterjednie, és azok közül is alig néhány felel meg az Internet által támasztott követelményeknek.

140 Hangfájlok A hangfájlok körében az átvitel módja szerint megkülönböztetünk statikus adatállományokat, amelyeket a számítógépen tárolnak, áramló adatállományokat, amelyek átvitele egymás után történik, de lejátszásuk valósidejű („élő"), ami különösen az Internet szempontjából fontos

141 Leg- fonto- sabb hang- fájl- formá- tu- mok

142 Hangfájlok A személyi számítógépek körében leginkább elterjedt multimédiás hangformátumok a Wave és a MIDI (illetve ma már az MPEG Layer Ill, vagyis az MP3). Közös bennük, hogy a hangzási információt kódoltan tárolják, és lejátszásuk minősége is elég jó, a kódolás módjában azonban különböznek. Elvileg a Wave fájlok a hangzás alaki lefutását tárolják, míg a MIDI fájlok a zenei tartalmat.

143 Wavelet (WAV) fájlok A WAV rövidítés és egyben kiterjesztés (fájlnév.wav) a Wavelet ("kis hullám") szó rövidítéséből származik Eredetileg a 80-as években fejlesztette ki az IBM és a Microsoft, bináris hangfájlként. Apple számítógépeken is használható, de például a playwav program segítségével Linuxon is lejátszható.

144 Wavelet (WAV) fájlok A WAV fájl a hangfelvétel közben a mikrofonnál vagy a hanganyagot tartalmazó CD átjátszásakor érzékelhető hangnyomás „digitális másolata". A WAV fájlok tehát tetszőleges hangesemény tárolására alkalmasak, vagyis a MIDI fájlokkal ellentétben nem csupán a zenére korlátozódnak.

145 WAV fájl részei FORMÁTUM ADATOK (FACT)

146 WAV fájl részei FORMÁTUM ADATOK (FACT)
A szabványos WAV formátum általában két darabból áll: a formátum darab tartalmazza a hangadatok jellemzőit (formátum típusa, csatornák száma - 1 vagy 2 -, mintavételi gyakoriság, bájtsebesség, mintánkénti bájt, illetve bit), az adat darab pedig magukat a hangadatokat, PCM formátumban. Ha nem PCM-et használunk, akkor egy FACT darab tartalmazza az alkalmazott felvételi formátum adatait ADATOK (FACT)

147 MIDI elektromos hangszerek és zenei hatásokat létrehozó eszközök vezérlése céljából szabványosított adatformátum, a fenti szabványnak megfelelő hardver, a fenti szabványnak megfelelő zenék gyűjtőneve.

148 MIDI szabvány elektromos hangszerek és zenei hatásokat létrehozó eszközök vezérlése céljából szabványosított adatformátum, a fenti szabványnak megfelelő hardver, a fenti szabványnak megfelelő zenék gyűjtőneve.

149 MIDI szabvány A zeneiparban már 1983 óta használatos a MIDI (Music Instrument Digital Interface) szabvány, amely lehetővé teszi a számítógépek és elektromos hangszerek közti kódolt zenei jelátvitelt.

150 MIDI E sorrendvezérlő eljárással vagy rövid analóg hangsorokat (például egy zongorabillentyű lenyomását, egy gitárhúr megpendítését) digitalizálunk vagy közvetlenül digitálisan hozzuk létre azokat (például egy MIDI hangszerrel).

151 MIDI A sorrendvezérlő (sequencer) segítségével a MIDI zeneszámok szerkesztőivé válhatunk. Segítségével a MIDI zenedarab hangjegyképlete vagy MIDI­esemény története ábrázolható és szerkeszthető. Megváltoztatható az egyes hangok hangszerhez rendelése vagy akár a hangzásuk is.

152 MIDI A MIDI a zenei adatok legtömörebb ábrázolásmódja, ami a legtermészetesebb lejátszást teszi lehetővé.

153 MIDI Ha igazán pontosan akarnánk fogalmazni, akkor ahelyett hogy azt mondanánk, hogy „a MIDI-t a zene és a számítógép ötvözésére fejlesztették ki", úgy kéne fogalmazni, hogy "a MIDI a hangszerek távvezérlője", mert ez ragadja meg a MIDI formátum lényegét, és ebből adódik e fájlok kis mérete is.

154 MIDI Mintavételi értékek helyett a MIDI hangszerre vonatkozó ábrázolást tesz lehetővé. A kódolás a következő három adatot tartalmazza: hangerő, alapfrekvencia, és a hangszer megnevezése.

155 MIDI A MIDI segítségével 10 oktávnyi hang (128 hangjegy) kódolása lehetséges. Példa: Egy MIDI hangszeren egy zongorabillentyű lenyomásakor a következő dolgok átvitelére kerül sor: a hang kezdete, a leütési erő és a billentyű elengedése, a hang vége.

156 MIDI Egy 10 perces MIDI zeneszám helyigénye körülbelül 200 KB, ami jóval a 44 kHz- es mintavétel mellett keletkező 105 MB (!) adatmennyiség alatt marad.

157 MIDI A MIDI szabvány 128 hangszert határoz meg, és ebben a szabványban (General MIDI Standard) minden hangszerhez tartozik egy szám. Így például a zongorára a 0-val, a trombitára az 56-os számmal hivatkoznak.

158 MIDI A MIDI szabványban egyidejűleg 16 úgynevezett csatorna működhet.
A hangszerek fajtájuktól függően egy csatornát (ilyen például a trombita) vagy több csatornát (ilyen a gitár) vesznek igénybe. Csatornáként egy-egy szintetizátor szükséges.

159 MIDI előnyei a MIDI fájlok hordozhatók, vagyis különböző operációs rendszereken ugyanazok a MIDI fájlok használhatók, a MIDI fájlok viszonylag kicsik, a MIDI pontosan megfelel a zeneszerzés klasszikus módszerének (hangjegyek feljegyzése, majd ezek lejátszása különböző hangszereken, azok jellegzetes hangzásvilágával).

160 MIDI hátrányai Ha nincs valóban jó hangszerünk, a hangzás a szintetikus hangképzés miatt nem túl szép (FM szintézis). Beszéd vagy zörejek felvételére, például a WAV fájlokkal ellentétben, nem alkalmas. A MIDI fájlok különböző rendszereken, az alkalmazott eszközök függvényében másképp hangzanak (míg a WAV fájlok mindig ugyanazt eredményezik)

161 AU fájlok Az .au kiterjesztésű hangfájlokat a Sun már 1986-ban kifejlesztette a Sun-3 számítógépek operációs rendszeréhez, ma pedig elsősorban a Java nyelvű programokkal használják.

162 AU fájlok Az önálló alkalmazásokkal ellentétben a Java kisalkalmazások (appletek) lehetőséget nyújtanak hangkibocsátásra, de ez a lehetőség csak az AU formátum esetében áll fenn. A Sun világából ismert AU formátum 8 bites monó, mintavételi sebessége 8 kHz, μ-law tömörítéssel.

163 MPEG fájlok Az MPEG a Moving Picture Experts Group rövidítése.
Az MPEG hang- és képadat-kódolási szabványokat határoz meg

164 MPEG 1 for Audio A hangfelvételt tartalmazó CD-re a hangjelet csatornánként 44,1 kHz mintavételi sebességgel veszik fel, és 16 bites csomagokban tárolják. A mintavételi elmélet szerint így a mintavételi gyakoriság nagyobb, mint a magas minőségű hang sávszélességének kétszerese. Ehhez azonban egy másodpercnyi sztereó hanghoz több mint 1,4 Mbit szükséges.

165 MPEG 1 for Audio Az MPEG hangtömörítés a hangfájlok tizenketted részére való tömörítését is lehetővé teszi érezhető minőségcsökkenés nélkül. Még ha huszonnegyedére csökkentik is őket, a hang sokkal élethűbb, mintha csak a sávszélességet csökkentik (például 44,1 kHz-ről 22,05 kHz-re). Erre az úgynevezett Perceptual Audio Coding (érzékelthang-kódolás) segítségével van lehetőségünk, ami azt jelenti, hogy a tömörítés során az emberi fül számára nem hallható elemeket szűrik ki.

166 MPEG Audio kódolás elve
Az ember érzékenyebben reagál a hang jellegű zavaró tényezőkre, mint a látást érintő zavarokra - vagyis a rövid zúgás vagy pattogás zavaróbb, mint például a villódzás.

167 MPEG Audio kódolás elve
A kódolás négy módja ismert: Single Channel Coding (egycsatornás kódolás) - monó jelek számára; Dual Channel Coding (kétcsatornás kódolás) például kétnyelvű monó jelek kódolására; Stereo Coding (sztereó kódolás) sztereó jelek kódolására, ahol is a két csatornát külön kódolják; Joint Stereo Coding (egyesített sztereó kódolás), ahol kihasználják a két csatorna adatai közti átfedést és felesleget, ami által jobb tömörítési arány érhető el.

168 MPEG Audio kódolás elve
A digitális bemeneti jelet az emberi hallás alapelvének megfelelő módon 32 egyforma összetevőre osztják (frekvenciacsoportok, frekvenciasáv-szakaszok). Ez az eljárás az idő-frekvencia tartomány átalakítás.

169 MPEG Audio kódolás elve
Az egyes összetevőket az emberi hallásérzékelési tulajdonságoknak megfelelően kódolják. A végső kódolást a három meghatározott réteg (Layer) egyike hajtja végre.

170 MPEG Audio kódolás elve
Mind a számszerűsítés, mind a kódolás egy maszkolási küszöb bevonásával történik.

171 MPEG Audio kódolás elve
Ezt a maszkolási küszöböt a pszichoakusztikai modellben minden összetevő számára egyénileg, diszkrét Fourier-transzformációval (DFf) számítják ki. Ennek során megadják a számszerűsítés hibahatárát is, ami azt mutatja meg, hogy mekkora hibaszázalékkal kódolhatunk úgy, hogy az még az emberi fülnek ne legyen észrevehető.

172 MPEG hangkódoló működése

173 MPEG Az MPEG hangformátumnak három növekvő hatékonyságú és tömörítési arányú rétege van, de természetesen ezzel egyidejűleg összetettségük és költségük is növekszik.

174 Az MPEG hangformátumnak három növekvő hatékonyságú és tömörítési arányú rétege
Layer I: (egyszerű megvalósítás) keretenként 384 mintavételi pont, számszerűsítés előtt egységekre osztás; egységes számszerűsítés, Layer II: keret 1152 mintavételi ponttal (24 ms 48 kHz-nél); az egységes számszerűsítés a MUSICAM szabvány szerint, Layer III: keret 1152 mintavételi ponttal; módosított DCT; a számszerűsítés nem egységes.

175 MP3 Az MPEG Audio Layer III (röviden MP3) olyan hangformátum, amely a hangfájlok tömörítését csekély minőségcsökkenéssel teszi lehetővé. A frekvencia­tartomány és a jel-zaj arány lényegében változatlan marad.

176 MP3 jellemzői, előnyei Az esetleges veszteségek még jó hi-fi készülékeken sem hallhatók, amennyiben a fájlok megfelelően készültek. Segítségével óriási mennyiségű zenét tárolhatunk egyszerűen, kis helyen - egyetlen CD-n akár 11 albumnyi anyagot!

177 MP3 jellemzői, előnyei Az Interneten keresztül sokkal gyorsabban, így jóval olcsóbban küldhetünk MP3 fájlokat, mint az igen elterjedt, de jóval terjedelmesebb WAV fájlokat

178 MP3 jellemzői, előnyei Az MP3 fájloknak ugyan van fejlécük, ez azonban nem feltétlenül szükséges a fájl lejátszásához. Ez azt eredményezi, hogy ha a fájlból bárhonnan kiszakítunk egy darabot, azt a darabot is lejátszhatjuk. Ezáltal az MP3 lehetőséget kínál az áramló sugárzásra

179 MP3 jellemzői, előnyei Az MP3 fájlok a Windows Media Player (Médialejátszó), az Apple Quick­time és számos ingyenesen hozzáférhető eszköz és program segítségével lejátszhatók. Hordozható MP3-lejátszóval útközben is hallgathatunk MP3 fájlokat. Mivel ezidáig az MP3-másolás ellen semmiféle védelem nem ismert, a zeneipar szereplőinek viszonyulása e formátumhoz nagyon ellentmondásos.

180 Az MP3 a felbontás javítása érdekében MDCT -t (módosított diszkrét koszinusz átalakítást) alkalmaz.
Ennek előnyei: nem jelentkezik elmosódás az egységekre osztás tényezőit sávokra osztják a számszerűsítésből adódó zajok nagymértékben csökkennek

181 Az ember és a számítógép közti felületek
A számítógép hangjelzéseinek vételéhez, feldolgozásához és lejátszásához a számítógépen kívül hangkártyára, hangszóróra, mikrofonra, esetleg egy CD-DVD meghajtóra és a használathoz megfelelő szoftverre is szükségünk van.

182 Az ember és a számítógép közti felületek
A digitális számítógép segítségével a hangjeleket négyféleképp adhatjuk vissza: digitális-analóg átalakító segítségével: a jeleket digitális hangjelekként merevlemezen tárolva, szintetizátor segítségével: az információt MIDI fájlban a hangkártyához küldjük, és ott kerül sor a feldolgozására, magának a MIDI felületnek a segítségével: az információt MIDI fájlban küldjük egy külső szintetizátorhoz vagy CD-meghajtó segítségével.

183 Az ember és a számítógép közti felületek
A hangkártya-hangszóró rendszer ember és számítógép közti felület, ezért a műszaki paraméterek mellett az emberi tényezőt is figyelembe kell venni.

184 Hangszóró A hangkártya-hangszóró rendszer ember és számítógép közti felület, ezért a műszaki paraméterek mellett az emberi tényezőt is figyelembe kell venni.

185 Hangszóró A hangszórók olyan elektroakusztikai átalakítók, amelyek az alacsony frekvenciájú elektromos rezgéseket hallható mechanikus rezgésekké alakítják. A legtöbb hangszóró a hangot egy hártya (membrán) rezegtetésével idézi elő, majd a levegő segítségével juttatja el az emberi fülhöz.

186 A hangszórók jellemzői
Frekvenciagörbe Torzítási tényező A hangszóró hatásfoka Hangteljesítmény Impedancia Szinusz terhelhetőség Zenei terhelhetőség Impulzusteljesítmény Hangszórók elhelyezése

187 A hangszórók jellemzői
A frekvenciagörbe a frekvenciagrafikonon (frequency response diagram) megmutatja, hogy ugyanolyan teljesítménnyel különböző frekvenciák esetén milyen hangerősséget érhetünk el.

188 A hangszórók jellemzői
Torzítási tényező alatt a felhullám és az alaprezgés közti különbséget értjük. A hangszóró hatásfoka megadja, hogy a hangszóró adott teljesítmény mellett milyen hangerőre képes. Mértékegysége a dB-W/m. A szabványos hifi hangszórók dB-W/m hatásfokkal rendelkeznek, ami viszonylag kicsinek számít.

189 A hangszórók jellemzői
A hangteljesítmény alapvetően semmit nem árul el arról, hogy a hangszóró hogyan képes visszaadni a hangjeleket. Szerepe akkor válik jelentőssé, ha kicsi az erősítő kimeneti teljesítménye, vagy amikor egy óriási termet kell behangosítanunk.

190 A hangszórók jellemzői
A hangszóró váltóáramú ellenállását impedanciának nevezzük, mértékegysége az Ohm. A hangszóró hosszútávon megengedett terhelését szinusz-terhelhetőségnek nevezzük.

191 A hangszórók jellemzői
A gyakorlatban arra kell ügyelnünk, hogy a hangszóró váltóáramú ellenállása növekvő frekvencia hatására jelentősen megváltozik. A hangszórók váltóáramú ellenállásának sosem szabad kisebbnek lennie, mint az adott esetben használt erősítő váltóáramú ellenállása, vagyis ne használjunk 4 Ω ellenállású hangszórót 8 Ω-os erősítővel. Amennyiben a hangszóró váltóáramú ellenállása meghaladja az erősítő váltóáramú ellenállását, az csak csekély mértékben csökkenti az erősítő kimeneti teljesítményét.

192 A hangszórók jellemzői
A hangszóró zenei terhelhetősége alatt azt a rövidtávú terhelhetőséget értjük, amit hallható torzítás vagy egyéb károsodás nélkül kibír Általában egy tízezred másodperc időtartamú behatást tekintünk a hangszóró impulzusteljesítményének.

193 A hangszórók jellemzői
A hangszórók elhelyezésekor figyelemmel kell lennünk arra, hogy a magas hangtartomány lehetőleg fülmagasságban legyen, és hogy a hangszórókat a hallgatók füle felé fordítsuk.

194 Mikrofon Dinamikus mikrofonok Elektro-mikrofonok
Kondenzátor-mikrofonok

195 Dinamikus mikrofonok A dinamikus mikrofonok a dinamóelv szerint működnek. A mikrofon belsejében lévő vékony lemez hanghullámok hatására rezgésbe jön. Ettől egy parányi tekercs is rezegni kezd. A tekercs egy mágnes pólusai között helyezkedik el. A tekercsben az elmozdulások hatására váltóáram keletkezik. A váltóáram a hanghullámok leképezése Pl.: zenei hangfelvételre is alkalmas

196 Elektro - mikrofonok Az elektro-mikrofonokban levő vékony lemez az ellenpólussal egy mindig töltött kondenzátort képez. Hanghullám hatására a vékony lemez elhajlik, ettől a mikrofon elektromos tároló képessége megnő. Mivel a mikrofon kimenete nem terhelhető túl, a mikrofonba beépítenek egy váltóáramú ellenállásként működő erősítőt. Mivel ezek a mikrofonok igen kis méretűek, ezeket használják a mikroportokban, és ezeket építik be különféle készülékekbe.

197 Kondenzátor - mikrofonok
A kondenzátor-mikrofonok az elektro-mikrofon okhoz hasonló elven működnek, de sokkal költségesebbek. Ezek a mikrofonok kiválóan alkalmasak stúdió­felvételek készítésére.

198 Mikrofonok jellemzői A mikrofon a hanghullámokat elektromos rezgésekké alakító készülék. Fő jellemzője az érzékenység, ami megmutatja, mekkora a mikrofon azon hasznos váltakozó feszültsége, ami 1 Pascal váltakozó hangnyomás hatására keletkezik. Az átlagos mikrofon érzékenysége 1 mV/Pa mV/Pa között mozog. A mikrofonok érzékenységét gyakran az 1V/Pa-hoz viszonyítva adják meg, decibelben.

199 Mikrofonok jellemzői A mikrofon kimeneti feszültsége igen csekély. Ha fel akarjuk dolgozni, ezerszeresére kell erősíteni, hogy digitalizálható legyen.

200 Mikrofonok jellemzői A mikrofon további fontos jellemzője a hatómező, vagyis a mikrofon alakja. Az érzékenység a mikrofon fajtájának és felépítésének megfelelően a hang iránytól is függ. A leggyakoribb hatómezők a gömb, buzogány vagy vese. Mivel a buzogány, illetve vese alak esetében a fő irányvonal egyértelmű, ezeket irányított mikrofonnak hívjuk. A fő irányvonal mentén teljes érzékenység figyelhető meg. Az irányultság frekvenciafüggő is.

201 Hangkártya A hangkártyák a személyi számítógépbe helyezhető különböző csatolófelületű kártyák, amelyek lehetővé teszik hangjelek bevitelét és kezelését.

202 Hangkártyák jellemzői
Kimeneti feszültség a vonalkimenetnél Linearitás Jel-zaj arány Torzítási tényező Dinamika Frekvenciagörbe Bementi feszültség a mikrofon bemenetnél

203 Kimeneti feszültség a vonalkimenetnél
Kimeneti feszültség a vonalkimenetnél (line out). Teljes kihasználtság mellett az egy szintetikus, digitális jel (1 kHz-es tesztjel) visszaadásánál használható jelfeszültség 1000 mV körüli.

204 Linearitás Ez alatt azt értjük, mennyire valósághűen alakítja át az ADC (analóg-digitális átalakító) és a DAC (digitális-analóg átalakító) a különböző erejű (hangos-halk) jeleket. Legjobb esetben az eltérés 0 dB lenne, de az érték általában 0,1 dB körüli.

205 Jel-zaj arány A hasznos és zavaró jelek (zúgás, zörejek stb.) közti különbség. Minél több a zavaró jel, annál kisebb ez az arányszám. Az aránynak legjobb esetben a végtelenhez kellene közelíteni, de az érték általában 80 dB(A) körüli.

206 Torzítási tényező Akárcsak a hifi készülékek esetében, a nem lineáris torzítás (a jelgörbétől való eltérés) nagyságának jelzésére szolgál. Ideális esetben a torzítási tényező nulla körüli, a DIN (1970-es hifi-szabvány) 1%-ot is megenged, a ma jellemző értékek pedig 0,02 % körül vannak.

207 Dinamika A rendszer dinamikáját a nyugalmi állapothoz képest vesszük figyelembe. Mérése általában úgy történik, hogy az ellenőrző jeleket egyre halkabbra vesszük, egészen addig, amíg már csak a zavaró jelek (zúgás, zajok) maradnak. Minél tovább tart ez a folyamat, annál jobb, a leggyakoribb érték 80 dB körül van.

208 Frekvenciagörbe A frekvenciatartományt adja meg és ez egyben a lineáris torzítás (a frekvenciagörbétől való eltérés) mérésére is szolgál. Külön görbe írja le a felvételt és a lejátszást

209 Bemeneti feszültség a mikrofonbemenetnél
Ez határozza meg azt a bemeneti feszültséget, amely 1000 Hz esetén a (szoftver-) kihasználást mérő eszköz teljes kihasználásához vezet.

210 Hangkártyák felépítése
A Creative Labs (Creative Technology Ltd.) cég SoundBlaster hangkártyacsaládja széleskörű elterjedtsége miatt akár szabványnak is tekinthető: a legtöbb hangkártyagyártó termékeit úgy készíti el, hogy azok együtt tudjanak működni a SoundBlaster termékekkel.

211 FM szintézis – hullámtáblás eljárás
Számos hangkártya az OPL-3lapka (Yamaha gyártmány) segítségével hozza létre a hangokat, FM szintézis (frekvencia-moduláció szintézis) segítségével. Az OPL-4 lapka a hullámtáblás eljárást is támogatja. FM szintézisnél a hang több rezgés átfedéséből tevődik össze, így a legkülönfélébb (szintetikus) hangokat halljuk. A hullámtáblás eljárás során a kártya memóriájában tárolt (valódi) hangszerek eredeti hangjai biztosítják a zene természetes hangzását.

212 A hangkártya felépítése

213 A hangkártya működése Az analóg jelforrások, a mikrofon, a bemenet és a CD (analóg kimenet) jeleit az ADC digitális jelekké alakítja, amelyeket aztán továbbít a digitális jelfeldolgozóhoz. A DSP azután a digitális bemeneti jeleket különféleképp változtatja meg: változtathatja a hangerőt, a hangszínt, keverheti és sűrítheti a hangot. Az így feldolgozott hangjeleket aztán a PC-busz segítségével továbbítják, és WAV fájlként tárolják. A tárolt WAV fájlokat a digitális jelfeldolgozóhoz továbbítják, amely például beállítja a lejátszási hangerőt. A megváltoztatott lejátszási jeleket a DAC elemzi, hogy hangszóró segítségével lejátszhatóvá váljanak.

214 Keverőpult A keverőpulton több különböző forrású hangjel jelszintjét igazíthatjuk egymáshoz, és elegyíthetjük egy végső hangjellé. Egyszerű esetben a keverőnek minden hangbemenethez egyetlen hangerő-, illetve hangszint-beállító gombja van, összegük (a jelek összeadódása) pedig egy hangkimeneten jelentkezik. A keverő bemeneti csatornáinak nevezzük a bemeneteket, és a hozzájuk tartozó beállító gombokat (amiket szabályozónak is hívnak).

215 Ellenőrző kérdések Az észlelés már a specializálódott érzékszervekben megtörténik. Weber törvénye kimondja, hogy az inger növekedése mindig az eredeti inger meghatározott mértékű töredéke. A középfül a dobhártyával és az ovális ablakkal mechanikai impedancia- átalakítóként működik. A hangszín segítségével lehet a hangforrás helyét a térben meghatározni. HAMIS IGAZ IGAZ HAMIS

216 Ellenőrző kérdések A morféma a legkisebb jelentéshordozó nyelvi elem.
Áramló sugárzásnál (streaming) az adatokat folyamatosan továbbítjuk és "élőben" játsszuk le. A WAV fájl a mikrofon hangnyomásának digitális másolata. A MIDI fájl a hang alaki lefolyását tárolja, és tartalmazhat minden hangzási eseményt. IGAZ IGAZ IGAZ HAMIS

217 Ellenőrző kérdések A hangkártyán az ADC az analóg jelforrásokat digitális jelekké alakítja és a jelfeldolgozóhoz továbbítja. A MIDI-beviteli egység MIDI adatfolyamot hoz létre, ami közvetlenül digitális jelként tárolódik. IGAZ IGAZ

218 Feleletválasztós kérdések
A hangészlelés pszichofizikája szerint.. a) a hangintenzitás arányos a hangfrekvenciával. b) a térbeli hallást többek között a visszhang teszi lehetővé. c) a hang jellegét felhangjai határozzák meg. d) az észlelés nem az érzékszervekben keletkezik, hanem az agyban. Helyes válaszok: b, c, d

219 Feleletválasztós kérdések
A beszéd visszaadása esetében... a) a legegyszerűbb eset a reprodukált beszédvisszaadás. b) a jelentéstan komoly problémákat vet fel. c) a formánsszintézises módszer alkalmazása során elsősorban ASR-t alkalmaznak. d) az érthetőség alapkövetelmény, a természetesség kívánatos. Helyes válaszok: a, b, d

220 Feleletválasztós kérdések
Hangjelek digitalizálása során... a) legtöbbször 88 kHz-es mintavételi sebességgel dolgozunk b) a fájlméret állandó probléma. c) a fájlméret elsősorban a mintavételi gyakoriságtói függ. d) mindig WAV formátumot alkalmaznak. Helyes válaszok: b, c

221 Feleletválasztós kérdések
A WAV fájl... a) csak zene visszaadására korlátozódik. b) a RIFF formátumon alapul. c) lehetővé teszi az áramló sugárzást. d) kicsi és rendszerfüggetlen. Helyes válaszok: b

222 Feleletválasztós kérdések
A MIDI... a) kifejezetten a beszéd visszaadásának egyik szabványos adatformátuma. b) alkalmas hangszerek távvezérlésére. c) rendszerfüggetlen. d) mindig ugyanolyan hangvisszaadásra képes. Helyes válaszok: b, c

223 Feleletválasztós kérdések
A hangfájl kicsinyítése érdekében érdemes... a) a MIDI-t WAV-vá alakítani. b) a mintavételi gyakoriságot növelni. c) adattömörítést végezni ADPCM vagy MPEG segítségével. d) lemondani a sztereó hangzásról. Helyes válaszok: c, d

224 Feleletválasztós kérdések
A zenei CD-k … a) 44,1 kHz-es mintavételi sebességgel készülnek. b) általában 650 kB/s-os fájlméretekkel dolgoznak. c) 16 bites csomagokban tárolják a hangfájlokat. d) MIDI hangtárolást alkalmaznak. Helyes válaszok: a, c

225 Feleletválasztós kérdések
A hangkártya egyik fő jellemzője... a) a frekvenciaválasz. b) a torzítási tényező. c) a jel-zaj viszony. d) a linearitás. Helyes válaszok: a, b, c, d

226 A hangtechnika története évszámokban
1400. Harangjáték hangfelvétele hengerek segítségével. 1737. J. de Vaucanson mechanikus fuvolajátszója (automata). 1809. Chladni vizsgálja a hangrezgéseket, felfedezi a rezgő felületek "hangzási alakzatait". 1843. Morse megalkotja az elektromos távírást. 1860. Reis telefonja.

227 A hangtechnika története évszámokban
1868. MacTammany lyukkártya-vezérlésű mechanikus orgonája (automatizálás). 1877. Bell a gyakorlatban is alkalmazható telefont fejleszt ki. Edison bemutatja a fonográfot, Cros viaszlemezt fejleszt ki hangrögzítésre. 1881. Ader bemutatja a sztereót. 1887. Berliner amerikai szabadalma gramofonjára.

228 A hangtechnika története évszámokban
1888. "Hanglemezen" történő hangtárolási kísérletek. Smith drótokat javasol. 1889. Amerikában megjelenik az első pénzbedobással működő zenedoboz („Wurlitzer"). 1895. Berliner Shellack-lemeze. 1896. május 14. Marconi első vezeték nélküli hangközvetítése: rádió.

229 A hangtechnika története évszámokban
1904. Welte elektromos zongorája. 1907. Rayleigh kidolgozza a hang szakaszelméletét. 1912. Edison mikrobarázdás hanglemeze. 1915. Elektromotoros hanglemezjátszó. 1921. Hangátviteles tömegkommunikációs eszköz: rádió.

230 A hangtechnika története évszámokban
1925. Kellog és Rice elektrodinamikus tölcséres hangszórója 1926. Az első használható hangosfilmek. 1927. Teljesen elektromos zenedoboz. 1928. Pfleumer mágnesezett papírszalagjai. 1932. Az EMI első sztereó hanglemeze. Németországban a BASF kifejleszti a hangrögzítésre használható acetilcellulóz-szalagot.

231 A hangtechnika története évszámokban
1935. Az AEG (Allgemeine Elektrizitats Gesselschaft) K1 magnetofonja. 1943. Az AEG első kazettás magnója. 1948. Vinil alapú hanglemezek. Az RCA (Radio Corporation of America) bemutatja a percenkénti 45 fordulatos mikrobarázdás lemezt. 1950. Szabványos hangrögzítés mágnesszalagra: kazettás magnó.

232 A hangtechnika története évszámokban
1952. Az AEG bemutatja a KL15 magnetofont. 1958. Sztereó lemezek piacra dobása. 1965. A Philips kompakt magnója (máig ez a szabvány). 1966. Dolby hangszűrés. 1972. A Philips és az MCA első optikai tárolóeszköze (lézerlemez).

233 A hangtechnika története évszámokban
1977. A Radio Shack bemutatja az első személyi számítógépet: (kezdetleges) hang személyi számítógépen. 1979. Digitális hanglemez (CD) a mai formájában. 1982. Kereskedelmi forgalomba kerülő hangfelvételek lézerlemezen: CD-lejátszó. 1983. A MIDI megjelenése szabványként. 1987. Digitális hangszalag: DAT (Digital Audio Tape).

234 A hangtechnika története évszámokban
1988. Megalapítják az ISO MPEG (Moving Picture Experts Group) munkacsoportját, hogy meghatározzák a hang- és mozgóképszabványokat. 1989. Beépített másolásvédelem a DAT-lejátszókban. Megjelenik az MPEG-1. 1991. CD-ROM. Megjelenik az MPEG-2. 1992. Megjelenik a GSM szabvány a mobilkommunikációban. 1995. Megjelenik az MPEG-4.

235 A hangtechnika története évszámokban
1997. április. Az MPEG-2 AAC-t (Advanced Audio Coding) nemzetközi szabványként bevezetik. 2000. Szélessávú információs hálózatok: műholdon keresztül megjelenik a zene az Interneten. 2010. Vélhetőleg a CD-minőségű DAB (Digital Audio Broadcasting, digitális hangsugárzás) Európában leváltja az URH-rádiózást.

236 Köszönöm a figyelmet!


Letölteni ppt "M2: Jelek és kódolás M3: Hangtechnika."

Hasonló előadás


Google Hirdetések