Hallás 2 Neszmélyi Bence MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet BME Kognitív Tudományi Tanszék

Hallás 2 Neszmélyi Bence MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet BME Kognitív Tudományi Tanszék neszmelyi.bence@ttk.mta.hu

Óravázlat Zenei hangok észlelése Abszolút hallás Hallási illúziók –Frekvenciaészlelésen alapuló –Hallási jelenetelemzésen alapuló –Beszédhez kapcsolható Alkalmazott területek –Hallókészülékek –Digitális hang EEG - Hallási eseményhez kötött potenciálok

Zenei hangok A zenei hangközök adott frekvencia-arányoknak felelnek meg 5 kHz felett a hangközök észlelése kevésbé egyértelmű (abszolút hallással is) „tone height” vs „tone chroma” Az „egyszerű” arányokat harmonikusnak, a „bonyolultabbakat disszonánsnak halljuk (tanulással változhat) Magyarázatok: –Harmónia/Disszonancia: felharmonikusok egybeesése Neurális tüzelési mintázat hasonlóságai monaural beats komplex hangok felharmonikusainak aránya (tanulás)

Kis Terc (m3): 6:5 Nagy terc (M3): 5:4 Tiszta kvárt (P4): 4:3 Tiszta kvint (P5): 3:2 Kis szext (m6): 8:5 Nagy szext (m6): 5:3 Oktáv(P8): 2:1 Kis szekund (m2): 16:15 Nagy szekund (M2): 10:9 Tritónusz. (d5,A4): 36:25 Kis szeptim (m7): 16:9 Nagy szeptim (M7): 15:8

Abszolút hallás I. Hangmagasság észlelése relatív Abszolút hallás: 10,000 emberből 1 Hangmagasság felismerése viszonyítási pont nélkül Kell hozzá emlékezni  abszolút emlékezet Kultúrafüggő (zenei képzés, tonális nyelvek, vakok) ??? Nem AH személyek szerencsénél jobban teljesítenek (Lockhead & Byrd, 1981) –Stratégiák: vokális-motoros Két képesség –Hosszútávon és stabilan tárolni a hangmagassághoz tartozó információt, ehhez hozzáférni –Címkézni az információt (C#, A440, Dó)

Abszolút hallás II. Mindenki képes az elsőre, de a másodikra kevésbé??? Levitin és Ward (egymástól független) kísérletei: –Ismert pop rock számokat elénekelni (ugyanaz, nem úgy, mint a klasszikus zene esetén) –63.5% 1 hangon belül kezdi el Rakowski (1972): hang beállítása egy korábban hallott viszonyítási hanggal azonos magasságra –RH: minél távolabb a viszonyítási hangtól, annál pontatlanabb –AH: az eltelt idő nem számít (ha zenei hangokkal egybeesett, de gyengébb teljesítmény ha nem) Zenei hangok változnak Gyerekkori imprinting (kritikus periódus 6 éves korig)

Frekvenciaészlelésen alapuló illúziók

Hangmagasság vs zenei hang http://www.mearaoreilly.com/index.php?/project/illusion-songs/ https://www.youtube.com/watch?v=mN4FNmoLIrw

Végtelen emelkedés/ereszkedés Shepard paradoxának felvétele Jean-Claude Risset-től. Úgy hangzik, mintha egyre magasabb hangok irányába lépegetne a skálán, holott az első és utolsó hangja a sornak ugyanaz. Loop- ban lejátszva lehetetlen megmondani hol kezdőik, illetve hol végződik, ugyanis egy folyamatosan emelkedő hangsornak hallatszik ~Escher „végtelen lépcső

Shepard skála Folyamatosan emelkedő vagy süllyedő hang Alapja: 3 hang, melyek egy-egy oktávnyira vannak egymástól (shepard hang) és folyamatosan emelkednek vagy süllyednek egyforma gyorsan, és amint elérik az oktáv végét, lehalkulnak és újrakezdődnek az eredeti frekvenciájukon

Végtelen skálák Páratlan számú felharmónikusok amplitúdójának növelése  hangmagasság-érzet nő Alaphang által meghatározott, és a felharmónikusok által meghatározott hangmagasság ellentétes irányban mozog

Tritónusz paradoxon I. tritónusz: két hang fél oktávnyira egymástól (e.g. C to F#) Egymás után játsszuk le a hangokat. Felfelé és lefelé lépésként is hallható Akkor működik jól, ha a Shepard-hanghoz hasonlóan bizonytalan hangmagasságú hangokat használunk (több oktáv)

Tritónusz paradoxon II. Vannak, akik emelkedő, vannak akik ereszkedő dallamot hallanak. Zenészeknél is (holott teljes biztosak az ítéleteikben) Hangpáronként (hangnemenként) eltérő lehet, hogy felfelé v. lefelé lépést hallunk Óra-analógia: 12 hang óra-szerűen elrendezve  a fent- lent viszony határozza meg, hogy milyen irányú lépést hallunk Frekvencia alapú hangmagasság-észlelés (lineáris) és zenei hangmagasság-észlelés (körkörös) párhuzamosan? Az „óra” beállítása személyenként eltérő lehet (nyelvi minták?)

Implicit abszolút hallás? Az „óra” beállítása személyenként eltérő lehet Nyelv (beszéd) hatása (nyelvcsalád, dialektus, beszéd frekvenciaterjedelme)

Moszkító Egy hang, amit 20 év felett már csak kevesen hallanak – 18 kHz-es szinusz hang (kutyasíp 16- 22 kHz) Kamaszok csengőhang – csak ők hallják („teen buzz”) Wales-i bolt, hogy ne lógjanak ott, iskolák, stb. (Ember)jogi vonzatok Magas frekvenciákon hallásküszöb emelkedése, hallás sérülése (szőrsejtek nagyobb igénybevétele)

Hallás romlás az életkor/nem függvényében Idős korban főleg a magasabb frekvenciák észlelése romlik Férfiaknál erőteljesebben megfigyelhető

Kombinációs hangok Más néven Tartini-féle hangok olyan hangok, melyek két hang együtthangzásából erednek és melyek rezgési száma vagy a két hangrezgési számának összege, vagy azok különbsége. Intermodulációs torzítás (nem lineáris jelfeldolgozó rendszerek sajátossága) miatt lineáris kivonódás (esetleg összeadódás) hallható Fontos: nagy hangerő (50-60 dB) szükséges a jelenséghez

Kombinációs hangok II. 200 Hz-es hang 1000Hz és 1200Hz (hallható harmadikként a 200 Hz) 1. hang 4000Hz-től 1000Hz-ig, 2. hang 4200Hz-től 1200Hz-ig (különbség végig 200Hz) Frekvencia random váltakozik úgy, hogy a különbség 200 Hz legyen A két oszcillátor random úgy, hogy a különbség kiadjon egy dallamot http://www.earslap.com/article/combinat ion-tones-and-the-nonlinearities-of-the- human-ear.html

Binaurális ütemek Hasonló elv, mint a kombinációs hangoknál (kivonódás) 90Hz és 1000Hz között, interferencia < 30Hz Hallásküszöb alatti hallási élmények is Ha kisebb mint pár Hz, a fülek közötti időkülönbségekre épülő lokalizáció miatt egy mozgó hangot lehet hallani a két fül között 10-30Hz között nem tud tökéletesen működni a mechanizmus, ezért gyorsabb váltakozások a hangosságban 30 Hz felett újra jól tud működni az időkülönbségre épülő lokalizáció, ezért két külön hangot lehet hallani Monaurális ütemek: két eltérő fázisú szinusz-hullám  hol erősítik, hol gyengítik egymást, amplitúdó-ingadozás a különbség frekvencián Binaurális jelenség hasonló, csak nem fizikai, hanem pszichológiai szinten: ott jön létre ahol a két fülből jövő információ találkozik  a neuronok tüzelési mintázatában kódolva van a fázis is Tudatmódosító, relaxáló hatás?

Hallási jelenetelemzéshez kapcsolható illúziók

Oktáv illúzió I. Egy hang váltakozik két fül között, magas a jobban hallható, a mély a balban (kezesség függő). Egyesek egy harmadik hangot is hallanak középről.

Oktáv illúzió II. Két mechanizmus: 1.Magas hangok alapján történik a lokalizálás (intenzitáskülönbség) 2.Frekvenciát elsősorban a domináns fül határozza meg, másikat elnyomja (domináns fül jobb és bal kezeseknél többnyire eltér)

Ugyanez komplexebben I. Kromatikus illúzió

Ugyanez komplexebben II. Skála illúzió Ami egy magasságú, az hajlamos egy helyről érkezni (hasonlóság elve alapján csoportosítás) https://www.youtube.com/watch?v=hcUECR3bWRo

Cambiata illúzió Nem egyértelmű helyzetekben az idegrendszer váltogat az értelmezések között (főleg bal kezeseknél)

http://www1.appstate.edu/~kms/classes/psy3215/AudioDe mos/Wessel.swf Jó folytatás elve, utána pedig hasonlóság alapján csoportosítás

Virtuális borbélyüzlet http://www.youtube.com/watch?v=IUDTlva gjJAhttp://www.youtube.com/watch?v=IUDTlva gjJA Műfej hallójáratában lévő mikrofonnal történik a felvétel Fejhallgatóval nagyon jó térbeli hallás Hallójáratba helyezett fülhallgatóval szinte tökéletes térbeli élmény

Beszédészleléshez kapcsolható illúziók

Szegmentáció A beszédészlelés legfontosabb lépése a szegmentáció, azaz a hallott hangsor jelentésbeli egységekre történő bontása. Egy adott nyelven sajátítjuk el Egyes kommunikációs jelzésekből (szünet?) vezethető le + statisztikai tanulás Idegen nyelven rossz hatásfokkal működik (pl. egy idegen országban próbálunk belehallgatni egy beszélgetésbe)

Welfare/farewell illusion Farewell és Welfare szavakat lehet hallani benne (kétértelműség)

Illuzórikus változások Ha többféle képpen értelmezhető az inger, hosszabb bemutatás alatt váltakoznak az inerpretációk Dichotikus hallgatási helyzetben eltérő lehet ugyanannak az ingernek az értelmezése a két oldalon (időben eltolt prezentáció esetén) Flame Ace/say

Fantom szavak I. Ki mit hall?

Fantom szavak II. window, welcome, love me, run away, no brain, rainbow, raincoat, bueno, nombre, when oh when, mango, window pane, Broadway, Reno, melting, Rogaine Az agyunk folyamatosan próbál értelmet keresni, még ha nincs is. ~Rorschach-teszt

Fantom szavak III. Még két példa

Speech to song illusion Hallgasd meg! Más valami? 10 ismétléssel Kórusban (10 bemutatás) Alanyok egyszeri ismétlés után Kórusban (egy bemutatás) Ugyanaz az információ feldolgozható beszédként, és zeneként  függetlenség?

Illuzórikus folytatás Rövid sípolás rövid, szabályos időközönként. Zaj a sípolások között, idővel amplitúdója változik Ha elég hangos lesz, teljesen „befedi” a sípolások közötti részt Ilyenkor folyamatosnak lehet hallani a hangot Miért? Az idegrendszerünk feltételezi, hogy a maszk csak eltakarj a folyamatosságot Vizuális példa

Fonémarestaurációs hatás Ha egy beszédhangot zajjal helyettesítünk (köhögéssel vagy zúgással), akkor a hallgató azt gondolja, hogy hallotta a hangot (Warren, 1970). Azt sem tudják megmondani, hogy hol volt a zaj. Nem nagyon számít a maszkoló hang típusa, de csendet nem restaurálják

Modalitások közötti integráció A különböző modalitásban érkező információkat integráljuk (pl. mozi: elhiszem, hogy a szereplő szájából jön a hang, pedig valójában a hangszóróból  vizuális információ jelentős szerepe a hallott inger feldolgozásában) Illúzió: McGurk-effektus Szinkronizált filmek: Nem csak egy hang, hanem komplett beszéd (zavaró tud lenni, ha nincs szinkronban a szájmozgással) http://www.youtube.com/watch?v=G-lN8vWm3m0

http://www4.uwm.edu/APL/demonstrations.html http://webpages.mcgill.ca/staff/Group2/abregm1/web/downloadstoc.htm http://www1.appstate.edu/~kms/classes/psy3215/AudioDemos/ http://deutsch.ucsd.edu/psychology/pages.php?i=201 http://home.ieis.tue.nl/dhermes/lectures/soundperception/01Introduction.html Hanganyagok, leírások

Alkalmazások

Hallókészülékek Kompenzációs „profil” meghatározásában segíthet a pszichoakusztika Példa: loudness recruitment Nem lehet minden hangerősséget azonos mértékben erősíteni  AGC: automatic gain control Erősítés mértéke az input erősségétől függ Input: széles terjedelem  output: szűk terjedelem

Kihívások Lassú változások: beszédszituációtól függően az átlagos intenzitásban 30 dB különbség is lehet Gyors változás (pl. ajtó csapódás) Melyiket kövesse az erősítés? Lassú vs. gyors AGC  kombinált Gyors változás a beszédben is pl. mgh –msh: ez is lehet 30 dB Syllabic compression: msh-k nagyobb mértékű erősítése Cross modulation: több beszélőhöz kapcsolódó hangingerek egyszerre változnak  „közös sors”  egy forrásnak hallatszik

A hallási küszöb eltolódása frekvenciától is függhet Input frekvencia-sávokra bontása ~ hallási filterek, sávok külön erősítése Személyenként változhat, hogy melyik eszköz a legmegfelelőbb Beállítás:normál halláshoz hasonló, vagy minden frekvencián azonos erősség

Cochlear implants Ép hallóideg, auditoros területek, sérülés csigában (általában szőrsejtek) Hallóideg elektromos ingerlése

Frekvencia kód: –ingerlés frekvenciájának növelésével a hangmagasság érzete is nő –300-600 Hz, de nagy egyéni különbségek –Frekvencia változásának észlelése: min. 5% –Probléma: szűk sáv az észlelési- és a fájdalomküszöb közt Helykód: –több elektróda  a csiga/hallóideg különböző frekvenciákért felelős részeit stimulálják (csúcshoz közeli részek: tompa, alaphoz közel eső részek: éles hangérzet  hangszín is) –Nehéz az elektródák által ingerelt területet élesen behatárolni –4 elektróda már elég lehet a beszédészleléshez –Idői tényezők nehezen megragadhatóak

Beszéd kódolása elektromos jellé AGC Hallási filterek szimulációja band-pass filterekkel Az egyes filterek kimenete kerül a megfelelő elektródákhoz: analóg hullám, vagy kb.800 Hz-es impulzusok (CIS) CIS: minden elektróda folyamatosan közvetíti az impulzusokat, de az elektródák sose aktívak egyszerre Filter kimenete az impulzusok amplitúdóját, vagy időtartamát határozza meg SMPS (Spectral Maxima Sound Processor): 16 band-pass filter, centrális frekvenciák:250-5400 Hz), 4 ms-onként kiválasztásra kerül az a 4 filter, aminek a legnagyobb az outputja  megfelelő elektródák közvetítik a jelet az outputnak megfelelő amplitudóval SPEAK (Spectral Peak): 20 filter, output folyamatos számítása, 5-10 filter kiválasztása

Digitális hang Analóg hangfelvétel: –időben változó nyomás  időben változó feszültség –122 kHz-ig képes a frekvenciák kódolására –Érzékeny, könnyen zajos lesz Digitális hang –Analóg jel  szabályos időközönként mintavétel  az érték bináris jelként tárolva

Mintavételi frekvencia (Hz): másodpercenként hány jel-értéket rögzítünk (egyenletes időközönként). CD: 44100 Hz DVD-Audio: 44.1 – 192 kHz Nyquist kriterium: maximális frekvencia a mintavételi frekvencia fele lehet (többértelműség elkerülése)  CD-nél kb. 20 kHz Felbontás: Hány különböző értéket vehet fel a jel? Gyakran bit egységekben van megadva. Pl. 16 bit felbontás azt jelenti, hogy 2 16 számú lehetőség van a jelek ábrázolására. CD: 16 bit DVD-Audio:16, 20, 24 bit Kerekítés miatt szisztematikus torzítások Kivédése: zaj hozzáadásával (dither) https://www.youtube.com/watch?v=zWpW IQw7HWU

Tömörítés Tömörítés nélküli, veszteségmentes formátum pl. wav, aiff Tömörítéssel, veszteségmentesen tárol pl. WavPack, FLAC Tömörítéssel, veszteségesen tárol pl. MP3, AAC. Perceptuális kódolás  a nem, vagy csak kevéssé észlelt elemek kihagyása Pszichoakusztikus modell: az emberi észlelés sajátságainak figyelembevétele

Perceptuális kódolás Hallási szűrőkhöz hasonló szűrők sorozata  sávokra bontás (32) Elfedési jelenség: maszkolt hangok kihagyása Bitmélység az adott szakasz és sáv átlagos szintjéhez igazítva  kisebb felbontás is elég (maszkolás és hallási küszöb figyelembevétele itt is) kb. 10-szeres tömörítés

Hallási kiváltott potenciálok

EEG Az agy elektromos aktivitásának elvezetése a fejbőrön elektródák segítségével Két pont közti feszültség különbség (referencia- elektróda) Egy adott csatornán enek a feszültségkülönbségnek az időbeni változását rögzítjük (pl. 1000 Hz mintavételi frekvencia: másodpercenként 1000 minta) Különböző frekvenciájú hullámok (frekvencia sávok): különböző éberségi-, tudatállapothoz, kognitív folyamatokhoz kapcsolhatóak Előnyök: jó idői felbontás,nem invazív,„olcsó” Hátrány: rossz téri felbontás

Mit mérünk A fejfelszínről elvezethető EEG-t az idegsejtek posztszinaptikus potenciáljai (EPSP,IPSP) okozzák. Ahhoz, hogy a fejbőrön mérhető nagyságú jel keletkezzen, a sejtek orientációjának hasonlónak kell lenni.  kéregben pyramidális sejtek Több sejt szinkronizált polarizációja Dipólusok  sejten belüli és sejten kívüli áram

Forrás-lokalizáció A fejbőrről elvezetett EKP hullámformák sok esetben több forrás párhuzamos aktivitását tükrözik. A különböző források bizonyos esetekben szelektíven manipulálhatók, ami a fejbőrről elvezetett jel megváltozását okozhatja: megváltozhat a hullámforma amplitúdója, topográfiája, csúcslatenciája. De egy adott (mért) potenciál-eloszlás nem határoz meg egyértelműen egyetlen dipólus összeállítást, ami az adott eloszlást generálja!!! Egy adott eloszlást végtelen sok különböző dipólus konfiguráció létrehozhat

Eseményhez kötött potenciálok (EKP) Event-related potentials (ERP) Az elektroenkefalogramban megfigyelhető, adott eseményhez (ingerbemutatás, gombnyomás, stb.) kapcsolható szisztematikus változások. (time-locked) Az ERP módszer alapfeltevései: - jel(t) = EEG(t) + ERP(t) - EEG(t) és ERP(t) függetlenek Több jelszakaszt átlagolunk EEG(t) egy-másfél nagyságrenddel nagyobb mint ERP(t)

A kortikális EKP 2-10 mikrovolt, az agytörzsből eredő jelek ennél kisebbek, kb. 1 mikrovolt. Agytörzsi válaszok: 1,5-15 ms poststim., a VIII. agyidegből és agytörzsi struktúrákból erednek.

Agytörzsi válaszok

Közép látenciájú válaszok 25-50 ms poststim., Na (felső agytörzsből vagy a cortex-ből ered), Pa (hallókéregből bilaterálisan) Alacsony frekvenciákra érzékenyek Nagy variabilitást mutat, akár egyéneken belül és elektródák között is. Akár Nb, Pb, Nc hullámok is követhetik őket.

Lassú hullámok 50-150 ms poststim. P1 & N1 az inger regisztrációját jelzi P2: Szenzoros input összevetése emlékezeti reprezentációkkal??? N2: inger felismerése, pontosan mi is az inger

Késői hullámok (150 ms poststim.) MMN: mismatch negativity –150-250 ms –Standard ingerek közötti deviáns váltja ki –Frontocentrális eloszlású –Nem figyelt helyzetben is kiváltható ORN: object-related negativity –240-250 ms –két külön akusztikus tárgy jelzőmozzanata (precedence effect) –Frontocentrális eloszlású –Összetett hangot egy forrásból érkezőnek halljuk, mert a frekvenciakomponensei jó harmonikus kapcsolatban vannak, de amennyiben akár egy komponenst 4%-kal elhangolunk, hajlamosak vagyunk azt két hangforrásból érkezőnek észlelni

Késői hullámok II. P300: inger kategorizációját jelöli, inger elhelyezése egy feladatfüggő kategóriában. –Két komponensből áll: – P3a: „újdonság P3”, 250-280 ms, frontocentrális eloszlású, figyelem irányításában szerep és az újdonság feldolgozásában. – P3b: kb. 300 ms, parietális területek felett a legnagyobb az amplitúdója, információfeldolgozás, valószínűtlen események váltják ki; döntéshozatal; kognitív terhelés N400: válasz szavakra, vagy más értelemmel bíró ingerre (olvasott szóra is)

Hallás 2 Neszmélyi Bence MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet BME Kognitív Tudományi Tanszék

Hasonló előadás

Az előadások a következő témára: "Hallás 2 Neszmélyi Bence MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet BME Kognitív Tudományi Tanszék"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Hallás 2 Neszmélyi Bence MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet BME Kognitív Tudományi Tanszék

Hasonló előadás

Az előadások a következő témára: "Hallás 2 Neszmélyi Bence MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet BME Kognitív Tudományi Tanszék"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés