Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke.

Hasonló előadás


Az előadások a következő témára: "Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke."— Előadás másolata:

1

2 Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára közreműködésével

3 Áttekintés •1950-es években az entrópia fogalma a nyelvi folyamatok értelmezésében. •Kezdeti lelkesedés. •Chomsky kritikája • Az utóbbi évtized a nagy digitális szöveganyagok révén: Shannon reneszánsz •Akusztikus bejóslási (gating) és olvasott szavakra vonatkozó szótári döntési kísérletek a magyarban •Szerkezeti megfontolások mellett az entrópia változás segítségével magyarázni.

4 Csaba Kornél Dani Klára Judit Gating Entrópia LexDec Priming

5 A nyelvészeti információelméleti érdeklődés szakaszai •Korai lelkesedés: Nyelvészeti kritika Visszajön a statisztika a statisztika •1950 Shannon 1960 Chomsky 1990 Kostic • Miller G. Miller Bayern Saffran

6 Információelmélet és nyelv Shannon korában KÓD KONTEXTUS

7 Nyelvi következmények •1. feldolgozási korlát és átvitte információ •2. redundancia és szófelismerés •3. statisztikai közelítések a nyelvhez és a feldolgozhatóság

8 Kapacitáskorlát •George Miller, 1956: a mágikus hetes szám •Nem egységnyi információ mennyiség, hanem tömbök száma korlátoz •Pl. betű-szám-rövid szó •Chunking, tömbösítés • •

9 Hat á s jellegeModalit á sV á ltoz ó kFő eredm é ny Expoz í ci ó s idő a gyakoris á g f ü ggv é nye Vizu á lisGyakoris á g é s felismer é si idő Logaritmikus f ü ggv é ny, megfelel az inform á ci ó nak Zaj rontja a felismer é st Akuszt Jel-zaj ar á ny,sz ó hosszFelismer é s zajban romlik Expoz í ci ó s idő jav í tja a felismer é st Vizu á lisIdő hat á sa 0-55 ms Statisztikai k ö zel í t é s Idő jav í t, de a statisztika hasonl ó s á g ugyan í gy Nyelvtani szerveződ é s jav í t Akuszti kus Jel-zaj ar á ny, sz ó tag, szavak, mondatok Mondat >sz ó >sz ó tag zajban MondatkontextusAkuszti kus Jel-zaj ar á ny, elszigetelt sz ó é s mondat Mondat seg í ti felismer é st Néhány klasszikus szófelismerési hatás Miller, 1951 alapján

10 Információelméleti észlelés kutatás •G. A. Miller •Zaj és észlelés •Expoziciós idő és felismerés

11 Statisztikai közelítések 0-d rendű: mellékesen következmény csinosan bankár hajlik áram 1. rendű : képesség révén mely engem keringő téged a varrás 4. rendű : láttam a meccset befejezik szilveszter éjjel 7 rendű : ismerem zenei képességeit miután bemutatta előtte

12 Kiterjesztve a nyelvre •Értelmességhatás •Szavak és mondatok •Statisztikai közelítés szintje

13 Korai felvetések az információs alapú morfológiáról •Antal László (1964) a szó testében az általános tendencia az entrópia fokozatos csökkenése. Morfémahatáron megszakad ez a csökkenés •igaz-ság-os-ak-at

14 Miller és Chomsky megfordítják a trendet: mindez legfeljebb egy gyenge Markov modell •A Chomsky hierarchia és a pszicholingvisztika •Nemcsak a nyelvtanra, hanem a nyelvi viselkedésre is algebrai modell kell •Abból is nem akármilyen •Véges állapotú nem elég •Az ellenérdekeltek szerint igen, ha a gráf ágaihoz valószínűségeket rendelünk

15 A viselkedés és nyelvi modell •A nyelv minden viselkedés analógiája lesz •Valójában a belső reprezentáció modellje •De modellje a feldolgozásnak is •Ami approximations to English volt, most grammatikalitás lesz

16 Mi történik ma? Induljunk ki a főnevek szerkezetéből Számok rendelhetőek hozzá Elágazás szám token és type entrópia Eltérő döntési pontokon emberünknek emberünkétől emberünkéihez embereinkkel embereinknek emberenként embert emberhez embertől emberig emberék

17 A szófelismerés modelljei Cohort-modell - hallott szavak felismerése már az első szótag alapján • összefüggő szöveg – erős igazodás • izolált szavaknál & értelmetlen szövegek – kevesebb az elvárási hatás • McClelland & Rummelhart (1981) – vizuális felismerési modell a versengésről • Marslen-Wilson (1987) • Kompatibilis szavak automatikus aktivációja • Kiválasztás

18 GATING – a paradigma •Bevett szófelismerés vizsgáló eljárás •Nincsenek magyar adatok •Jól kontrollálható változók •Francois Grosjean (1980) –melyek a szófelismerés kritikus pontjai? –személy szavakból hallgat egyre nagyobb részeket –Hatások: •Gyakoriság (gyakoribbak – rosszabb teljesítmény) •Szóhosszúság (hosszabb szavak rosszabb teljesítmény) •Kontextus (mondatba foglalva jobb a teljesítmény) –a növekvő, sorozatszerű, inkrementális bemutatásnak nincs hatása (Cotton és Grosjean, 1984)

19 Ingerek

20 szógyakoriságLemmagyak. Egyed. pont Első 4 entrópia szó gyakorisá g Lemmagyak. Egyed. pont Első 4 entrópia böllér böll 0, asszon y assz 1, cécó cécó0 fórum fóru0 csöbör csöb0 szoftver szof 0, dunna dunn 0, utca utca 1, dzsúd ó dzsú 1, pápa pápa 1, güzü güzü 0, szféra szfé 0, gyűszű gyűs 1, tonna tonn 0, kégli kégl0 üveg üveg 3, lucsok lucs 0, kenyér keny 1, nábob nábo0 típus típu 1, pőcsik 673 pőcs0 műsor műso 1, rücsök 8453 rücs0,49999 ablak abla 0, sasszé sass 1, dollár doll 0, üzér üzér 0, ünnep ünne 2, zsepi zsep0 japán japá 0, bögöly bögö0 család csal 2, cinke cink 1, kérdés kérd 1, dublőr dubl 1, oldal olda 0, krokett krok 1, személ y szem 4, pányv a pány 1, tanár taná 2, pincsi pinc 2, válasz vála 3, polka polk 0, város váro 1, pöröly pörö 1, tanács taná 2, rozmár rozm 0, termék term 3, stóla stól0 csapat csap 2, trojka troj0 verseny vers 3,02390 tartár tart 3, század száz 2,25829 stangli stan1,35673 osztály oszt 3,42107 strázs a strá 1, nemzet nemz 2, svindli svin 1, vizsga vizs 2,54094

21 A gyakorlatban •Kapuk –90 ms –120 ms –210 ms –300 ms –390 ms •A szavak sorrendje random •Ha helyes volt egy adott kapunál a válasz (KV regisztrálja a RI mérést követően (csak 2. kísérlet) – SRB, mikrofon), akkor ugrik a következő szó 1. kapujára (90 ms) •Konfidencia döntés 1 - egyáltalán nem biztos 2 - inkább nem biztos 3 - inkább biztos 4 - teljesen biztos Inkrementális bemutatás

22 Gating – a szógyakoriság és az egyediségi pont hatása a szófelismerésre •Gyakori – korai •Gyakori – késői •Ritka – korai •Ritka – késői (ms) ablak nemzet böllér tartár

23 I. Kísérlet - pontosság •Gyakoriság főhatás •Egyediségi Pont főhatás •Kapu főhatás •Gyakoriság X Egyediségi Pont •Gyakoriság X Kapu •Egyediségi Pont X Kapu •Gyakoriság X Egyediségi Pont X Kapu Helyes válaszok (%) 51 résztvevő; 20 férfi (21,12 év, SD=1,37) és 31 nő (20,41 év, SD=0,97) p<0,001

24 I. Kísérlet - konfidencia •Gyakoriság főhatás •Egyediségi Pont főhatás •Kapu főhatás •Gyakoriság X Egyediségi Pont •Gyakoriság X Kapu •Egyediségi Pont X Kapu •Gyakoriság X Egyediségi Pont X Kapu p<0,001 Konfidencia

25 Összeségében •Egy szótag elég a felismeréshez pl. megfelelően a kohorsz elméletnek •Minél korábbi az egyediség, annál korábbi a felismerés •Gyakoriság segít •Ritka szavak inkább alulról-felfelé •Nyelvtani és fonotaktikai megszorítás is segít

26 Gating és entrópia •Prefixtypeoccurenceslog: Az adott prefixummal kezdődő szótárban előforduló szavak számának 2-es alapú logaritmusa •prefixfreqlog: Az adott prefixummal kezdődő, szótárban előforduló tokenek számának 2-es alapú logaritmusa •entrópia – A webkorpusz feltételes entrópiája, adott prefixum feltételezése mellett. Informálisan, a fennmaradó bizonytalanságunk mértéke, amikor egy ismeretlen szó egy adott kezdőszeletét már megismertük. •entropychange – az entrópia csökkenése az előző kapuhoz képest (1. kapunál nincs értelmezve).

27 Felhasznált MOKK korpusz Korpusz Oldal (millió) token (millió type (millió) Teljes3, ,1 60% Idegen kiiktat 3, ,4 92% Csak diakritikus 1, ,9 96% Elütés mint a normálban 1, ,2

28 Gating és entrópia • Gate főhatás • ACC főhatás • Gate X ACC interakció p<0,001 Entrópia Z_score • Egyediségi pont főhatás • Gyakoriság főhatás • Gyakoriság X Egyediségi pont interakció

29 II. Kísérlet •GATING –Megszorítás Főnév –megszorítás nélkül •„On-line” feldolgozáshoz közelebb áll –RT (response box – mikrofon) –Konfidencia-ítélet ( ) •Résztvevők –14 fő (7 férfi (28,16 év, SD=14,05), 7 nő (28,0 év, SD=13,14)) •Ingerek –Ugyanaz, mint az 1. kísérletben (Instrukció)

30 Az instrukció Szavak részleteit fogod hallani. A feladatod, hogy kitaláld, mi lehet a szó. CSAK RAG NÉLKÜLI KÉTSZÓTAGOS FŐNEVEK lehetnek. Azt is meg kell mondd a válasz után, hogy mennyire vagy biztos abban, hogy a tipped helyes volt. Minden elhangzott részlet után válaszolnod kell és biztossági ítéletet kell hoznod, de mindig csak az aktuális elhangzott részletre vonatkozóan. Indulhat a feladat? (Tedd fel a fülhallgatót!)

31 Felülről-Lefelé hatások •Le lehet-e szűkíteni egy adott csoportra a keresést?

32 Pontosság • A korai egyediségi pontúak esetén a kisebb kapuknál segít, a megszorítás • A megszorítás a pontosságot a késői egyediségi pontú ingerek esetén növeli (gyakoriságtól függetlenül)

33 Reakcióidő • a megszorítástól lassabbak lesznek a reakcióidők függetlenül a gyakoriságtól és az egyediségi ponttól. • a ritka szavaknál egyediségi ponttól függetlenül a legkisebb kapu esetén nem volt helyes válasz – így itt nincs RI sem.

34 Konfidencia • A megszorítás a gyakori- késői egyediségi pontú szavak esetén a hosszabb kapuktól (210+) kezdve csökkenti a biztossági ítéletet

35 Entrópia és egyediségi pont Entrópia akkor is szignifikáns, ha az egyediségi pont és a gyakoriság ellenőrzött

36 Entrópia magasabb a gyakori szavaknál Egyediségi pont: csökkent entrópia

37 •Az entrópia jó közelítője a szófelismerés pontosságának •A top-down megszorítás növeli a pontosságot, de lassítja a válaszadást •Reakcióidők összevetése az entrópia- mutatókkal Gating

38 Eleje – vége jóEleje jóVége jó Ha egy pinaglló mbengbereti a sznyráát Pgenbiken, az akár tdoánrot is getheszejrt Amikerában. Vinalgkábun mdenin mninnedel öfüsszegg, menidn cseketüedlenk abápjalan vtja áltoztatha meg a jvöőt. Még elzépeklni is reémes, A nő nyumlogaar vákgyi. A házsagaás elrtotmol, a láany kamkdioasz- ő eregy kevbéés tajallá a hetlyé, és úgy ézir, rdviöidőre mujszá tálvo keneirlü a hétkölótpaijzan. Eztré fodjaag el egy bajatrá megtáváhí, aknike van egy kis motjeel A ágmany acsk sesűrkeéget üszl és aszőrekot. Max enm thite nolva, ohgy a ajsát őrbén lkel taszegpamtalnia zet. Jó arzsu olvt, kai glodoban él a leséefge és álksinya lelmett. A A szavak eleje számít Fazekas szövegjavítási feladat

39 A szavak rekonstrukciója sikeresebb, ha mind a szó eleje mind a vége helyesen van leírva

40 Az előfeszítési helyzet RPOBLÉMA PROBLÉMA

41 Előfeszítési hatás a kezdetnél: A rontott szó lelassít az elején és a végén PORBLÉMA PROLBÉMA PROBLMÉA PROBLÉAM Várhelyi Klára

42 Döntések hosszú sok morfémás szavaknál: Pléh és Juhász 1995 bathtub effect Aithchison

43 Hasonló szavak, mint a gatingnél Böllár Tő Böllér-ak bölléruk Jel Böllér-nak böllér-nuk Rag Böllér-ak-nek böllér-uk-nek Jel belül

44 A vizsgálati anyag alapja •60 kétszótagú főnév, Németh Kornél gating vizsgálata alapján •Forrás: MOKK korpusz (www.szoszablya.hu) •4 csoport egyediségi pont és gyakoriság alapján GyakoriRitka Koraikenyér, műsor böllér, gyűszű Későiváros, csapat pincsi, krokett

45 A ragozott szavak keny é rnek keny é rben keny é rre kenyerek kenyerak/ kenyerikkenyerem kenyeram/ kenyerimkenyered kenyerad/ kenyerid kenyereknek kenyeraknek/k enyeriknekkenyerekben kenyerakben/ kenyeriken kenyerek re kenyerakra/ kenyerikra kenyeremnek kenyeramnek/ kenyerimnekkenyeremben kenyeramben /kenyerimben kenyere mre kenyeramra/ kenyerimre kenyerednek kenyeradnek/ kenyeridnekkenyeredben kenyeradben/ kenyeridben kenyered re kenyeradra/ kenyeridra •Előfordulások: csak tő, jel, rag vagy jel és rag •Rontás a tőben (kunyérem) a jelben (kenyérid) vagy a ragban (kenyeredbun) •Létező, de rosszul illesztett (kenyérim) vagy nem létező toldalékok (kenyérum)

46 A vizsgálat felépítése •72, 18 és 34 év közötti résztvevő a Budapesti Műszaki Egyetem hallgatói közül •44 (átlag életkor: 21,41 év) nő és 28 (átlag életkor: 21,75 év) férfi •Minden kísérleti személy döntést hozott az összes szóról, az ingerek fele létező, fele nem létező szó volt •A szavak egy fixációs kereszt felvillanása után jelentek meg és a kísérleti személyek az i (létező) és r (nem létező) billentyűk segítségével válaszoltak

47 Eredmények – helyes válaszok •Mind a gyakoriság mind a hibatípus hatása szignifikáns •A szó gyakorisága és a hibatípus felismerésének gyakorisága között is szignifikáns korreláció figyelhető meg •Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb ritka gyakori

48 Eredmények - reakcióidők •Mind a gyakoriság, mind a hibatípus hatása szignifikáns •A létező szavak elfogadása lassabb, mint a nem létezők elutasítása •A nem létező tövek elutasítása lassabb, mint a nem létező toldalékoké •Nincs egyértelmű fürdőkád hatás •A két magánhangzó harmóniát sértő hibatípus közt nincs különbég, viszont ezekhez képest a nem létező toldalékok elutasítása gyorsabb ritka gyakori

49 Szóközepén előforduló rontások gyakori szavaknál •Gyorsabb reakcióidő, de gyakoribb hibázások •Lehet egy optimalizálási mechanizmus eredménye Reakcióidő Helyes válaszok Gyakori

50 A rontás alattomossága •A rontás előtt lévő 4 karakter előfordulási gyakorisága a MOKK korpuszban, pl.: bölléred - böllérud léru-782 előfordulás lére előfordulás •A két szám hányadosának logaritmusa (ngram-faktor) határozza meg a rontás alattomosságának a mértékét

51 Eredmények – a rontás alattomossága •Az ngram-faktor fordítottan korrelál az alattomossággal •Minél ritkábban fordul elő a rontás előtti betűnégyes az eredeti betűnégyeshez képest, annál kevésbé alattomos a rontás •Minél kevésbé alattomos a rontás annál nagyobb eséllyel veszik észre •A kategoriánként elvégzett repeated measures Anova formálisan is alátámasztja a hipotézist A rontás alattomossága minden hibatípus esetében segít a rontások felismerésének bejósolásában

52 Összefoglalás •A gyakoriság és a hibatípus hatása és ezek kapcsolata mind a helyes válaszok, mind a reakcióidők tekintetében szignifikáns •Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb •A két magánhangzóharmóniát sértő hibatípus közt nincs különbség, viszont ezekhez képest a nem létező toldalékok elutasítása lassabb •Minél alattomosabb egy hiba, annál kisebb eséllyel kerül elutasításra

53 Merre tovább? •Döntések és idők korreláltatása a versengő alakokkal •Entrópia mutatók. Ez elég problémás hiszen a hosszú szavak végére 0-ra csökken az entrópia •Tövek és végződések entrópia kombinálása

54 Összefoglalva •A szókezdet kiemelkedő jelentősége a hozzáférésben a magyarban is nyilvánvaló •A szófelismerés érzékenyebb az entrópia értékekre és az alaktani szerkezetre mint magára a gyakoriságra •Az entrópia változás fontos a szomszédsági hatások értelmezésében

55 Köszönöm a figyelmet és a türelmet


Letölteni ppt "Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke."

Hasonló előadás


Google Hirdetések