Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke.

Hasonló előadás


Az előadások a következő témára: "Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke."— Előadás másolata:

1

2 Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince pleh@cogsci.bme.hu Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára közreműködésével

3 Áttekintés •1950-es években az entrópia fogalma a nyelvi folyamatok értelmezésében. •Kezdeti lelkesedés. •Chomsky kritikája • Az utóbbi évtized a nagy digitális szöveganyagok révén: Shannon reneszánsz •Akusztikus bejóslási (gating) és olvasott szavakra vonatkozó szótári döntési kísérletek a magyarban •Szerkezeti megfontolások mellett az entrópia változás segítségével magyarázni.

4 Csaba Kornél Dani Klára Judit Gating Entrópia LexDec Priming

5 A nyelvészeti információelméleti érdeklődés szakaszai •Korai lelkesedés: Nyelvészeti kritika Visszajön a statisztika a statisztika •1950 Shannon 1960 Chomsky 1990 Kostic • Miller G. Miller Bayern Saffran

6 Információelmélet és nyelv Shannon korában KÓD KONTEXTUS

7 Nyelvi következmények •1. feldolgozási korlát és átvitte információ •2. redundancia és szófelismerés •3. statisztikai közelítések a nyelvhez és a feldolgozhatóság

8 Kapacitáskorlát •George Miller, 1956: a mágikus hetes szám •Nem egységnyi információ mennyiség, hanem tömbök száma korlátoz •Pl. betű-szám-rövid szó •Chunking, tömbösítés •4521173 •452-11-73

9 Hat á s jellegeModalit á sV á ltoz ó kFő eredm é ny Expoz í ci ó s idő a gyakoris á g f ü ggv é nye Vizu á lisGyakoris á g é s felismer é si idő Logaritmikus f ü ggv é ny, megfelel az inform á ci ó nak Zaj rontja a felismer é st Akuszt Jel-zaj ar á ny,sz ó hosszFelismer é s zajban romlik Expoz í ci ó s idő jav í tja a felismer é st Vizu á lisIdő hat á sa 0-55 ms Statisztikai k ö zel í t é s Idő jav í t, de a statisztika hasonl ó s á g ugyan í gy Nyelvtani szerveződ é s jav í t Akuszti kus Jel-zaj ar á ny, sz ó tag, szavak, mondatok Mondat >sz ó >sz ó tag zajban MondatkontextusAkuszti kus Jel-zaj ar á ny, elszigetelt sz ó é s mondat Mondat seg í ti felismer é st Néhány klasszikus szófelismerési hatás Miller, 1951 alapján

10 Információelméleti észlelés kutatás •G. A. Miller •Zaj és észlelés •Expoziciós idő és felismerés

11 Statisztikai közelítések 0-d rendű: mellékesen következmény csinosan bankár hajlik áram 1. rendű : képesség révén mely engem keringő téged a varrás 4. rendű : láttam a meccset befejezik szilveszter éjjel 7 rendű : ismerem zenei képességeit miután bemutatta előtte

12 Kiterjesztve a nyelvre •Értelmességhatás •Szavak és mondatok •Statisztikai közelítés szintje

13 Korai felvetések az információs alapú morfológiáról •Antal László (1964) a szó testében az általános tendencia az entrópia fokozatos csökkenése. Morfémahatáron megszakad ez a csökkenés •igaz-ság-os-ak-at

14 Miller és Chomsky megfordítják a trendet: mindez legfeljebb egy gyenge Markov modell •A Chomsky hierarchia és a pszicholingvisztika •Nemcsak a nyelvtanra, hanem a nyelvi viselkedésre is algebrai modell kell •Abból is nem akármilyen •Véges állapotú nem elég •Az ellenérdekeltek szerint igen, ha a gráf ágaihoz valószínűségeket rendelünk

15 A viselkedés és nyelvi modell •A nyelv minden viselkedés analógiája lesz •Valójában a belső reprezentáció modellje •De modellje a feldolgozásnak is •Ami approximations to English volt, most grammatikalitás lesz

16 Mi történik ma? Induljunk ki a főnevek szerkezetéből Számok rendelhetőek hozzá Elágazás szám token és type entrópia Eltérő döntési pontokon emberünknek emberünkétől emberünkéihez embereinkkel embereinknek emberenként embert emberhez embertől emberig emberék

17 A szófelismerés modelljei Cohort-modell - hallott szavak felismerése már az első szótag alapján • összefüggő szöveg – erős igazodás • izolált szavaknál & értelmetlen szövegek – kevesebb az elvárási hatás • McClelland & Rummelhart (1981) – vizuális felismerési modell a versengésről • Marslen-Wilson (1987) • Kompatibilis szavak automatikus aktivációja • Kiválasztás

18 GATING – a paradigma •Bevett szófelismerés vizsgáló eljárás •Nincsenek magyar adatok •Jól kontrollálható változók •Francois Grosjean (1980) –melyek a szófelismerés kritikus pontjai? –személy szavakból hallgat egyre nagyobb részeket –Hatások: •Gyakoriság (gyakoribbak – rosszabb teljesítmény) •Szóhosszúság (hosszabb szavak rosszabb teljesítmény) •Kontextus (mondatba foglalva jobb a teljesítmény) –a növekvő, sorozatszerű, inkrementális bemutatásnak nincs hatása (Cotton és Grosjean, 1984)

19 Ingerek

20 szógyakoriságLemmagyak. Egyed. pont Első 4 entrópia szó gyakorisá g Lemmagyak. Egyed. pont Első 4 entrópia böllér 861913 böll 0,60309 6 asszon y 50211875692 assz 1,54091 2 cécó 1121963 cécó0 fórum 1676344169063 fóru0 csöbör 631513 csöb0 szoftver 31974712513 szof 0,07662 5 dunna 771863 dunn 0,65235 2 utca 503811418773 utca 1,01991 5 dzsúd ó 1281733 dzsú 1,13982 7 pápa 25598342523 pápa 1,06935 1 güzü 1681723 güzü 0,58320 7 szféra 11602261483 szfé 0,04558 9 gyűszű 571663 gyűs 1,47245 4 tonna 11982182323 tonn 0,59769 5 kégli 661813 kégl0 üveg 12906288873 üveg 3,00468 2 lucsok 661563 lucs 0,77757 5 kenyér 10883332803 keny 1,08198 5 nábob 1211743 nábo0 típus 13921529443 típu 1,06836 7 pőcsik 673 pőcs0 műsor 17263764733 műso 1,10096 4 rücsök 8453 rücs0,49999 ablak 19222709433 abla 0,83728 8 sasszé 341283 sass 1,84941 9 dollár 13876386623 doll 0,02864 8 üzér 14343 üzér 0,44357 6 ünnep 12579504542 ünne 2,83883 2 zsepi 631513 zsep0 japán 17879363393 japá 0,21390 8 bögöly 901615 bögö0 család 710772189995 csal 2,47107 3 cinke 31855 cink 1,94822 3 kérdés 1337715731545 kérd 1,42603 9 dublőr 21825 dubl 1,59445 7 oldal 1047864877285 olda 0,75217 4 krokett 461605 krok 1,38366 1 személ y 1035172921095 szem 4,18736 7 pányv a 281145 pány 1,23177 9 tanár 1034522075615 taná 2,71384 7 pincsi 151085 pinc 2,01443 2 válasz 713642108545 vála 3,11682 3 polka 1001685 polk 0,28998 6 város 1714663379305 váro 1,76785 7 pöröly 431645 pörö 1,02292 3 tanács 951371829865 taná 2,71384 7 rozmár 801885 rozm 0,56054 3 termék 523272036345 term 3,70558 2 stóla 621875 stól0 csapat 527671373085 csap 2,46751 5 trojka 931595 troj0 verseny 595571479106 vers 3,02390 tartár 48806 tart 3,09668 1 század 706031481265 száz 2,25829 stangli 17677 stan1,35673 osztály 394831316505 oszt 3,42107 strázs a 1523507 strá 1,78306 5 nemzet 42976817506 nemz 2,38159 5 svindli 1501987 svin 1,00127 9 vizsga 32912933465 vizs 2,54094

21 A gyakorlatban •Kapuk –90 ms –120 ms –210 ms –300 ms –390 ms •A szavak sorrendje random •Ha helyes volt egy adott kapunál a válasz (KV regisztrálja a RI mérést követően (csak 2. kísérlet) – SRB, mikrofon), akkor ugrik a következő szó 1. kapujára (90 ms) •Konfidencia döntés 1 - egyáltalán nem biztos 2 - inkább nem biztos 3 - inkább biztos 4 - teljesen biztos Inkrementális bemutatás

22 Gating – a szógyakoriság és az egyediségi pont hatása a szófelismerésre •Gyakori – korai •Gyakori – késői •Ritka – korai •Ritka – késői 90 120 210 300 390 (ms) ablak nemzet böllér tartár

23 I. Kísérlet - pontosság •Gyakoriság főhatás •Egyediségi Pont főhatás •Kapu főhatás •Gyakoriság X Egyediségi Pont •Gyakoriság X Kapu •Egyediségi Pont X Kapu •Gyakoriság X Egyediségi Pont X Kapu Helyes válaszok (%) 51 résztvevő; 20 férfi (21,12 év, SD=1,37) és 31 nő (20,41 év, SD=0,97) p<0,001

24 I. Kísérlet - konfidencia •Gyakoriság főhatás •Egyediségi Pont főhatás •Kapu főhatás •Gyakoriság X Egyediségi Pont •Gyakoriság X Kapu •Egyediségi Pont X Kapu •Gyakoriság X Egyediségi Pont X Kapu p<0,001 Konfidencia

25 Összeségében •Egy szótag elég a felismeréshez pl. megfelelően a kohorsz elméletnek •Minél korábbi az egyediség, annál korábbi a felismerés •Gyakoriság segít •Ritka szavak inkább alulról-felfelé •Nyelvtani és fonotaktikai megszorítás is segít

26 Gating és entrópia •Prefixtypeoccurenceslog: Az adott prefixummal kezdődő szótárban előforduló szavak számának 2-es alapú logaritmusa •prefixfreqlog: Az adott prefixummal kezdődő, szótárban előforduló tokenek számának 2-es alapú logaritmusa •entrópia – A webkorpusz feltételes entrópiája, adott prefixum feltételezése mellett. Informálisan, a fennmaradó bizonytalanságunk mértéke, amikor egy ismeretlen szó egy adott kezdőszeletét már megismertük. •entropychange – az entrópia csökkenése az előző kapuhoz képest (1. kapunál nincs értelmezve).

27 Felhasznált MOKK korpusz Korpusz Oldal (millió) token (millió type (millió) Teljes3,5148619,1 60% Idegen kiiktat 3,125131015,4 92% Csak diakritikus 1,91892810,9 96% Elütés mint a normálban 1,2215897,2

28 Gating és entrópia • Gate főhatás • ACC főhatás • Gate X ACC interakció p<0,001 Entrópia Z_score • Egyediségi pont főhatás • Gyakoriság főhatás • Gyakoriság X Egyediségi pont interakció

29 II. Kísérlet •GATING –Megszorítás Főnév –megszorítás nélkül •„On-line” feldolgozáshoz közelebb áll –RT (response box – mikrofon) –Konfidencia-ítélet (1-2-3-4) •Résztvevők –14 fő (7 férfi (28,16 év, SD=14,05), 7 nő (28,0 év, SD=13,14)) •Ingerek –Ugyanaz, mint az 1. kísérletben (Instrukció)

30 Az instrukció Szavak részleteit fogod hallani. A feladatod, hogy kitaláld, mi lehet a szó. CSAK RAG NÉLKÜLI KÉTSZÓTAGOS FŐNEVEK lehetnek. Azt is meg kell mondd a válasz után, hogy mennyire vagy biztos abban, hogy a tipped helyes volt. Minden elhangzott részlet után válaszolnod kell és biztossági ítéletet kell hoznod, de mindig csak az aktuális elhangzott részletre vonatkozóan. Indulhat a feladat? (Tedd fel a fülhallgatót!)

31 Felülről-Lefelé hatások •Le lehet-e szűkíteni egy adott csoportra a keresést?

32 Pontosság • A korai egyediségi pontúak esetén a kisebb kapuknál segít, a megszorítás • A megszorítás a pontosságot a késői egyediségi pontú ingerek esetén növeli (gyakoriságtól függetlenül)

33 Reakcióidő • a megszorítástól lassabbak lesznek a reakcióidők függetlenül a gyakoriságtól és az egyediségi ponttól. • a ritka szavaknál egyediségi ponttól függetlenül a legkisebb kapu esetén nem volt helyes válasz – így itt nincs RI sem.

34 Konfidencia • A megszorítás a gyakori- késői egyediségi pontú szavak esetén a hosszabb kapuktól (210+) kezdve csökkenti a biztossági ítéletet

35 Entrópia és egyediségi pont Entrópia akkor is szignifikáns, ha az egyediségi pont és a gyakoriság ellenőrzött

36 Entrópia magasabb a gyakori szavaknál Egyediségi pont: csökkent entrópia

37 •Az entrópia jó közelítője a szófelismerés pontosságának •A top-down megszorítás növeli a pontosságot, de lassítja a válaszadást •Reakcióidők összevetése az entrópia- mutatókkal Gating

38 Eleje – vége jóEleje jóVége jó Ha egy pinaglló mbengbereti a sznyráát Pgenbiken, az akár tdoánrot is getheszejrt Amikerában. Vinalgkábun mdenin mninnedel öfüsszegg, menidn cseketüedlenk abápjalan vtja áltoztatha meg a jvöőt. Még elzépeklni is reémes, A nő nyumlogaar vákgyi. A házsagaás elrtotmol, a láany kamkdioasz- ő eregy kevbéés tajallá a hetlyé, és úgy ézir, rdviöidőre mujszá tálvo keneirlü a hétkölótpaijzan. Eztré fodjaag el egy bajatrá megtáváhí, aknike van egy kis motjeel A ágmany acsk sesűrkeéget üszl és aszőrekot. Max enm thite nolva, ohgy a ajsát őrbén lkel taszegpamtalnia zet. Jó arzsu olvt, kai glodoban él a leséefge és álksinya lelmett. A A szavak eleje számít Fazekas szövegjavítási feladat

39 A szavak rekonstrukciója sikeresebb, ha mind a szó eleje mind a vége helyesen van leírva

40 Az előfeszítési helyzet RPOBLÉMA PROBLÉMA

41 Előfeszítési hatás a kezdetnél: A rontott szó lelassít az elején és a végén PORBLÉMA PROLBÉMA PROBLMÉA PROBLÉAM Várhelyi Klára

42 Döntések hosszú sok morfémás szavaknál: Pléh és Juhász 1995 bathtub effect Aithchison

43 Hasonló szavak, mint a gatingnél Böllár Tő Böllér-ak bölléruk Jel Böllér-nak böllér-nuk Rag Böllér-ak-nek böllér-uk-nek Jel belül

44 A vizsgálati anyag alapja •60 kétszótagú főnév, Németh Kornél gating vizsgálata alapján •Forrás: MOKK korpusz (www.szoszablya.hu) •4 csoport egyediségi pont és gyakoriság alapján GyakoriRitka Koraikenyér, műsor böllér, gyűszű Későiváros, csapat pincsi, krokett

45 A ragozott szavak keny é rnek keny é rben keny é rre kenyerek kenyerak/ kenyerikkenyerem kenyeram/ kenyerimkenyered kenyerad/ kenyerid kenyereknek kenyeraknek/k enyeriknekkenyerekben kenyerakben/ kenyeriken kenyerek re kenyerakra/ kenyerikra kenyeremnek kenyeramnek/ kenyerimnekkenyeremben kenyeramben /kenyerimben kenyere mre kenyeramra/ kenyerimre kenyerednek kenyeradnek/ kenyeridnekkenyeredben kenyeradben/ kenyeridben kenyered re kenyeradra/ kenyeridra •Előfordulások: csak tő, jel, rag vagy jel és rag •Rontás a tőben (kunyérem) a jelben (kenyérid) vagy a ragban (kenyeredbun) •Létező, de rosszul illesztett (kenyérim) vagy nem létező toldalékok (kenyérum)

46 A vizsgálat felépítése •72, 18 és 34 év közötti résztvevő a Budapesti Műszaki Egyetem hallgatói közül •44 (átlag életkor: 21,41 év) nő és 28 (átlag életkor: 21,75 év) férfi •Minden kísérleti személy döntést hozott az összes szóról, az ingerek fele létező, fele nem létező szó volt •A szavak egy fixációs kereszt felvillanása után jelentek meg és a kísérleti személyek az i (létező) és r (nem létező) billentyűk segítségével válaszoltak

47 Eredmények – helyes válaszok •Mind a gyakoriság mind a hibatípus hatása szignifikáns •A szó gyakorisága és a hibatípus felismerésének gyakorisága között is szignifikáns korreláció figyelhető meg •Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb ritka gyakori

48 Eredmények - reakcióidők •Mind a gyakoriság, mind a hibatípus hatása szignifikáns •A létező szavak elfogadása lassabb, mint a nem létezők elutasítása •A nem létező tövek elutasítása lassabb, mint a nem létező toldalékoké •Nincs egyértelmű fürdőkád hatás •A két magánhangzó harmóniát sértő hibatípus közt nincs különbég, viszont ezekhez képest a nem létező toldalékok elutasítása gyorsabb ritka gyakori

49 Szóközepén előforduló rontások gyakori szavaknál •Gyorsabb reakcióidő, de gyakoribb hibázások •Lehet egy optimalizálási mechanizmus eredménye Reakcióidő Helyes válaszok Gyakori

50 A rontás alattomossága •A rontás előtt lévő 4 karakter előfordulási gyakorisága a MOKK korpuszban, pl.: bölléred - böllérud léru-782 előfordulás lére-75283 előfordulás •A két szám hányadosának logaritmusa (ngram-faktor) határozza meg a rontás alattomosságának a mértékét

51 Eredmények – a rontás alattomossága •Az ngram-faktor fordítottan korrelál az alattomossággal •Minél ritkábban fordul elő a rontás előtti betűnégyes az eredeti betűnégyeshez képest, annál kevésbé alattomos a rontás •Minél kevésbé alattomos a rontás annál nagyobb eséllyel veszik észre •A kategoriánként elvégzett repeated measures Anova formálisan is alátámasztja a hipotézist A rontás alattomossága minden hibatípus esetében segít a rontások felismerésének bejósolásában

52 Összefoglalás •A gyakoriság és a hibatípus hatása és ezek kapcsolata mind a helyes válaszok, mind a reakcióidők tekintetében szignifikáns •Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb •A két magánhangzóharmóniát sértő hibatípus közt nincs különbség, viszont ezekhez képest a nem létező toldalékok elutasítása lassabb •Minél alattomosabb egy hiba, annál kisebb eséllyel kerül elutasításra

53 Merre tovább? •Döntések és idők korreláltatása a versengő alakokkal •Entrópia mutatók. Ez elég problémás hiszen a hosszú szavak végére 0-ra csökken az entrópia •Tövek és végződések entrópia kombinálása

54 Összefoglalva •A szókezdet kiemelkedő jelentősége a hozzáférésben a magyarban is nyilvánvaló •A szófelismerés érzékenyebb az entrópia értékekre és az alaktani szerkezetre mint magára a gyakoriságra •Az entrópia változás fontos a szomszédsági hatások értelmezésében

55 Köszönöm a figyelmet és a türelmet


Letölteni ppt "Az entrópia fogalomrendszere a nyelvi elemzésben Előadás a BME TTK Wigner Jenő Szakkollégiumában, 2011.november 17 Pléh Csaba BME Kognitív Tudományi Tanszéke."

Hasonló előadás


Google Hirdetések