Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Információelméleti szempontok a többmorfémás magyar szavak

Hasonló előadás


Az előadások a következő témára: "Információelméleti szempontok a többmorfémás magyar szavak"— Előadás másolata:

1 Információelméleti szempontok a többmorfémás magyar szavak
feldolgozásának értelmezésében Előadás a Magyar Nyelvtudományi Társaság Általános Nyelvészeti Szakosztályában 2011. Október 19 Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára közreműködésével

2 Csaba Kornél Dani Klára Judit
Entrópia Gating LexDec Priming

3 Áttekintés Az információelmélet karrierje a pszicholingvisztikában
A magyar főnevek entrópia szempontú elemzése Gating a magyar tőszavak felismerésében Szó eleje hatások Morfológiai komplexitás és entrópia a szódöntésekben

4 A nyelvészeti információelméleti érdeklődés szakaszai
Korai lelkesedés: Nyelvészeti kritika Visszajön a statisztika a statisztika 1950 Shannon Chomsky Kostic Miller G. Miller Bayern Saffran

5 Információelméleti észlelés kutatás
G. A. Miller Zaj és észlelés Expoziciós idő és felismerés

6 Kiterjesztve a nyelvre
Értelmességhatás Szavak és mondatok Statisztikai közelítés szintje

7 Korai felvetések az információs alapú morfológiáról
igaz-ság-os-ak-at Antal László (1964) a szó testében az általános tendencia az entrópia fokozatos csökkenése. Morfémahatáron megszakad ez a csökkenés

8 Miller és Chomsky megfordítják a trendet: mindez legfeljebb egy gyenge Markov modell
A Chomsky hierarchia és a pszicholingvisztika Nemcsak a nyelvtanra, hanem a nyelvi viselkedésre is algebrai modell kell Abból is nem akármilyen Véges állapotú nem elég Az ellenérdekeltek szerint igen, ha a gráf ágaihoz valószínűségeket rendelünk

9 A viselkedés és nyelvi modell
A nyelv minden viselkedés analógiája lesz Valójában a belső reprezentáció modellje De modellje a feldolgozásnak is Ami approximations to English volt, most grammatikalitás lesz

10 Mi történik ma? Induljunk ki a főnevek szerkezetéből
emberünknek emberünkétől emberünkéihez embereinkkel embereinknek emberenként embert emberhez embertől emberig emberék Számok rendelhetőek hozzá Elágazás szám token és type entrópia Eltérő döntési pontokon

11 Kompatibilis szavak automatikus aktivációja Kiválasztás
A szófelismerés modelljei Cohort-modell - hallott szavak felismerése már az első szótag alapján McClelland & Rummelhart (1981) – vizuális felismerési modella versengésről Marslen-Wilson (1987) Kompatibilis szavak automatikus aktivációja Kiválasztás összefüggő szöveg – erős igazodás izolált szavaknál & értelmetlen szövegek – kevesebb az elvárási hatás

12 GATING – a paradigma Bevett szófelismerés vizsgáló eljárás
Nincsenek magyar adatok Jól kontrollálható változók Francois Grosjean (1980) melyek a szófelismerés kritikus pontjai? személy szavakból hallgat egyre nagyobb részeket Hatások: Gyakoriság (gyakoribbak – rosszabb teljesítmény) Szóhosszúság (hosszabb szavak rosszabb teljesítmény) Kontextus (mondatba foglalva jobb a teljesítmény) a növekvő, sorozatszerű, inkrementális bemutatásnak nincs hatása (Cotton és Grosjean, 1984)

13 Ingerek 30 ritka (<152; ~67,23) 30 gyakori (>11982; ~55770)
60 szó a szószablyából 30 ritka (<152; ~67,23) 15 korai egyediségi pontú 15 késői egyediségi pontú 30 gyakori (>11982; ~55770)

14 RITKA GYAKORI Korai Késői asszony böllér fórum cécó szoftver csöbör
gyakoriság Lemmagyak. Egyed. pont Első 4 entrópia böllér 86 191 3 böll 0,603096 asszony 50211 87569 2 assz 1,540912 cécó 112 196 fórum 167634 416906 fóru csöbör 63 151 csöb szoftver 31974 71251 szof 0,076625 dunna 77 186 dunn 0,652352 utca 50381 141877 1,019915 dzsúdó 128 173 dzsú 1,139827 pápa 25598 34252 1,069351 güzü 168 172 0,583207 szféra 11602 26148 szfé 0,045589 gyűszű 57 166 gyűs 1,472454 tonna 11982 18232 tonn 0,597695 kégli 66 181 kégl üveg 12906 28887 3,004682 lucsok 156 lucs 0,777575 kenyér 10883 33280 keny 1,081985 nábob 121 174 nábo típus 13921 52944 típu 1,068367 pőcsik 6 7 pőcs műsor 17263 76473 műso 1,100964 rücsök 8 45 rücs 0,49999 ablak 19222 70943 abla 0,837288 sasszé 34 sass 1,849419 dollár 13876 38662 doll 0,028648 üzér 14 0,443576 ünnep 12579 50454 ünne 2,838832 zsepi zsep japán 17879 36339 japá 0,213908 bögöly 90 161 5 bögö család 71077 218999 csal 2,471073 cinke 185 cink 1,948223 kérdés 133771 573154 kérd 1,426039 dublőr 21 82 dubl 1,594457 oldal 104786 487728 olda 0,752174 krokett 46 160 krok 1,383661 személy 103517 292109 szem 4,187367 pányva 28 114 pány 1,231779 tanár 103452 207561 taná 2,713847 pincsi 15 108 pinc 2,014432 válasz 71364 210854 vála 3,116823 polka 100 polk 0,289986 város 171466 337930 váro 1,767857 pöröly 43 164 pörö 1,022923 tanács 95137 182986 rozmár 80 188 rozm 0,560543 termék 52327 203634 term 3,705582 stóla 62 187 stól csapat 52767 137308 csap 2,467515 trojka 93 159 troj verseny 59557 147910 vers  3,02390 tartár 48 tart 3,096681 század 70603 148126 száz  2,25829 stangli 17 67 stan 1,35673 osztály 39483 131650 oszt  3,42107 strázsa 152 350 strá 1,783065 nemzet 42976 81750 nemz 2,381595 svindli 150 198 svin 1,001279 vizsga 32912 93346 vizs  2,54094 Korai RITKA GYAKORI Késői

15 A gyakorlatban Kapuk A szavak sorrendje random
90 ms 120 ms 210 ms 300 ms 390 ms A szavak sorrendje random Ha helyes volt egy adott kapunál a válasz (KV regisztrálja a RI mérést követően (csak 2. kísérlet) – SRB, mikrofon), akkor ugrik a következő szó 1. kapujára (90 ms) Konfidencia döntés 1 - egyáltalán nem biztos 2 - inkább nem biztos 3 - inkább biztos 4 - teljesen biztos Inkrementális bemutatás

16 Gating – a szógyakoriság és az egyediségi pont hatása a szófelismerésre
Gyakori – korai Gyakori – késői Ritka – korai Ritka – késői (ms) ablak nemzet böllér tartár

17 I. Kísérlet - pontosság Gyakoriság főhatás Egyediségi Pont főhatás
Kapu főhatás Gyakoriság X Egyediségi Pont Gyakoriság X Kapu Egyediségi Pont X Kapu Gyakoriság X Egyediségi Pont X Kapu Helyes válaszok (%) p<0,001 51 résztvevő; 20 férfi (21,12 év, SD=1,37) és 31 nő (20,41 év, SD=0,97)

18 I. Kísérlet - konfidencia
Gyakoriság főhatás Egyediségi Pont főhatás Kapu főhatás Gyakoriság X Egyediségi Pont Gyakoriság X Kapu Egyediségi Pont X Kapu Gyakoriság X Egyediségi Pont X Kapu p<0,001 Konfidencia

19 Összeségében Egy szótag elég a felismeréshez pl. megfelelően a kohorsz elméletnek Minél korábbi az egyediség, annál korábbi a felismerés Gyakoriság segít Ritka szavak inkább alulról-felfelé Nyelvtani és fonotaktikai megszorítás is segít

20 Gating és entrópia Prefixtypeoccurenceslog: Az adott prefixummal kezdődő szótárban előforduló szavak számának 2-es alapú logaritmusa prefixfreqlog: Az adott prefixummal kezdődő, szótárban előforduló tokenek számának 2-es alapú logaritmusa entrópia – A webkorpusz feltételes entrópiája, adott prefixum feltételezése mellett. Informálisan, a fennmaradó bizonytalanságunk mértéke, amikor egy ismeretlen szó egy adott kezdőszeletét már megismertük. entropychange – az entrópia csökkenése az előző kapuhoz képest (1. kapunál nincs értelmezve). w egy szo. x egy prefixum. W a webkorpusz. Formalisan ez egy valvaltozo, ami veleltlenszeruen sorsol egy szot gyakorisag-ara'nyosan a korpuszbol. p(w|x) akkor peldaul annak az eselye, hogy a w a veletlenszeruen valasztott szo, FELTEVE, hogy azt mar tudjuk, hogy x-szel kezdodik. 20

21 Felhasznált MOKK korpusz
Oldal (millió) token (millió type (millió) Teljes 3,5 1486 19,1 60% Idegen kiiktat 3,125 1310 15,4 92% Csak diakritikus 1,918 928 10,9 96% Elütés mint a normálban 1,221 589 7,2

22 Gating és entrópia Entrópia Z_score Entrópia Z_score
Egyediségi pont főhatás Gyakoriság főhatás Gyakoriság X Egyediségi pont interakció Gate főhatás ACC főhatás Gate X ACC interakció p<0,001

23 II. Kísérlet (Instrukció) GATING Megszorítás Főnév megszorítás nélkül
„On-line” feldolgozáshoz közelebb áll RT (response box – mikrofon) Konfidencia-ítélet ( ) Résztvevők 14 fő (7 férfi (28,16 év, SD=14,05), 7 nő (28,0 év, SD=13,14)) Ingerek Ugyanaz, mint az 1. kísérletben (Instrukció)

24 Az instrukció Szavak részleteit fogod hallani. A feladatod, hogy kitaláld, mi lehet a szó. CSAK RAG NÉLKÜLI KÉTSZÓTAGOS FŐNEVEK lehetnek. Azt is meg kell mondd a válasz után, hogy mennyire vagy biztos abban, hogy a tipped helyes volt. Minden elhangzott részlet után válaszolnod kell és biztossági ítéletet kell hoznod, de mindig csak az aktuális elhangzott részletre vonatkozóan. Indulhat a feladat? (Tedd fel a fülhallgatót!)

25 Felülről-Lefelé hatások
Le lehet-e szűkíteni egy adott csoportra a keresést?

26 Pontosság A korai egyediségi pontúak esetén a kisebb kapuknál segít, a megszorítás A megszorítás a pontosságot a késői egyediségi pontú ingerek esetén növeli (gyakoriságtól függetlenül)

27 Reakcióidő a megszorítástól lassabbak lesznek a reakcióidők függetlenül a gyakoriságtól és az egyediségi ponttól. a ritka szavaknál egyediségi ponttól függetlenül a legkisebb kapu esetén nem volt helyes válasz – így itt nincs RI sem.

28 Konfidencia A megszorítás a gyakori-késői egyediségi pontú szavak esetén a hosszabb kapuktól (210+) kezdve csökkenti a biztossági ítéletet

29 Entrópia és egyediségi pont
Entrópia akkor is szignifikáns, ha az egyediségi pont és a gyakoriság ellenőrzött

30 Entrópia magasabb a gyakori szavaknál Egyediségi pont: csökkent entrópia

31 Gating Az entrópia jó közelítője a szófelismerés pontosságának
A top-down megszorítás növeli a pontosságot, de lassítja a válaszadást Reakcióidők összevetése az entrópia-mutatókkal

32 A szavak eleje számít Fazekas szövegjavítási feladat
Eleje – vége jó Eleje jó Vége jó Ha egy pinaglló mbengbereti a sznyráát Pgenbiken, az akár tdoánrot is getheszejrt Amikerában. Vinalgkábun mdenin mninnedel öfüsszegg, menidn cseketüedlenk abápjalan vtja áltoztatha meg a jvöőt. Még elzépeklni is reémes, A nő nyumlogaar vákgyi. A házsagaás elrtotmol, a láany kamkdioasz- ő eregy kevbéés tajallá a hetlyé, és úgy ézir, rdviöidőre mujszá tálvo keneirlü a hétkölótpaijzan. Eztré fodjaag el egy bajatrá megtáváhí, aknike van egy kis motjeel A ágmany acsk sesűrkeéget üszl és aszőrekot. Max enm thite nolva, ohgy a ajsát őrbén lkel taszegpamtalnia zet. Jó arzsu olvt, kai glodoban él a leséefge és álksinya lelmett. A

33 A szavak rekonstrukciója sikeresebb, ha mind a szó eleje mind a vége helyesen van leírva

34 Az előfeszítési helyzet
RPOBLÉMA PROBLÉMA

35 Előfeszítési hatás a kezdetnél: A rontott szó lelassít az elején és a végén
Várhelyi Klára PORBLÉMA PROLBÉMA PROBLMÉA PROBLÉAM

36 Döntések hosszú sok morfémás szavaknál: Pléh és Juhász 1995
bathtub effect Aithchison

37 Hasonló szavak, mint a gatingnél
Böllár Tő Böllér-ak bölléruk Jel Böllér-nak böllér-nuk Rag Böllér-ak-nek böllér-uk-nek Jel belül

38 A vizsgálati anyag alapja
60 kétszótagú főnév, Németh Kornél gating vizsgálata alapján Forrás: MOKK korpusz ( 4 csoport egyediségi pont és gyakoriság alapján Gyakori Ritka Korai kenyér, műsor böllér , gyűszű Késői város , csapat pincsi , krokett

39 A ragozott szavak Előfordulások: csak tő, jel, rag vagy jel és rag
Rontás a tőben (kunyérem) a jelben (kenyérid) vagy a ragban (kenyeredbun) Létező, de rosszul illesztett (kenyérim) vagy nem létező toldalékok (kenyérum) kenyérnek kenyérben kenyérre kenyerek kenyerak/ kenyerik kenyerem kenyeram/ kenyerim kenyered kenyerad/ kenyerid kenyereknek kenyeraknek/kenyeriknek kenyerekben kenyerakben/ kenyeriken kenyerekre kenyerakra/ kenyerikra kenyeremnek kenyeramnek/kenyerimnek kenyeremben kenyeramben/kenyerimben kenyeremre kenyeramra/kenyerimre kenyerednek kenyeradnek/ kenyeridnek kenyeredben kenyeradben/ kenyeridben kenyeredre kenyeradra/ kenyeridra

40 A vizsgálat felépítése
72, 18 és 34 év közötti résztvevő a Budapesti Műszaki Egyetem hallgatói közül 44 (átlag életkor: 21,41 év) nő és 28 (átlag életkor: 21,75 év) férfi Minden kísérleti személy döntést hozott az összes szóról, az ingerek fele létező, fele nem létező szó volt A szavak egy fixációs kereszt felvillanása után jelentek meg és a kísérleti személyek az i (létező) és r (nem létező) billentyűk segítségével válaszoltak

41 Eredmények – helyes válaszok
ritka gyakori Mind a gyakoriság mind a hibatípus hatása szignifikáns A szó gyakorisága és a hibatípus felismerésének gyakorisága között is szignifikáns korreláció figyelhető meg Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb

42 Eredmények - reakcióidők
Mind a gyakoriság, mind a hibatípus hatása szignifikáns A létező szavak elfogadása lassabb, mint a nem létezők elutasítása A nem létező tövek elutasítása lassabb, mint a nem létező toldalékoké Nincs egyértelmű fürdőkád hatás A két magánhangzó harmóniát sértő hibatípus közt nincs különbég, viszont ezekhez képest a nem létező toldalékok elutasítása gyorsabb ritka gyakori

43 Szóközepén előforduló rontások gyakori szavaknál
Reakcióidő Helyes válaszok Gyorsabb reakcióidő, de gyakoribb hibázások Lehet egy optimalizálási mechanizmus eredménye

44 A rontás alattomossága
A rontás előtt lévő 4 karakter előfordulási gyakorisága a MOKK korpuszban, pl.: bölléred - böllérud léru-782 előfordulás lére előfordulás A két szám hányadosának logaritmusa (ngram-faktor) határozza meg a rontás alattomosságának a mértékét

45 Eredmények – a rontás alattomossága
Az ngram-faktor fordítottan korrelál az alattomossággal Minél ritkábban fordul elő a rontás előtti betűnégyes az eredeti betűnégyeshez képest, annál kevésbé alattomos a rontás Minél kevésbé alattomos a rontás annál nagyobb eséllyel veszik észre A kategoriánként elvégzett repeated measures Anova formálisan is alátámasztja a hipotézist A rontás alattomossága minden hibatípus esetében segít a rontások felismerésének bejósolásában

46 Összefoglalás A gyakoriság és a hibatípus hatása és ezek kapcsolata mind a helyes válaszok, mind a reakcióidők tekintetében szignifikáns Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb A két magánhangzóharmóniát sértő hibatípus közt nincs különbség, viszont ezekhez képest a nem létező toldalékok elutasítása lassabb Minél alattomosabb egy hiba, annál kisebb eséllyel kerül elutasításra

47 Merre tovább? Döntések és idők korreláltatása a versengő alakokkal
Entrópia mutatók . Ez elég problémás hiszen a hosszú szavak végére 0-ra csökken az entrópia Tövek és végződések entrópia kombinálása

48 Összefoglalva A szókezdet kiemelkedő jelentősége a hozzáférésben a magyarban is nyilvánvaló A szófelismerés érzékenyebb az entrópia értékekre és az alaktani szerkezetre mint magára a gyakoriságra Az entrópia változás fontos a szomszédsági hatások értelmezésében

49 Köszönöm a figyelmet és a türelmet


Letölteni ppt "Információelméleti szempontok a többmorfémás magyar szavak"

Hasonló előadás


Google Hirdetések