Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára.

Hasonló előadás


Az előadások a következő témára: "Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára."— Előadás másolata:

1

2 Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince pleh@cogsci.bme.hu Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára közreműködésével Információelméleti szempontok a többmorfémás magyar szavak feldolgozásának értelmezésében Előadás a Magyar Nyelvtudományi Társaság Általános Nyelvészeti Szakosztályában 2011. Október 19

3 Csaba Kornél Dani Klára Judit Gating Entrópia LexDec Priming

4 Áttekintés •Az információelmélet karrierje a pszicholingvisztikában •A magyar főnevek entrópia szempontú elemzése •Gating a magyar tőszavak felismerésében •Szó eleje hatások •Morfológiai komplexitás és entrópia a szódöntésekben

5 A nyelvészeti információelméleti érdeklődés szakaszai •Korai lelkesedés: Nyelvészeti kritika Visszajön a statisztika a statisztika •1950 Shannon 1960 Chomsky 1990 Kostic • Miller G. Miller Bayern Saffran

6 Információelméleti észlelés kutatás •G. A. Miller •Zaj és észlelés •Expoziciós idő és felismerés

7 Kiterjesztve a nyelvre •Értelmességhatás •Szavak és mondatok •Statisztikai közelítés szintje

8 Korai felvetések az információs alapú morfológiáról •Antal László (1964) a szó testében az általános tendencia az entrópia fokozatos csökkenése. Morfémahatáron megszakad ez a csökkenés •igaz-ság-os-ak-at

9 Miller és Chomsky megfordítják a trendet: mindez legfeljebb egy gyenge Markov modell •A Chomsky hierarchia és a pszicholingvisztika •Nemcsak a nyelvtanra, hanem a nyelvi viselkedésre is algebrai modell kell •Abból is nem akármilyen •Véges állapotú nem elég •Az ellenérdekeltek szerint igen, ha a gráf ágaihoz valószínűségeket rendelünk

10 A viselkedés és nyelvi modell •A nyelv minden viselkedés analógiája lesz •Valójában a belső reprezentáció modellje •De modellje a feldolgozásnak is •Ami approximations to English volt, most grammatikalitás lesz

11 Mi történik ma? Induljunk ki a főnevek szerkezetéből Számok rendelhetőek hozzá Elágazás szám token és type entrópia Eltérő döntési pontokon emberünknek emberünkétől emberünkéihez embereinkkel embereinknek emberenként embert emberhez embertől emberig emberék

12 A szófelismerés modelljei Cohort-modell - hallott szavak felismerése már az első szótag alapján • összefüggő szöveg – erős igazodás • izolált szavaknál & értelmetlen szövegek – kevesebb az elvárási hatás • McClelland & Rummelhart (1981) – vizuális felismerési modell a versengésről • Marslen-Wilson (1987) • Kompatibilis szavak automatikus aktivációja • Kiválasztás

13 GATING – a paradigma •Bevett szófelismerés vizsgáló eljárás •Nincsenek magyar adatok •Jól kontrollálható változók •Francois Grosjean (1980) –melyek a szófelismerés kritikus pontjai? –személy szavakból hallgat egyre nagyobb részeket –Hatások: •Gyakoriság (gyakoribbak – rosszabb teljesítmény) •Szóhosszúság (hosszabb szavak rosszabb teljesítmény) •Kontextus (mondatba foglalva jobb a teljesítmény) –a növekvő, sorozatszerű, inkrementális bemutatásnak nincs hatása (Cotton és Grosjean, 1984)

14 Ingerek

15 szógyakoriságLemmagyak.Egyed. pont Első 4 entrópia szógyakoriságLemmagyak.Egyed. pont Első 4 entrópia böllér 861913 böll0,603096 asszony 50211875692 assz1,540912 cécó 1121963 cécó0 fórum 1676344169063 fóru0 csöbör 631513 csöb0 szoftver 31974712513 szof0,076625 dunna 771863 dunn0,652352 utca 503811418773 utca1,019915 dzsúdó 1281733 dzsú1,139827 pápa 25598342523 pápa1,069351 güzü 1681723 güzü0,583207 szféra 11602261483 szfé0,045589 gyűszű 571663 gyűs1,472454 tonna 11982182323 tonn0,597695 kégli 661813 kégl0 üveg 12906288873 üveg3,004682 lucsok 661563 lucs0,777575 kenyér 10883332803 keny1,081985 nábob 1211743 nábo0 típus 13921529443 típu1,068367 pőcsik 673 pőcs0 műsor 17263764733 műso1,100964 rücsök 8453 rücs0,49999 ablak 19222709433 abla0,837288 sasszé 341283 sass1,849419 dollár 13876386623 doll0,028648 üzér 14343 üzér0,443576 ünnep 12579504542 ünne2,838832 zsepi 631513 zsep0 japán 17879363393 japá0,213908 bögöly 901615 bögö0 család 710772189995 csal2,471073 cinke 31855 cink1,948223 kérdés 1337715731545 kérd1,426039 dublőr 21825 dubl1,594457 oldal 1047864877285 olda0,752174 krokett 461605 krok1,383661 személy 1035172921095 szem4,187367 pányva 281145 pány1,231779 tanár 1034522075615 taná2,713847 pincsi 151085 pinc2,014432 válasz 713642108545 vála3,116823 polka 1001685 polk0,289986 város 1714663379305 váro1,767857 pöröly 431645 pörö1,022923 tanács 951371829865 taná2,713847 rozmár 801885 rozm0,560543 termék 523272036345 term3,705582 stóla 621875 stól0 csapat 527671373085 csap2,467515 trojka 931595 troj0 verseny 595571479106 vers 3,02390 tartár 48806 tart3,096681 század 706031481265 száz 2,25829 stangli 17677 stan1,35673 osztály 394831316505 oszt 3,42107 strázsa 1523507 strá1,783065 nemzet 42976817506 nemz 2,381595 svindli 1501987 svin1,001279 vizsga 32912933465 vizs 2,54094

16 A gyakorlatban •Kapuk –90 ms –120 ms –210 ms –300 ms –390 ms •A szavak sorrendje random •Ha helyes volt egy adott kapunál a válasz (KV regisztrálja a RI mérést követően (csak 2. kísérlet) – SRB, mikrofon), akkor ugrik a következő szó 1. kapujára (90 ms) •Konfidencia döntés 1 - egyáltalán nem biztos 2 - inkább nem biztos 3 - inkább biztos 4 - teljesen biztos Inkrementális bemutatás

17 Gating – a szógyakoriság és az egyediségi pont hatása a szófelismerésre •Gyakori – korai •Gyakori – késői •Ritka – korai •Ritka – késői 90 120 210 300 390 (ms) ablak nemzet böllér tartár

18 I. Kísérlet - pontosság •Gyakoriság főhatás •Egyediségi Pont főhatás •Kapu főhatás •Gyakoriság X Egyediségi Pont •Gyakoriság X Kapu •Egyediségi Pont X Kapu •Gyakoriság X Egyediségi Pont X Kapu Helyes válaszok (%) 51 résztvevő; 20 férfi (21,12 év, SD=1,37) és 31 nő (20,41 év, SD=0,97) p<0,001

19 I. Kísérlet - konfidencia •Gyakoriság főhatás •Egyediségi Pont főhatás •Kapu főhatás •Gyakoriság X Egyediségi Pont •Gyakoriság X Kapu •Egyediségi Pont X Kapu •Gyakoriság X Egyediségi Pont X Kapu p<0,001 Konfidencia

20 Összeségében •Egy szótag elég a felismeréshez pl. megfelelően a kohorsz elméletnek •Minél korábbi az egyediség, annál korábbi a felismerés •Gyakoriság segít •Ritka szavak inkább alulról-felfelé •Nyelvtani és fonotaktikai megszorítás is segít

21 Gating és entrópia •Prefixtypeoccurenceslog: Az adott prefixummal kezdődő szótárban előforduló szavak számának 2-es alapú logaritmusa •prefixfreqlog: Az adott prefixummal kezdődő, szótárban előforduló tokenek számának 2-es alapú logaritmusa •entrópia – A webkorpusz feltételes entrópiája, adott prefixum feltételezése mellett. Informálisan, a fennmaradó bizonytalanságunk mértéke, amikor egy ismeretlen szó egy adott kezdőszeletét már megismertük. •entropychange – az entrópia csökkenése az előző kapuhoz képest (1. kapunál nincs értelmezve).

22 Felhasznált MOKK korpusz Korpusz Oldal (millió) token (millió type (millió) Teljes3,5148619,1 60% Idegen kiiktat 3,125131015,4 92% Csak diakritikus 1,91892810,9 96% Elütés mint a normálban 1,2215897,2

23 Gating és entrópia • Gate főhatás • ACC főhatás • Gate X ACC interakció p<0,001 Entrópia Z_score • Egyediségi pont főhatás • Gyakoriság főhatás • Gyakoriság X Egyediségi pont interakció

24 II. Kísérlet •GATING –Megszorítás Főnév –megszorítás nélkül •„On-line” feldolgozáshoz közelebb áll –RT (response box – mikrofon) –Konfidencia-ítélet (1-2-3-4) •Résztvevők –14 fő (7 férfi (28,16 év, SD=14,05), 7 nő (28,0 év, SD=13,14)) •Ingerek –Ugyanaz, mint az 1. kísérletben (Instrukció)

25 Az instrukció Szavak részleteit fogod hallani. A feladatod, hogy kitaláld, mi lehet a szó. CSAK RAG NÉLKÜLI KÉTSZÓTAGOS FŐNEVEK lehetnek. Azt is meg kell mondd a válasz után, hogy mennyire vagy biztos abban, hogy a tipped helyes volt. Minden elhangzott részlet után válaszolnod kell és biztossági ítéletet kell hoznod, de mindig csak az aktuális elhangzott részletre vonatkozóan. Indulhat a feladat? (Tedd fel a fülhallgatót!)

26 Felülről-Lefelé hatások •Le lehet-e szűkíteni egy adott csoportra a keresést?

27 Pontosság • A korai egyediségi pontúak esetén a kisebb kapuknál segít, a megszorítás • A megszorítás a pontosságot a késői egyediségi pontú ingerek esetén növeli (gyakoriságtól függetlenül)

28 Reakcióidő • a megszorítástól lassabbak lesznek a reakcióidők függetlenül a gyakoriságtól és az egyediségi ponttól. • a ritka szavaknál egyediségi ponttól függetlenül a legkisebb kapu esetén nem volt helyes válasz – így itt nincs RI sem.

29 Konfidencia • A megszorítás a gyakori- késői egyediségi pontú szavak esetén a hosszabb kapuktól (210+) kezdve csökkenti a biztossági ítéletet

30 Entrópia és egyediségi pont Entrópia akkor is szignifikáns, ha az egyediségi pont és a gyakoriság ellenőrzött

31 Entrópia magasabb a gyakori szavaknál Egyediségi pont: csökkent entrópia

32 •Az entrópia jó közelítője a szófelismerés pontosságának •A top-down megszorítás növeli a pontosságot, de lassítja a válaszadást •Reakcióidők összevetése az entrópia- mutatókkal Gating

33 Eleje – vége jóEleje jóVége jó Ha egy pinaglló mbengbereti a sznyráát Pgenbiken, az akár tdoánrot is getheszejrt Amikerában. Vinalgkábun mdenin mninnedel öfüsszegg, menidn cseketüedlenk abápjalan vtja áltoztatha meg a jvöőt. Még elzépeklni is reémes, A nő nyumlogaar vákgyi. A házsagaás elrtotmol, a láany kamkdioasz- ő eregy kevbéés tajallá a hetlyé, és úgy ézir, rdviöidőre mujszá tálvo keneirlü a hétkölótpaijzan. Eztré fodjaag el egy bajatrá megtáváhí, aknike van egy kis motjeel A ágmany acsk sesűrkeéget üszl és aszőrekot. Max enm thite nolva, ohgy a ajsát őrbén lkel taszegpamtalnia zet. Jó arzsu olvt, kai glodoban él a leséefge és álksinya lelmett. A A szavak eleje számít Fazekas szövegjavítási feladat

34 A szavak rekonstrukciója sikeresebb, ha mind a szó eleje mind a vége helyesen van leírva

35 Az előfeszítési helyzet RPOBLÉMA PROBLÉMA

36 Előfeszítési hatás a kezdetnél: A rontott szó lelassít az elején és a végén PORBLÉMA PROLBÉMA PROBLMÉA PROBLÉAM Várhelyi Klára

37 Döntések hosszú sok morfémás szavaknál: Pléh és Juhász 1995 bathtub effect Aithchison

38 Hasonló szavak, mint a gatingnél Böllár Tő Böllér-ak bölléruk Jel Böllér-nak böllér-nuk Rag Böllér-ak-nek böllér-uk-nek Jel belül

39 A vizsgálati anyag alapja •60 kétszótagú főnév, Németh Kornél gating vizsgálata alapján •Forrás: MOKK korpusz (www.szoszablya.hu) •4 csoport egyediségi pont és gyakoriság alapján GyakoriRitka Koraikenyér, műsor böllér, gyűszű Későiváros, csapat pincsi, krokett

40 A ragozott szavak keny é rnek keny é rben keny é rre kenyerek kenyerak/ kenyerikkenyerem kenyeram/ kenyerimkenyered kenyerad/ kenyerid kenyereknek kenyeraknek/k enyeriknekkenyerekben kenyerakben/ kenyeriken kenyerek re kenyerakra/ kenyerikra kenyeremnek kenyeramnek/ kenyerimnekkenyeremben kenyeramben /kenyerimben kenyere mre kenyeramra/ kenyerimre kenyerednek kenyeradnek/ kenyeridnekkenyeredben kenyeradben/ kenyeridben kenyered re kenyeradra/ kenyeridra •Előfordulások: csak tő, jel, rag vagy jel és rag •Rontás a tőben (kunyérem) a jelben (kenyérid) vagy a ragban (kenyeredbun) •Létező, de rosszul illesztett (kenyérim) vagy nem létező toldalékok (kenyérum)

41 A vizsgálat felépítése •72, 18 és 34 év közötti résztvevő a Budapesti Műszaki Egyetem hallgatói közül •44 (átlag életkor: 21,41 év) nő és 28 (átlag életkor: 21,75 év) férfi •Minden kísérleti személy döntést hozott az összes szóról, az ingerek fele létező, fele nem létező szó volt •A szavak egy fixációs kereszt felvillanása után jelentek meg és a kísérleti személyek az i (létező) és r (nem létező) billentyűk segítségével válaszoltak

42 Eredmények – helyes válaszok •Mind a gyakoriság mind a hibatípus hatása szignifikáns •A szó gyakorisága és a hibatípus felismerésének gyakorisága között is szignifikáns korreláció figyelhető meg •Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb ritka gyakori

43 Eredmények - reakcióidők •Mind a gyakoriság, mind a hibatípus hatása szignifikáns •A létező szavak elfogadása lassabb, mint a nem létezők elutasítása •A nem létező tövek elutasítása lassabb, mint a nem létező toldalékoké •Nincs egyértelmű fürdőkád hatás •A két magánhangzó harmóniát sértő hibatípus közt nincs különbég, viszont ezekhez képest a nem létező toldalékok elutasítása gyorsabb ritka gyakori

44 Szóközepén előforduló rontások gyakori szavaknál •Gyorsabb reakcióidő, de gyakoribb hibázások •Lehet egy optimalizálási mechanizmus eredménye Reakcióidő Helyes válaszok Gyakori

45 A rontás alattomossága •A rontás előtt lévő 4 karakter előfordulási gyakorisága a MOKK korpuszban, pl.: bölléred - böllérud léru-782 előfordulás lére-75283 előfordulás •A két szám hányadosának logaritmusa (ngram-faktor) határozza meg a rontás alattomosságának a mértékét

46 Eredmények – a rontás alattomossága •Az ngram-faktor fordítottan korrelál az alattomossággal •Minél ritkábban fordul elő a rontás előtti betűnégyes az eredeti betűnégyeshez képest, annál kevésbé alattomos a rontás •Minél kevésbé alattomos a rontás annál nagyobb eséllyel veszik észre •A kategoriánként elvégzett repeated measures Anova formálisan is alátámasztja a hipotézist A rontás alattomossága minden hibatípus esetében segít a rontások felismerésének bejósolásában

47 Összefoglalás •A gyakoriság és a hibatípus hatása és ezek kapcsolata mind a helyes válaszok, mind a reakcióidők tekintetében szignifikáns •Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb •A két magánhangzóharmóniát sértő hibatípus közt nincs különbség, viszont ezekhez képest a nem létező toldalékok elutasítása lassabb •Minél alattomosabb egy hiba, annál kisebb eséllyel kerül elutasításra

48 Merre tovább? •Döntések és idők korreláltatása a versengő alakokkal •Entrópia mutatók. Ez elég problémás hiszen a hosszú szavak végére 0-ra csökken az entrópia •Tövek és végződések entrópia kombinálása

49 Összefoglalva •A szókezdet kiemelkedő jelentősége a hozzáférésben a magyarban is nyilvánvaló •A szófelismerés érzékenyebb az entrópia értékekre és az alaktani szerkezetre mint magára a gyakoriságra •Az entrópia változás fontos a szomszédsági hatások értelmezésében

50 Köszönöm a figyelmet és a türelmet


Letölteni ppt "Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára."

Hasonló előadás


Google Hirdetések