Dunaújvárosi Nemzetközi Lingvisztikai Konf., Balázs Béla
Az utolsó évben a nyelvtudásmérés területén végzett kutatások intenzitása exponenciálisan növekedett. Állandó gondot jelent azonban, hogy a nyelv- vizsgáztatás mindennapos gyakorlata távolról sem fejlődik olyan gyorsan, mint a nyelvvizsgáztatás elmélete. A gyakorlatban dolgozó nyelvvizsgáztatók arra panaszkodnak, hogy az elméleti cikkeket nehéz megérteni, és azok gyakran számukra irrelevánsnak tűnnek, vagy legalábbis napi praxisuktól távol eső témákról szólnak. A kutatók és a gyakorlati szakemberek ritkán kooperálnak. Már érzékelhető azonban, hogy a légkör lassan változik, és nagyon remélem, hogy jelen előadásom hozzá fog járulni e pozitív folyamat felgyorsításához. Bevezetés I.
Magyarországon a klasszikus tesztelméleti mód- szerekkel történő elemzéseknek jelentős múltja van, de az utóbbi évek nemzetközi vizsgálatainak elem- zései rávilágítanak egy alapjaiban más módszerek- kel, más alapokon nyugvó tesztelmélet fontosságára. (Nem véletlen, hogy az EALTA tavalyi krakkói konferenciáján is komoly hangsúlyt kapott a téma.) Ez a más módszer a tesztelméletek újabb generáció- ját képező, valószínűségszámítási alapozású teszt- elmélet (Item Response Theory [IRT]), amely az itemek tulajdonságait valószínűségelméleti eszköz- ökkel jellemzi. Az idevágó modellek közül a Rasch- modellt fogom vázlatosan ismertetni. Bevezetés II. The European Association of Language Testing and Assessment is a professional association for language testers in Europe
Rasch-modell I. Egy nyelvvizsga keretében válasszunk egy átlagos képességű standard személyt. Vegyünk egy átlagos nehézségű standard itemet. A kiválasztás úgy történjen, hogy a standard személy a standard itemnél 50%-os valószínűséggel sikeres. Adott itemhalmaznál az n-edik személy az i-edik itemnél P ni valószínűséggel sikeres. Az értékelés bináris: sikeres 1, sikertelen 0
Rasch-modell II. Szeretnénk látni, hogy a két vizsgázó – Magdi és Nelli – közül melyik a jobb. Különböző nehézségű itemek segítségével kell tesztelnünk. Minden nehézségi fokon négy lehetőség fordul elő: Magdi sikeres;Nelli sikertelen Magdi sikeres; Nelli sikertelen Magdisikertelen;Nelli sikeres Magdi sikertelen; Nelli sikeres Magdisikertelen;Nelli sikertelen Magdi sikertelen; Nelli sikertelen Magdi sikeres;Nelli sikeres Magdi sikeres; Nelli sikeres Ahhoz, hogy a teszt megbízható legyen, minden nehézségi fokon több kísérletet kell végrehajtatnunk.
Rasch-modell III. T 11 a tesztek száma amikor mindketten sikeresek T 01 a tesztek száma amikor csak Magdi sikeres T 10 a tesztek száma, amikor csak Nelli sikeres T 00 a tesztek száma amikor mindketten sikertelenek Magdi Nelli siker siker siker kudarc kudarc
Rasch-modell IV. T 10 -át és T 01 -et kell összehasonlítanunk ahhoz, hogy megtudjuk: melyik vizsgázó jobb és mennyivel, mint a másik. De hogyan tegyük? Inkább a (T 10 -T 01 ) különbséget, vagy a (T 10 /T 01 ) hányadost vegyük alapul? Melyikük ad megbízhatóbb, reálisabb, a lényeget jobban megragadó alapot?
Rasch-modell V. 10 kísérlet 100kísérlet1000kísérlet T T T 10 – T T 10 / T Magdi sikeres, Nelli sikertelen Magdi sikertelen, Nelli sikeres Különbség Hányados
Ha a valószínűsége, hogy Magdi az i itemnél sikeres: P mi a „ --”, hogy Magdi az i itemnél hibázik: (1 – P mi ) a „ --”, hogy Nelli az i itemnél sikeres: P ni a „ --”, hogy Nelli az i itemnél hibázik: (1-P ni ) Akkor a valószínűsége, hogy Magdi sikeres & Nelli hibázik: (P 10 ) = P mi (1 – P ni ) a valószínűsége, hogy Nelli sikeres & Magdi hibázik: (P 01 ) = (1 – P mi ) P ni Rasch-modell VI.
Rasch-modell VII. Ha Magdi és Nelli i nehéz- ségű itemen sokszor próbálkoznak, a következő reláció érvényesül: azaz azaz: Homogén itemhalmaz esetén, minden i-re és j-re: A két vizsgázó közötti felkészültségi különb- ség „objektív”, nem függhet a felhasznált itemektől!
Rasch-modell VIII. Rendezzük át az egyenletet úgy, hogy mi, mj, ni, és nj szeparálódjanak egymástól:
Rasch-modell IX. A valószínűségszámításból tudjuk, hogy az esély valamely esemény bekövetkezési valószínűségének és be nem következési valószínűségének hányadosa. Azaz:
Rasch-modell X. Tegyük fel, hogy Nelli átlagos (standard) vizsgázó és a j item átlagos (standard) nehézségű. Akkor definíció szerint P nj = 0,5. Emiatt ( j = 0 jelöli, hogy jstandard item. ) ( j = 0 jelöli, hogy j standard item. ) Magdi esélye a sikerre az i itemen = Magdi esélye a sikerre a stan- dard itemen x standard személy esélye a sikerre az i itemen
A siker esélye standard itemen Standard személy kudarcának esélye Jelöljük az m személy sikerének esélyét a standard itemen b m -el. Jelöljük továbbá a standard személy kudarcának esélyét az i itemen d i -vel.
Rasch-modell XI. behelyet- tesítve: kapjuk, hogy: Azaz az m személy esélye a sikerre az i itemnél egyenlő a személy standard itemre vonatkozó sikere esélyének és az i itemnél bekövetkező kudarca esélyének hányadosával. Láttuk, hogy:
Rasch-modell XII. Mindkét oldal logaritmusátvéve: Ne feledjük: log(A/B) = logA - logB
Rasch-modell XIII. és így definíció Rasch-model az m személy „képessége” az i item „nehézsége” Valamely személy sikerének logaritmikus esélye az i itemen egyenlő a személy képességének és az item nehézségének különbségével. Egyébként az IRT modellek közül csak a Rasch-modellnél független két teszt-személy képességének eltérése attól, hogy melyik itemeket használjuk, és egyedül itt teljesül, hogy az itemek nehézség-különbsége nem függ a tesztelt személyek képességétől.
{Az L logit érték a siker esélyének logaritmusa: Minden egyes vizsgázó számos képességgel rendelkezik, de ezek közül egyszerre egyet tesztelünk. Ezért az eredmény egyenes mentén (un. logit skálán) modellezhető. {Az L logit érték a siker esélyének logaritmusa: L = logit(p) = log(p/[1-p]) = log(p) – log(1-p).} L = logit(p) = log(p/[1-p]) = log(p) – log(1-p).} Képzeljünk el egy egyre nehezedő item- gátakkal ellátott vizsga akadálypályát, amelyen különböző képességszintű vizsgázók verse- nyeznek. Az előbbiek szerint az egyes item- eken történő sikeres áthaladás esélye egyenlő a versenyző képességének és az item nehéz- ségének különbségével. Így a vizsgapályán felfelé haladva egyre felkészültebb egyedeket találunk.
Személy-item térkép A várható vizsgázói képesség-eloszlásnak megfelelő itemhalmaz esetén a teljesítmények a 0 nehézségi szint körül szórnak, míg túl könnyű feladatok esetén az értékek szignifikánsan pozitív, túl nehéz tételeknél pedig negatív középértéket mutatnak. Miután a KER-ben az A1, A2, B1, B2, C1, C2 szintek rögzítettek, és a vizsga-tételeknek ezekhez kell alkalmazkodniuk, a b. esetben az átlagosnál jobb, a c. esetben viszont gyengébb felkészültségű vizsgázókkal van dolgunk (lásd a következő ábrát).
További jelölések N vizsgázó, jelölés: 1, 2 … N I item, jelölés: 1, 2 … I Legyen X ni az n jelű vizsgázó ponteredménye az i itemre: 1, ha sikeres, 1, ha sikeres, 0, ha sikertelen. 0, ha sikertelen. A sikeres teszt valószínűsége n képesség és i itemnehéz- ség esetén A kudarc valószínűsége n képesség és i itemnehézség esetén Általános forma
Itemnehézségi görbék I. Általános alakja: A tudásszintmérő tesztek itemei leggyakrabban logisztikusak. A logisztikus jelleggörbének három szakasza van: a gyenge összpontszámok tartományában a görbe lassan emelkedik, majd valahol hirtelen meredekké válik, végül a magasabb összpontszámoknál ellaposodik. Általános alakja: Itt a, m, n és valós paraméterek. Itt a, m, n és valós paraméterek. A sokféle logisztikus görbe meredekségében, illetve abban különbözik egymástól, hogy melyik képességtartományba esik a meredek szakasz. Az itemjellegfüggvény logisztikus, monoton növekvő, de csak 0 és 1 közötti értékeket vehet fel (mivel a függő változó valószí- nűség), értelmezési tartománya viszont az egész számegyenes. A legegyszerűbb olyan függvény, amely 0-tól 1-ig nő, ha a független változó 0-tól végtelenig növekszik, az f(x) = x/(1 + x) függvény.
Itemnehézségi görbék II. P = f( , ) = [1 + exp(- ( - ))] -1 P = f( , ) = [1 + exp(- ( - ))] -1
A logisztikus Rasch-modell három kiinduló feltevése: 1)Az i-edik itemre válaszoló n-edik személyhez a helyes válasz alábbiakban adott valószínűsége tartozik: P(+|n, i) =, ni $ 0 2)A ni állapotparaméter szorzat alakú: ni = n ε i ni = n ε i ahol n a személyre, ε i pedig a feladatra vonatkozik. 3) Rögzített paraméterek mellett a válaszok sztochasztikusan függetlenek egymástól. Kimutatható, hogy n a standard itemre adott helyes válasz esélye, azaz: n =
Item és teszt információs függvény A klasszikus eljárásokkal szemben a valószínűségszámítási alapozású tesztelmélet – és ezen belül a Rasch-modell – módot talált arra, hogy a mérési hiba nagyságát a jelöltek képességeinek függvényében határozza meg. két konzisztens becslésének összevetésekor azt tekinthetjük jobbnak, amelyiknek szórása kisebb. Minél kisebb a variancia (szórásnégyzet: 2 ), annál kevesebb mintavételre van szükség egy bizonyos pontosságú becslés realizálásához. Így kisebb becslés- variancia esetén a minta pontosabb „információt” ad, mint nagyobb variancia esetén. Ebben az értelemben a minta „információtartalma” (melyet az un. információfüggvénnyel fejezünk ki) fordítva arányos a becslés szórásnégyzetével. (Ismeretes egyébként, hogy a becslés varian- ciája nem lehet kisebb a Rao-Cramer egyenlőtlenség által adott alsó korlátnál.) A Rasch modell esetén az egyes itemek információfüggvénye az I( ) = P(1 - P) alakot ölti. Tekintve, hogy az item-információk addi- tívak, az egyes itemek információfüggvényeinek összege adja a teszt információfüggvényét: T( ) = I i ( ). Az információs függvények leggyakoribb alkalmazását a vizsgák és általában tesztek szerkesztésénél találjuk.
IIF: I( ) = P(1-P) TIF: T( ) = I i ( ) 2 = T( ) -1 Item információs függvény (IIF) Teszt információs függvény (TIF) A becslések varianciája ( 2 ) fordítva arányos T( ) értékével. i=1 k Rasch-munkatáblázat\RaschExc800 Rasch-munkatáblázat\RaschExc800 Rasch-munkatáblázat\RaschExc1024 Rasch-munkatáblázat\RaschExc1024
Itemszerkesztés, itemillesztés I. Az információfüggvényen alapuló tesztszerkesztés menetét A. Birnbaum nyomán a következőkben összegezhetjük: Az információfüggvényen alapuló tesztszerkesztés menetét A. Birnbaum nyomán a következőkben összegezhetjük: Határozzuk meg a teszt-információfüggvény kívánt alakját, tekintetbe véve, hogy milyen pontosságú képességbecslés- re van szükségünk az egyes képességszinteken. Eredményül kapjuk az un. cél-információs görbét. Szelektáljunk olyan itemeket, amelyek információs görbéi kielégítően kitöltik a célfüggvény alatt lefedendő területet. Az egymás után kiválasztott itemek információs görbéit rendre adjuk hozzá a korábbiak összegéhez, menet közben értékelve az egyre tökéletesedő teszt információfüggvényét. Mindaddig folytassuk az eljárást, amíg a cél-információs görbe alatti terület nincs elfogadhatóan kitöltve (azaz a teszt- információ-függvény a képesség-kontínuum minden számba- jövő pontján elfogadható becslés-varianciát eredményez).
Itemszerkesztés, itemillesztés II. A Rasch-modell előbbiekben felsorolt tulajdonságai természe- tesen csak akkor érvényesek, ha a teszt elfogadhatóan illesz- kedik a modellbe. A modell a helyes válasz esélyét a jelölt ké- pessége ( ) és az item nehézsége ( ) alapján határozza meg. Ezért ha valamely itemen a helyes válasz valószínűségét -n és -n kívül más is befolyásolja, a modell alkalmazhatósága sérül. Azt, hogy valamely esetünkben alkalmazható-e a Rasch-modell, illeszkedésvizsgálat mutatja meg. Tekintsük a „vizsgapályát. A képességszint függőleges mozgásával szemben az illeszkedés vonatkozásában vizszintes elmozdulásról beszélhetünk. Egy- egy item vagy személy annál jobban illeszkedik a tesztadatok által meghatározott modellbe, minél közelebb helyezkedik el a pálya középvonalához. Az illeszkedés jóságát matematikailag az infit paraméter mutat- ja, melynek meghatározásához – mind a képességek, mind az item-nehézségek vonatkozásában – rendszerint a maradék alapú illeszkedésvizsgálati módszeren alapuló Quest programot használják. (A vizsgapálya sötétzöld területeinek belső határa is ilyen módon rögzítődött.)
Köszönöm szíves figyelmüket Georg Rasch ( ) Irodalom
Irodalom 1.Adams, R. J., & Khoo, S.-T. (1993). Quest: The interactive test analysis system [Computer programmanual]. Hawthorn: The Australian Council for Educational Research. 2.Birnbaum, A.: Some latent trait models and their use in inferring an examinee’s ability, In: Lord, F. M., Norvick, M. R.: Statistical Theories of Mental Test Scores, Reading, MA: Addison-Wesley. 3.Embretson, S. E., Reise, S. P.: Item response theory for psychologists, Mahwah, NJ: Erlbaum, Erickson, G.: What is a good language test?, Horváth, Gy.: A modern tesztmodellek alkalmazása, Akadémiai Kiadó, Budapest, Molnár, Gy.: Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel, Magyar Pedagógia, Vol.103, No.4, , Müller, H.: Probabilistische Testmodelle für diskrete und kontinuier- liche Ratingskalen, Huber, Bern, Müller, H.: Illustrationen zum Rasch-Modell, Rasch, G.: Probabilistic models for some intelligence and attainment tests, Copenhagen: Danmarks pædagogiske Institut, (Expanded edition, Chicago: University of Chicago Press.)