Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

2014. 07. 07.1 Többdimenziós skálázás (MDS) Informatikai Tudományok Doktori Iskola.

Hasonló előadás


Az előadások a következő témára: "2014. 07. 07.1 Többdimenziós skálázás (MDS) Informatikai Tudományok Doktori Iskola."— Előadás másolata:

1 Többdimenziós skálázás (MDS) Informatikai Tudományok Doktori Iskola

2 Többdimenziós skálázás Multidimensional Scaling = MDS Adott: egy olyan adatállomány, amelyet valamilyen megadott külső objektumokra (pl. tárgyakra, személyekre) vonatkozó hasonlósági vagy különbözőségi adatok (általában skálázott szubjektív vélemények, vagy észlelt különbségek) alkotnak. Cél: olyan geometriai reprezentációk létrehozása a hasonlósági vagy különbözőségi adatokból, amelyek az adott külső tárgyak (észlelt) viszonyát egy megfelelő dimenzió-számú geometriai térben a lehető legpontosabban tükrözik vissza. Az eljárás eredménye mindig egy ponthalmaz egy adott dimenzió- számú geometriai térben. A ponthalmaz képe alapján kísérletet tehetünk koordinátatengelyek megadására, amivel rejtett dimenziókat tárhatunk fel.

3 Bevezetés 1. Gépkicsivásárlásnál milyen szempontokat vesznek figyelembe az emberek? (A gazdaságosságot? A megbízhatóságot? A kényelmet? A sportosságot?) Egy politikusra történő szavazásnál milyen szempontok alapján döntenek a szavazók? (Párthoz tartozása alapján? Az adózásról, az oktatásügyről vagy az egészségügyről vallott személyes nézetei alapján? Sajtóbeli ismertsége alapján?) Milyen tényezők befolyásolják egy munkacsoport tagjainak egymás közötti beszélgetésének a módját? (A beszélgetők formális státusza, szakmai tudása, szocio-ekonómiai helyzete vagy személyes dominanciája?) Egy-egy problémánál pl. a rejtett dimenziók az alábbiak lehetnek:

4 Bevezetés 2. Milyen tényezők határozzák meg az emberek munkahelyi közérzetét? (A fizetés? Az emberi kapcsolatok? A munkahely fizikai jellemzői?, Az előmeneteli lehetőség? A munka tartalma?) Milyen szempontok alapján kategorizálják az emberek az egyes foglalkozásokat, népcsoportokat, nemzeteket vagy országokat? (Közismert sztereo-típiák, saját tapasztalataik, a médiumok sugalmazása vagy tekintélyes közszereplők véleménye alapján?) Milyen szempontok alapján ítélik meg a felhasználók az egyes termékek minőségét vagy vonzerejét és hogyan azonosíthatók ezek közül a legfontosabbak? (Az ára, a márkája, divatszempontok vagy a tényleges szükségletek alapján?

5 Bevezetés 3. Ilyen és hasonló kérdésekre próbál az MDS alkalmazása választ adni, többnyire sikerrel. Az MDS alapgondolata az, hogy az emberek döntéseiket és ítéleteiket a fejükben - kognitív vagy érzelmi rendszerükben - létező belső dimenzióik alapján hozzák meg. Ezek a dimenziók többnyire rejtve vannak még az aktuális döntéshozók vagy véleményalkotók előtt is, de megfelelő technikákkal - faktoranalízissel vagy az MDS módszereivel - feltárhatók és megismerhetők.

6 Az MDS alkalmazásának szempontjai A faktoranalízis alkalmazása mellett szól, hogy abba - bizonyos feltételek teljesülése esetén - igen sokféle és eredetileg más célra összegyűjtött adatokból konstruált változó bevonható, míg az MDS alkalmazásához speciálisabb „távolság” vagy „hasonlóság” jellegű adatokra van szükség, amelyek általában csak erre a célra tervezett kísérletekben vagy felmérésekben nyerhetők. Ugyanakkor a faktoranalízis modellje feltételezi az egyes faktorok lineáris összegződését - ún. lineáris kombinációját - amit a gyakorlatban gyakran semmi sem támaszt alá. A tapasztalat az, hogy ha sikerül alkalmas hasonlósági mértékeket definiálni és azokat megfelelő pontossággal megmérni, akkor az MDS sokszor lényegesen jobb eredményt adhat, mint a faktoranalízis. Az eredmények meglepően pontosak és igen jól reprodukálhatóak lehetnek.

7 Az MDS szemléleti és matematikai alapjai 1. Általános törekvés a tudományokban valamilyen szemléletes módon úgy ábrázolni adatokat, hogy az egymáshoz valamilyen szempontból közelibbnek érzékelt vagy gondolt objektumok az ábrázolásban is közel kerüljenek egymáshoz, a távolibbnak felfogottak pedig az ábrázolásban is távol legyenek egymástól. Ezek az ábrázolások valamiféle geometriai reprezentációk, amelyek az ábrázolt objektumok viszonyát valamilyen szempontból helyesen - vagy közelítőleg helyesen - tükrözik vissza. „Egy kép akár ezer szót is megér ” Vajon hány oldalon lehet szavakban elmondani, amit egy vizuális élmény nyújt?

8 Az MDS szemléleti és matematikai alapjai 2. A MDS módszerei arra szolgálnak, hogy segítségükkel adott objektumokra vonatkozó észlelt hasonlósági vagy különbözőségi adatokból szisztematikus módon létrehozhassunk olyan geometriai reprezentációkat, amelyek ezen objektumok észlelt viszonyát egy megfelelő dimenzió- számú geometriai térben a lehetőség szerinti legkisebb torzítással tükrözik vissza. Az eljárás eredménye tehát mindig egy ponthalmaz „képe” - „térképe” - egy előre meghatározott típusú geometriai térben, amelyben az egyes pontok úgy helyezkednek el, hogy egymás közötti távolságaik ismert pontossággal megfelelnek azon objektumok észlelt tulajdonságai közötti különbözőségeknek, amelyekhez ezek a pontok tartoznak.

9 Az MDS szemléleti és matematikai alapjai 3. Már sokszor ez a szemléletes ábrázolás önmagában is sokat segít az adott jelenség megértésében, ha valamilyen szabályszerűség vagy „mintázat” fedezhető fel benne, de ez még önmagában nem skálázás. Ha azonban az adott térben sikerül olyan koordináta tengelyeket találni, amelyek mentén az objektumok elhelyezkedése jól értelmezhető, akkor ezeknek a tengelyeknek az alkalmas beskálázásával minden objektumhoz skálaértékeket rendelhetünk az adott dimenziók mentén.

10 Az MDS szemléleti és matematikai alapjai 4. Az MDS fő ereje abban áll, hogy a tisztán pszichológiai eszközökkel nyert különbözőség-érzékelési adatok alapján lehetővé teszi korábban nem ismert, de esetenként meghatározó szerepű dimenziók felismerését. Ezek a különbözőség-érzékelési adatok pedig természetesen akkor is jól mérhetők, ha semmilyen előzetes elképzelésünk nincs arról, hogy az érzékelt különbözőséget milyen dimenziók határozzák meg.

11 Az MDS szemléleti és matematikai alapjai 5. A létrehozott geometriai reprezentáció „a lehetőség szerinti legkisebb torzítással”, illetve „ismert pontossággal” kell, hogy leképezze az érzékelt különbözőségeket, mert - amint az a következő egyszerű két dimenziós példán könnyen belátható - az érzékelt különbözőségeknek pontosan megfelelő geometriai konfiguráció nem mindig állítható elő, azaz a feladatnak nem mindig létezik egzakt megoldása az adott térben. Célunk ezért az, hogy legalább a lehetséges legjobb közelítő megoldást - az ún. optimális konfigurációt -találjuk meg.

12 Egy p-dimenziós sokaságot lehet egy k=1,2 vagy 3 dimenziós Euklideszi ponthalmazzal vizualizálni. A ponthalmaz távolságviszonyai az eredeti sokaság eseteinek távolságviszonyaival nagymértékben egyezik. A vizualizálás révén tanulmányozható a statisztikai sokaság térbeli struktúrálódása. Jellegzetes tömörülések, irányokfedezhetők fel az elkészült scatter-grafikonon. Az MDS szemléleti és matematikai alapjai eset 2. eset n. eset

13 Az esetvektorok egymástól vett nxn-es távolságmátrixa Megkonstruálhatók olyan k=1,2 vagy 3 dimenziós vektorok, melyek nxn-es Euklideszi távolság- mátrixa nagymértékben hasonló -hez. „kicsi” Az MDS szemléleti és matematikai alapjai 7.

14 Távolságmátrix, Euklideszi távolságmátrix Az n×n-es D távolságmátrix komponensei kielégítik az alábbiakat: D diagonális elemei 0-ák: d ii =0; D szimmetrikus mátrix: d ij =d ji ; D komponensei kielégítik a háromszög-egyenlőtlenséget: d ij  d ik +d kj ; A D távolságmátrix akkor Euklideszi, ha valamely p dimenzióhoz megadható n db p-dimenziós x 1, x 2, …, x n vektorok, amikkel d ij =||x i -x j ||. Az n×n-es D távolságmátrix akkor és csak akkor Euklideszi, ha a B=H · A · H mátrix pozitív szemidefinit, ahol a ij =-½ d ij ² és H az ú.n. centráló mátrix: H=E- 1 / n · 1·1 T

15 Távolságmátrix, Euklideszi távolságmátrix Ha D egy Z=(z 1, z 2,…, z n ) T konfiguráció Euklideszi távolságmátrixa, akkor b ij =(z i -z) T ·(z j -z), i,j=1,2,…,n, ahol z az átlagvektor. Ha B=H · A · H (a ij =-½ d ij ² ) egy n-edrangú pozitív szemidefinit mátrix, akkor az alábbi módon konstruálhatjuk meg a Z=(z 1, z 2,…, z n ) T pontkonfigurációt. Legyenek 1  2  …  n > 0 a B pozitív sajátértékei és z 1, z 2,…, z n a megfelelő ortogonális sajátvektorok: z i T· z i = i. Ekkor a Z=(z 1, z 2,…, z n ) T pontkonfiguráció Euklideszi távolságmátrixa éppen D.

16 Távolságmátrix, Euklideszi távolságmátrix Adott objektumoknak egy D távolságmátrixa. Ehhez szeretnénk konstruálni olyan Z=(z 1, z 2,…, z n ) T k-dimenziós vektorokból álló konfigurációt, amelynek Ď Euklideszi távolságmátrixa valamilyen értelemben „hasonló”, „közeli” D-hez. Általában a k dimenzió- számot sem ismerjük, de a szemléltetés miatt k-t 1-nek, 2-nek esetleg 3-nak szokták választani. A szemléltetés sikerességét az alábbi mennyiséggel jellemezzük:

17 Példa Mérő László (1986) nyomán Kísérleti személyünk öt főzeléket hasonlított össze páronként minden lehetséges módon. Feladata a párok globális - összbenyomás alapján történő - összehasonlítása volt a „vonalhosszúság-becslés” módszerével: egy 6 cm hosszú szakaszon kellett bejelölni a különbözőség mértékét. 0.0 cm 6.0 cm teljes hasonlóság teljes különbözőség

18 Példa Mérő (1986) nyomán Vizsgáljuk meg, hogy létezik-e a síkban öt olyan pont, amelyek egymástól éppen a mátrixban található távolságokra vannak!

19 Példa Mérő (1986) nyomán 2.2 Spenót Kelkáposzta

20 Példa Mérő (1986) nyomán 2.2 Spenót Kelkáposzta Sóska

21 Példa Mérő (1986) nyomán 2.2 Spenót Kelkáposzta Sóska Karfiol

22 A klasszikus többdimenziós skálázás (CMDS) 1. Az előbbi példa az MDS legegyszerűbb változatát, a CMDS-t (Classical MDS) szemlélteti. A CMDS az MDS legkorábban kidolgozott típusa, amely csupán egyetlen különbözőségi mátrixot - pl. egyetlen személy bizonyos objektumokra vonatkozó különbözőség-érzékelési adatait - képes egyidejűleg kezelni, és megkívánja a bemenő adatoktól a legalább intervallum-skálát (metrikus MDS). A CMDS alkalmazhatósága korlátozott, mert tipikusan több személy adatait szeretnénk egyidejűleg feldolgozni.

23 A klasszikus többdimenziós skálázás (CMDS) 2. Az i és j pontoknak megfelelő objektumok közötti különbözőség-érzékletet a létrehozott pontkonfigurációban az i és j pontok d ij euklideszi távolságával képezi le, ami két dimenzióban a Pithagorasz- tétel alapján a következőképpen írható: 1. dimenzió 2. dimenzió i pont j pont x i1 x j1 x i2 x j2 d ij 2 = ( x i2 – x j2 ) 2 + ( x j1 - x i1 ) 2 d ij = [( x i2 – x j2 ) 2 + ( x j1 - x i1 ) 2 ] ½ (distance, dissimilarity)

24 A klasszikus többdimenziós skálázás (CMDS) 3. Az r darab dimenzióra általánosított modell alapja, hogy az i és j pontoknak megfelelő objektumok közötti különbözőség- érzékletet az r dimenziós térben az i és j pontok d ij euklideszi távolságával a következőképpen adjuk meg: x ia az i pont, x ja pedig a j pont koordinátája az a dimenzión. Ez a formula a Pithagorasz- tétel általánosítása r dimenziós tér esetére.

25 A klasszikus többdimenziós skálázás (CMDS) 4. A D távolság-mátrix elemei az egyes d ij (distance, dissimilarity) értékek, amelyek a létrehozott pontkonfigurációt jellemzik. Ennek a pontkonfigurációnak az eltérése az eredeti észlelési adatokat tartalmazó S különbözőség-mátrixtól - pontosabban annak egy célszerűen választott lineáris transzformáltjától: (disparity) - mutatja, hogy egy megtalált megoldásnak mekkora a hibája. Ennek ellenőrzése az SPSS-ben a következő három illeszkedési mutató segítségével történik: s-stress, stress és RSQ.

26 A klasszikus többdimenziós skálázás (CMDS) 5. A s-stress definiciója: ||E|| az E (Error) hiba-mátrix elemei négyzeteinek az összege, ||T|| pedig az eredeti észlelések S különbözőség-mátrixából alkalmas lineáris transzformációval létrehozott T (Transformed) transzformált mátrix elemei négyzeteinek az összege. Mivel T = l{S}, ahol l a lineáris transzformációra utal, és ||E|| = ||T-D 2 ||, ahol a D 2 mátrix elemei az egyes d ij távolság-értékek négyzetei, az s-stress az összes négyzetes eltéréseket (hibákat) viszonyítja a különbözőség-érzékleteknek pontosan megfelelő összes távolságok négyzeteihez. eredeti észlelésekből eredeti észlelések és pontkonfiguráció különbségéből

27 A klasszikus többdimenziós skálázás (CMDS) 5. A s-stress szemléletes jelentése: a modell által meghatározott térben az összes észlelt különbözőséghez képest mekkora az elméleti (pontos) távolságok és a modell által létrehozott pontkonfigurációban ténylegesen létrejött távolságoknak az eltérése. Ha tehát tökéletes a megfelelés az eredetileg érzékelt és az ábrázolt különbségek között, akkor a hiba zérus és így s-stress értéke is az. Az SPSS azt a pontkonfigurációt keresi meg, amelyre az s-stress minimális.

28 A klasszikus többdimenziós skálázás (CMDS) 6. A stress csak abban tér el az s-stress-től, hogy a formulában nem a távolságok négyzetei, hanem maguk a távolságok szerepelnek (az s-stress-nevében az s betű a négyzetre - square - utal). Tehát az s-stress és stress minél kisebb értékei a kívánatosak, mert ezek felelnek meg a minél kisebb torzításnak. Mindkét mutatóra érvényes közelítő tájékozódási szabály található a következő táblázatban.

29 A klasszikus többdimenziós skálázás (CMDS) 7.

30 A klasszikus többdimenziós skálázás (CMDS) 8. RSQ (R SQUARED) - az SPSS által kiszámított harmadik illeszkedési mutató - egyszerűen a T és D mátrixok megfelelő elemei között kiszámított korrelációs együttható négyzete, amely közvetlenül megadja, hogy az összes varianciának milyen hányadát tudja magyarázni az adott MDS modell. Ennél a mutatónál - az előző kettővel szemben - természetesen az alacsonyabb értékek rosszabb illeszkedést jeleznek.

31 A klasszikus többdimenziós skálázás (CMDS) 9. RSQ (R SQUARED)  távolság-mátrix d ij elemei (distances, dissimilarities) eredeti észlelési adatok transzformáltja (disparities)  Spenót - Sóska Karfiol - Saláta

32 A nemmetrikus CMDS 1. Problémák a metrikus CMDS-el: Nincs garancia arra, hogy az emberek hasonlósági ítéleteiket valóban egyenletesen skálázzák (pl. vonalhosszúság-becslés esetén 1 cm általában nagyobb szubjektív különbséget jelent a széleken, mint a vonal közepe felé). Egyes személyek kifejezetten sarkítják a véleményüket. A metrikus CMDS legalább intervallum-skálájú adatokat követel meg, míg a gyakorlatban általában csak ordinális skálájú adataink vannak.

33 A nemmetrikus CMDS 2. Térjünk vissza korábbi példához és helyettesítsük a mátrixban található távolságokat rangszámokkal! ,

34 A nemmetrikus CMDS , Spenót Kelkáposzta Sóska Karfiol 1-en kívül 3-an kívül Miután a távolságokat rangszámokkal helyettesítettük, keressük meg a Saláta helyét! 7,5-en belül 6-on kívül 6-on belül 9-en kívül

35 A nemmetrikus CMDS 3. Láttuk, hogy rangszámok alkalmazása esetén a konfiguráció instabil: az egyes pontok helye megváltoztatható anélkül, hogy a rangsor megváltozna (ugyanahhoz a rangsorhoz több konfiguráció is tartozhat). Jelentős áttörést jelentett azonban a CMDS fejlődésében SHEPHARD (1962) azon felismerése, hogy a pontok számának növelésével az egyes pontok mozgástere radikálisan szűkül. Ebből következően: ha a pontok (objektumok) száma nem túlságosan kicsi a dimenzió-számhoz képest, akkor pusztán az eredeti távolságok sorrendje (tehát egy ordinális skálájú változó) alapján is nagy pontossággal rekonstruálható a kvantitatív konfiguráció.

36 A nemmetrikus CMDS 4. A pusztán sorrendi információ alapján történő rekonstrukció két dimenzió és 10 pont esetén már igen pontos, két dimenzió és 15 pont esetén pedig már gyakorlatilag hibátlan. Az ordinális bemenő adatokkal dolgozó CMDS-t nemmetrikus CMDS-nek nevezzük. A nemmetrikus CMDS matematikai modellje megfelel a metrikusénak azzal az eltéréssel, hogy az eredeti S különbözőség- mátrixból most nem lineáris, hanem egy alkalmas monoton transzformációval hozzuk létre a T transzformált mátrixot, tehát T = m{S , ahol m a monoton transzformációra utal. A három illeszkedési mutató értelemszerűen ugyanúgy használható, mint a metrikus CMDS esetében.

37 A nemmetrikus CMDS 5. Problémák a nemmetrikus CMDS-el: A nemmetrikus CMDS is csak egyetlen különbözőség-mátrix egyidejű feldolgozására képes, ami erősen korlátozza az alkalmazhatóságát, mert a piackutatásban, termékminősítésben, pszichológiai és szociológiai vizsgálatokban tipikusan több személytől nyert adat egyidejű feldolgozása a cél. A CMDS egyszerű személyenkénti ismételgetése általában azért nem elfogadható megoldás, mert ez a vizsgálati terv közvetve azt feltételezi, hogy az egyes személyek különbözőség-érzékletei egymástól tökéletesen függetlenek, bennük semmiféle közös komponens nincs.

38 A nemmetrikus CMDS 6. Problémák a nemmetrikus CMDS-el: A modellből következően a nemmetrikus CMDS egyrészt rendkívül számításigényes (n objektum, r dimenziós tér és m személy esetén n x r x m paramétert kell kezelnie), másrészt az eredmények nehezen értelmezhetők egységesen, mert lényegében m darab független analízist végzünk el. Az igazán jól használható megoldásokhoz a CMDS-től eltérő típusú matematikai modellekre volt szükség, amelyeket a következőkben röviden ismertetünk.

39 A replikációs többdimenziós skálázás (RMDS) Az RMDS (Replicated MDS) az MDS egyik olyan típusa, amely már több különbözőségi mátrixot is képes egyidejűleg kezelni. Alapfeltevés: az egyes objektumok különbözőségei bizonyos véletlenszerű hibáktól eltekintve azonos mértékben tükröződnek az m számú személy ítéleteit tartalmazó m számú adat- mátrixban (ezek az adat-mátrixok egymásnak mintegy a megismétlései, replikái). A paraméterek száma itt is n x r x m, de az eredmények egységes keretben értelmezhetők. Metrikus és nemmetrikus változatok és hasonló módon - de az m számú adat-mátrix egyfajta összegzését is figyelembe véve - definiált illeszkedési mérőszámok.

40 A súlyozott többdimenziós skálázás (WMDS) 1. A WMDS (Weighted MDS) az MDS olyan továbbfejlesztett típusa, amely azon túl, hogy a RMDS-hez hasonlóan képes egyidejűleg kezelni több különbözőségi mátrixot is, a válaszok mögött meghúzódó egyéni perceptuális és kognitív folyamatok individuális különbségeiről is bizonyos információkat tud adni. Alapfeltevés: bár a különböző személyek az objektumokat azonos dimenziók mentén ítélik meg, ezen dimenzióknak azonban eltérő fontosságokat tulajdonítanak, azaz ezeket a dimenziókat egyénileg eltérő módon súlyozzák és skálázzák. Emiatt a módszert az individuális különbségek skálázásának is nevezik (INDSCAL).

41 A súlyozott többdimenziós skálázás (WMDS) 2. A WMDS matematikailag a súlyozott euklideszi modellen alapszik, amelyben továbbra is adott az ingerek (objektumok) súlyozatlan euklideszi tere, de emellett adott azon súlyok tere is, amelyek az objektumok közötti különbözőség-érzetek jellegzetes egyéni sajátosságait megszabják. Ezek a w ka súlyok 0 és 1 közötti értékeket felvevő paraméterek, amelyek a k. személy különbözőség-érzékelését jellemzik az a dimenzióban: w ka nagy (1-hez közeli) értéke az adott a dimenzió viszonylagos fontosságát, kis (0-hoz közeli) értéke pedig az adott dimenzió viszonylagos jelentéktelenségét mutatja a k. személy számára.

42 A súlyozott többdimenziós skálázás (WMDS) 3. A súlyok értelmezésénél figyelembe kell venni, hogy azok nem egyszerű skalár mennyiségek, hanem a súly-vektorok komponensei (a bezárt szög hordozza az információt). Definiálták ezen w ka súlyok eggyel kevesebb dimenziójú térre vetített változatát (Flattened Weight), amely már egyszerűen értelmezhető skalár mennyiség. Az összesen r darab w ka súly mellett a k. személyt még egy ún. „különösségi index-szel” (Weirdness Index) is jellemzi a WMDS, amely a súlyok értelmezését segíti. A 0 és 1 között változó index azt fejezi ki, hogy az adott személy súlyai mennyire különösek vagy szokatlanok a vizsgálatba bevont tipikus személy súlyaihoz viszonyítva.

43 A súlyozott többdimenziós skálázás (WMDS) 4. A 0 érték a tipikus személynek felel meg, míg az 1-es érték azt jelzi, hogy az adott személynek csak egyetlen pozitív (nem zérus) súlya van, az összes többi értéke 0. Ez utóbbi személy az elemzésbe bevont dimenziók közül csak egyet használ és ezért „különösnek” tekintjük. Jelentős eltérés a korábbi MDS modellektől, hogy a WMDS-ben az ingerek tere nem forgatható el, mivel az elforgatás az egyéni dimenzió-súlyozásokat tenné értelmetlenné. Ebből a szempontból a WMDS statisztikailag erősebb eljárás, mint a CMDS és a faktoranalízis. Ugyancsak léteznek a metrikus és nemmetrikus változatai.

44 Az MDS elemzések néhány általános vonása az SPSS-ben 1. Meg kell adni az adatok mérési szintjét (measurement level), alakját (shape) és feltételességét (conditionality). A mérési szint megadása az ordinális (ordinal), intervallum (interval) vagy arány (ratio) skála-típusok valamelyikének a választását jelenti. Az adatállomány alakja lehet négyzetes (square) vagy derékszögű (rectangular), a négyzetes típus tovább bontható szimmetrikusra (symmetric) és aszimmetrikusra (asymmetric).

45 Az MDS elemzések néhány általános vonása az SPSS-ben 2. A négyzetes adatállományban a sorok és oszlopok az objektumok ugyanazon halmazára vonatkoznak (így egy adott adatmezőben levő adat a sornak és az oszlopnak megfelelő két objektum különbözőségét fejezi ki  sorok és oszlopok sorrendje ezért fontos!). Ha a két objektum különbözősége az összehasonlítás sorrendjétől függetlenül ugyanaz, akkor szimmetrikus adatállományról beszélünk, míg ha a különbözőség függ a sorrendtől, akkor aszimmetrikus adatokról van szó.

46 Az MDS elemzések néhány általános vonása az SPSS-ben 3. Szimmetrikus adatállomány esetén elegendő a mátrix főátlója alatti adatokat bevinni, mivel a mátrix másik fele - éppen a szimmetria miatt - a főátlója alatti rész tükörképe lenne. Aszimmetrikus adatállomány esetén viszont a teljes mátrixra szükség van (pl a személynek a-ról az esetek 95%-ában eszébe jut b, de b-ről csak az esetek 65%-ában jut eszébe a). Egy fentiektől független tulajdonsága az alkalmazott algoritmusoknak, hogy bizonyos számú adat bármilyen típusú állományból hiányozhat, az eredményt - némi információ-veszteséggel - többnyire úgy is megkaphatjuk.

47 Az MDS elemzések néhány általános vonása az SPSS-ben 4. A feltételesség szempontjából az adatállomány lehet mátrix-feltételes vagy sor-feltételes. A legtöbb különbözőségi adat mátrix-feltételes, ami azt jelenti, hogy az adott mátrixban minden adat ugyanazon a skálán értelmezett. Ha az adatok soronként más típusú skálán értelmezettek, akkor az adatállomány sor-feltételes.

48 Példa: műszaki pedagógiai kutatás 1. Hat valószínűségszámítási feladat számítógéppel támogatott megoldása során a feladatok érthetőségét meghatározó dimenziókat vizsgáltuk 17 főiskolai hallgató bevonásával. A cél annak meghatározása volt, hogy milyen további összetevői vannak a feladatok hallgatók által észlelt érthetőségnek. Módszer: vélemények kérése az egyes feladatok nehézségéről – azok megoldása után - 5 fokozatú skálán, majd MDS. Az eredményeket jobban érthető, és így hatékonyabb feladatok összeállításában kívántuk hasznosítani.

49 „Averaged over matrices S-stress = 0,135” Az illeszkedés még elfogadható 2 dimenzióban, meg lehet kísérelni az értelmezést. Ugyanakkor a kapott dimenziók hosszú elemzés után sem voltak értelmezhetők. Példa: műszaki pedagógiai kutatás 2.

50 Figyelembe véve, hogy a kapott tengelyek rotálhatók és eltolhatók, más tengelyek felvételét is meg kellett vizsgálni. Ennek érdekében sokoldalúan elemeztük az egyes feladatok jellegzetességeit. Példa: műszaki pedagógiai kutatás 3.

51 A feladatok a konkrét-absztrakt kontextus dimenzió mentén a következőképpen voltak sorbarendezhetők: 1.  5.  6.  4.  3.  2. (A konkrét kontextusra példa az érme-dobás vagy kocka-dobás helyzete, az absztrakt kontextusra a végtelen értéket felvehető valószínűségi változók megfelelő kezelésének szükségessége). A feladatok az egyszerű-összetett fogalmi háttér dimenzió mentén a következőképpen voltak sorbarendezhetők: 1.  2.  4.  6.  5.  3. (A egyszerű fogalmi háttérre példa az érme-dobás vagy kocka-dobás lehetséges kimeneteleinek számbavétele, az összetett fogalmi háttérre pedig a különböző bonyolultabb eloszlásfüggvények megszerkesztésének szükségessége). Példa: műszaki pedagógiai kutatás 4.

52 konkrét-absztrakt kontextus: 1.  5.  6.  4.  3.  2. egyszerű-összetett fogalmi háttér: 1.  2.  4.  6.  5.  3. Példa: műszaki pedagógiai kutatás 5.

53 "konkrét-absztrakt kontextus" "egyszerű-összetett fogalmi háttér" konkrét-absztrakt kontextus: 1.  5.  6.  4.  3.  2. egyszerű-összetett fogalmi háttér: 1.  2.  4.  6.  5.  Példa: műszaki pedagógiai kutatás 6.

54 Példa: piackutatás 1. Egy közvéleménykutató cég megbízásából öt női lap kedveltségét meghatározó dimenziókat vizsgáltuk 35 válaszadó bevonásával. A cél annak meghatározása volt, hogy milyen milyen a vizsgált lapok megítélése az olvasók által „használt” dimenziók mentén. Módszer: (egyebek között) vélemények kérése az egyes lapok kedveltségéről 5 fokozatú skálán, majd MDS. Az eredményeket esetleges új lapok indításában, illetőleg a meglévők arculatának szükség szerinti módosításában kívánták hasznosítani.

55 Példa: piackutatás 2. Az öt vizsgált női lap elhelyezkedése az MDS elemzéssel azonosított és értelmezett három dimenzió mentén

56 Példa: piackutatás 3. Az öt vizsgált női lap elhelyezkedése az MDS elemzéssel azonosított és értelmezett három dimenzió mentén

57 „Térképkészítés” A következő kísérletben megvizsgáljuk, hogy hogyan lehet adott Euklideszi-távol- ságmátrixhoz síkbeli pontreprezentációt előállítani. Kiindulunk a magyarországi városok távolságmátrixából. Összesen 10 város egymástól vett km pontosságú távolságait helyeztük el Az alulról-háromszög alakú távolságmátrixban.

58 „Térképkészítés” Az adatmátrixba beírjuk 10 magyar város egymástól légvonalban vett távolságait. Alulról háromszög távolságmátrixot kaptunk a szimmetrikusság miatt, továbbá egy város önmagától mindig 0 távolságra van.

59 „Térképkészítés” Elindítjuk az MDS programot…

60 „Térképkészítés” Megadjuk, hogy az adatok távolságokat reprezentálnak (nem pl. hasonlósági mérőszámok), és az adatok háromszög-mátrixban vannak.

61 „Térképkészítés” Megadjuk, hogy az adatok arány skálájúak, és azt, hogy síkbeli, azaz 2-dimenziós reprezentációt kérünk

62 „Térképkészítés” Proxscal Kis stress-értékeket kaptunk, tehát jó lett a reprezentáció A városonkénti torzulások is kicsik! A városok koordinátái az elkészült térképen

63 „Térképkészítés” A városok elhelyezkedése a kiszámított koordináták szerint…

64 „Térképkészítés” A következő futtatásnál csökkentett információból indulunk ki. A távolságok helyett csak a rangszámokat tároljuk a mátrixban. Pl. a Budapest Szombathely relációban olvasható 23 azt jelenti, hogy a 45 távolság adat között között ez a távolság a 23.

65 „Térképkészítés” A nyíregyháza Debrecen a legkisebb távolság (1-es rangszámot kap) és Nyíregyháza Szombathely a két legtávolabbi város (relációjuk kapja a 45-öt)

66 „Térképkészítés” Most az adatok nem távolságokat, hanem rangszámokat jelentenek

67 „Térképkészítés” Az adatok szintje most csak ordinális

68 „Térképkészítés” Annak ellenére, hogy kevesebb információnk volt a városokról, a reprezentáció elég jó lett


Letölteni ppt "2014. 07. 07.1 Többdimenziós skálázás (MDS) Informatikai Tudományok Doktori Iskola."

Hasonló előadás


Google Hirdetések