Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 20. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /
Az előadás tartalma A Multi Dimenzionális Skálázás (MDS): Az MDS grafikai szemléltetése Mintapélda 1: Autószobrászat Bt. –MDS SPSS-ben, változó-adatokon –Az MDS eredményeinek értelmezése –MDS térképek bemutatása Mintapélda 2: Sarban-Haw-Duke Biztosító –MDS SPSS-ben, távolsági adatokon –MDS térképek bemutatása Változók megbízhatósági vizsgálata –Változók megbízhatósági vizsgálata SPSS-ben
A Multi Dimenzionális Skálázás fogalma A korábban tárgyalt territoriális térképek lehetőséget adtak arra, hogy a lehető legjobb nézetben tanulmányozhassuk a megfigyelések különböző csoportjainak elkülönülését Felmerülhet az igény, hogy a változók különböző csoportjainak elkülönülését is térképen tanulmányozzuk: –Pl. a Pszichológiában igen elterjedtek a kognitív térképek (Cognitive Maps): fogalmak egy csoportja közti kapcsolatrendszer térbeli kivetítése. De ezeket a legtöbbször szubjektív módon rajzolják meg, kvantitatív háttér nélkül A problémát főleg az jelenti, hogy a válaszadóktól általában nem lehet közvetlenül begyűjteni a térképezéskez szükséges koordinátákat: –Pl. Korsós F. Lajos hivatásos alkoholista sokat tud az italokról, de ha megkérnénk, hogy „differencia-specifikálja őket egy kognitív térképen”, ez történne: –Maximum annyit tudhatunk meg tőle, hogy melyik pia jobb, mint a másik – az elemek közti rangsor az elérhető legjobb infó A Multi Dimenzionális Skálázás (Multi Dimensional Scaling, MDS) lényegében egy fordított eredményű faktoranalízis: az eredeti változókat faktorsúlyaik alapján ábrázoljuk a 2 vagy 3 legerősebb kibontott faktor alkotta koordináta rendszerben Vátozó/ Faktor Tunning mánia Divat követés Az autót ugyanúgy díszíteni kell egyéni dolgokkal, és be kell rendezni mint egy lakást. 80.3%-15.2% Az autónak tükröznie kell a tulajdonos stílusát és személyiségét, erre áldoznia kell. 77.4%1.4% A noknek noies autók valók: kicsi, színes, legömbölyített, és könnyu vele parkolni. 56.7%30.6% Egy autónál az ár, a fogyasztás és teljesítmény fontosabb, mint a biztonsági felszerelések.50.9%1.6% A legömbölyített formájú autók divatosabbak, mint a szögletesek.-23.5%80.0% Ha egy autó dinamikus, sok erotartalék van benne, ezzel kikerülhetem a veszélyhelyzeteket.35.2%63.8% A német vagy svéd autók hasonló tipusokat összevetve, jobbak az olaszoknál és franciáknál.3.1%4.9% Az autóvásárlásnál fontos, hogy muszaki és piaci ismeretekkel egyaránt rendelkezzek. 4.2%-1.1% F1=?×V1+?×V2
Az MDS grafikai szemléltetése 1 Ez azonban olyan speciális faktoranalízis, ahol nem biztos, hogy ismerjük az eredeti változók értékeit, hanem a válaszadók csak a köztük lévő távolságot/ közelséget (Distance/ Proximity) tudják megmondani Az MDS adatbázis eloszlásásval kapcsolatos alapfeltételezése, hogy a távolságok normális eloszlású és konzisztens rendszert alkotnak (pl. a hozzám közelállókhoz közel állók tőlem sem lehetnek nagyon messze) Olyan mintha egy számunkra ismeretlen ország térképét (2 dimenziós közelítés) egy légiforgalmi menetrend távolsági táblázata alapján kellene felrajzolni: Gotham City Fivechurces St. Lawrence Fort Isle Missi’s Tree Triphamer’s Tree Republic of Urundi-Burundi Gotha m City Five- church es Fort Isle St. Lawren ce Triphamer 's Tree Missi's Tree Gotham City Fivec- hurches Fort Isle St. Lawrence Triphamer 's Tree Missi's Tree
F1F1 F2F2 F3F3 Az MDS grafikai szemléltetése 2 Általában semmi garancia nincs rá, hogy a válaszadók által megadott, elemek közti távolságok illeszkednek 2 vagy 3 dimenzióba, ahol grafikusan kényelmesen megjeleníthető a rendszer Ezért az algoritmus magasabb dimenziószámokról indul és folyamatosan próbálja redukálni a térkép tengelyeinek a számát 2-re vagy 3-ra. Ezt úgy tudjuk elkép- zelni, hogy az elemeket jel- képező fémgyűrűket adott hosszúságú, erős spirálrugókkal kötjük össze, amelyek egy kicsit nyúlhatnak vagy összehúzódhatnak (feltételezzük, hogy keresztezhetik egymást) Ezután addig ugrálunk az egészen, amíg nem sikerül belepofozni 2 dimenzióba. Ez persze csak úgy sikerülhet, hogy az elemek mozognak, bizonyos rugók nyúlanak/ nyomódnak, vagyis a közelítés pontatlanságát jelző feszülés, stressz (Stress) növekszik.
Az előadás tartalma A Multi Dimenzionális Skálázás (MDS): Az MDS grafikai szemléltetése Mintapélda 1: Autószobrászat Bt. –MDS SPSS-ben, változó-adatokon –Az MDS eredményeinek értelmezése –MDS térképek bemutatása Mintapélda 2: Sarban-Haw-Duke Biztosító –MDS SPSS-ben, távolsági adatokon –MDS térképek bemutatása Változók megbízhatósági vizsgálata –Változók megbízhatósági vizsgálata SPSS-ben
Az Autószobrászat Bt. egy 2 vagy 3 dimenziós térképen szeretné látni a kérdőívén (lásd KerdoivMinta.doc ) található 13db, az autók termékjellemzőivel kapcsolatos változót. Bár ezekből a változókból már faktorok is készültek, azok egyszerűen elosztják egymás közt a változókat. Most grafikus formában szeretnék látni, a válaszadók fejében mely dimenziók mentén csoportosulnak ezek a változókKerdoivMinta.doc Mintapélda 1
MDS SPSS-ben, változó-adatokon 1 Most abban a szerencsés heyzetben vagyunk, hogy rendelkezésre állnak a változók adatai: A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájltAdatbazisMinta.sav Az Analyze| Scale| Multi Dimensional Scaling menüvel válasszuk az MDS-t Erre megjelenik az MDS ablak. Jelöljük meg egérkattintással, hogy mivel vannak változó- adataink, a távolságokat ezekből hozzuk létre (Create distances from data) A bal oldali változólistában Shift+egérhúzással jelöljük ki a 13db termékjellemző változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt shift +húz shift +húz
MDS SPSS-ben, változó-adatokon 2 A gombra kattintva állíthatjuk a távolságszámítást: változók közt számolunk (Between variables) négyzetes euklideszi (Squared Euclidean) távolságot, 1-es szórásúra sztenderdizálva (Standard deviation to 1) megfigyelésenként (By case). A gombra kattintva állíthatjuk az MDS modellt: feltételezze, hogy az input adatok (itt termékjellemző-fontosságok) csak rangsorolások (Ordinal), vagyis a fokozatok közt lévő távolságokat a válaszadók nem érzékelik. Szórja szét az (1..6) ordinális értékek koncentrációját, hogy ez ne zavarja a csoportosítást (Untie tied observations) dimenziót bont- son ki, a térképen euklideszi (Euclidean) távolságokat mérünk. Az gombra kat- tintva kérjük az ösz- szes diagrammot Az gombra kat- tintva indítsuk a szá- molást katt Sztenderdizálni azért kell, hogy korrigáljuk, hogy az egyik válaszadó mer szélsőségesebb véleményt nyilvánítani (nagy szórás), a másik nem (kis szórás). Különben mindig a szélsőségesek véleménye dominálna
Az MDS eredményeinek értelmezése 1 Mivel az SPSS nem tudja a stressz növekedését a dimenziók redukciója közben grafikusan megjeleníteni Másoljuk ki az Output window| Text output részéből az 1..5 dimenziós megoldásokhoz tartozó minimális Young-féle S- stressz mértéket (Young’s S-Stress) Az MDS.xls munkalapra, ami megjeleníti őket egy stressz könyökdiagrammon (Stess Scree Plot)MDS.xls Annyi dimenziót hagyunk meg a térképen, ahol a stressz még nem ugrik fel magasra katt
Az MDS eredményeinek értelmezése 2 Az Output window| Derived Stimulus Configuration részében menjünk a megfelelő térképre Ha ez 3 dimenziós, akkor dupla kattintással indítsuk az SPSS diagrammszerkesztőt (Chart Editor) A gombra kattintve előjön a 3D diagramm beállítások ablak (3-D Scatterplot Options) –Állítsuk be a vetítővonalakat (Spikes) a padlóhoz (Floor), ez áttekinthetőbbé teszi a pontok elhelyezkedését A gombra kattintva előjön a diagrammforgatás (3-D Rotation) ablak –A forgatógombbal forgassuk el a diagrammot 45 fokonként több nézetbe –A nézeteket másoljuk a munkalapra Szerkesztés| Irányított beillesztés| Kép metafájl (Edit| Paste special| Picture metafile)-ként Ha a térkép háromnál több dimenziós, a Chart Editor Series| Displayed menüvel válthatunk a tengelyeket a 3D diagrammon katt katt + katt katt + katt
Az MDS térképek bemutatása 1 A munkalapra másolt térképek hányadék megjelenésén sokat segíthetünk egy kis kézi szerkesztéssel: Jelöljük ki a diagrammot a munkalapon Nyissuk meg az Excelben a Nézet| Eszköztárak (View|Toolbars) menüvel a Rajzoló Eszköztárat (Drawing Toolbar) Az itt található Rajz| Szétbontás (Draw| Ungroup) menüvel bontsuk elemeire a diagrammot Kijön egy figyelmeztetés, hogy ez Metafájl és nem Excel Rajzobjektum, konvertálhatja-e? Nyomjunk Yes-t Ismételgessük a szétbontást, amíg a diagramm teljesen elemeire bomlik Jelöljük ki az SPSS helypazarló külső keretezésének téglalapjait, és töröljük őket Del gombbal Az elemek helyzetét tanulmányozva, elnevezhetjük a térkép tengelyeit, és átírhatjuk velük a rajzobjektumban az alapértelmezett Dimension1, 2, stb. neveket Ha kész vagyunk a szerkesztéssel a Rajzoló Eszközsoron kattintsunk a gombra, ami a kijelölőkeret eszköz. Keretezzük be vele a diagramm összes rajzi elemét, hogy minden kijelölődjön A Rajzoló Eszközsor Rajz| Csoportosítás (Draw| Group) menüvel olvasszuk egybe a diagramm elemeit Ezután a diagramm a kívánt méretre átméretezhető (szerkesztés elött NEM!!!) A kész elemzést lásd: MDSMinta.xlsMDSMinta.xls katt
Az MDS térképek bemutatása 2 Prezentációkban mindig forgatási fázisonként animált megjelenítéssel mutatjuk be a három dimenziós térképeket, hogy térben jobban elképzelhetők legyenek:
Az előadás tartalma A Multi Dimenzionális Skálázás (MDS): Az MDS grafikai szemléltetése Mintapélda 1: Autószobrászat Bt. –MDS SPSS-ben, változó-adatokon –Az MDS eredményeinek értelmezése –MDS térképek bemutatása Mintapélda 2: Sarban-Haw-Duke Biztosító –MDS SPSS-ben, távolsági adatokon –MDS térképek bemutatása Változók megbízhatósági vizsgálata –Változók megbízhatósági vizsgálata SPSS-ben
Mintapélda 2 Az MDS bonyolultabb esete, ha a változók adatai ismeretlenek, csak a köztük lévő távolságról (Distance) /közelségről (Proximity) rendelkezünk infókkal, és ez alapján kellene térképet rajzolni: Uhrin Ubul, a Saarban-Haw-Duke Magyarország Biztosító Rt. Dél- Dunántúli régióvezetője az akadozva működő formális szervezeti hierarchiát szeretné összehasonlítani a munkatársak közti informális kapcsolatok térképével Az elégtelen informális kapcsolatrendszer oka lehet a szolgálati út akadozásának Megfigyeltük az elmúlt egy évben a munkatársak egymásközti telefon és forgalmát, és egy táblázatban összesítettük a kontaktusok számát Feltételezzük, hogy a intenzívebb kölcsönös kommunikáció a munkatársak szorosabb kapcsolatára utal Az adatbázisba (lásd: KontaktusRecipr.sav ) minden érték a reciprokaként (1/x) került be, mert ott távolságokra lesz szükségünk KontaktusRecipr.sav Ubul LaciGéza Jenő Aladár Magda Sári Anett Lajos Sándor Ádám György Hívó/ HívottUbulGézaLaciJenőSári Ádá mLajos Anet t Sánd or Magd a Aladá rGyörgy Ubul Géza Laci Jenő Sári Ádám Lajos Anett Sándor Magda Aladár György
MDS SPSS-ben, távolsági adatokon 1 Most nem állnak rendelkezésre az egyes emberek fontos tulajdonságait leíró változók, csak a köztük mért távolságok: A File|Open menüvel nyissuk meg az KontaktusRecipr.sav fájltKontaktusRecipr.sav Az Analyze| Scale| Multi Dimensional Scaling menüvel válasszuk az MDS-t Erre megjelenik az MDS ablak. Jelöljük meg egérkattintással, hogy az adatok távolságok (Data are distances) A bal oldali változólistában Shift+egérhúzással jelöljük ki a 12 munkatárs távolsági változóit Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt shift +húz shift +húz
MDS SPSS-ben, távolsági adatokon 2 A gombra kattintva állíthatjuk hogyan értelmezze az adatbázisban a távolságokat: négyzetes, a főátlóra szimmetrikus táblázattal (Square symmetric) dolgozzon A gombra kattintva állíthatjuk az MDS modellt: –Feltételezze, hogy az input adatok arányskálák (Ratio), mivel reciprok (1/x) művelettel alakítottuk ki őket, így van abszolút 0 pontja a skálának. –1..5 dimenziót bontson ki –A térképen euklideszi (Euclidean) távolságokat mérünk. Az gombra kattintva kérjük az összes diagrammot Az gombra kattintva indítsuk a számolást katt
Az MDS térkép bemutatása Az előbbiekhez hasonlóan, az MDS.xls munkalapra másolva az eredményeket, a következőket kapjuk: MDS.xls A könyökdiagrammon egyértelműen látszik, hogy a térkép jól ábrázolható 2 dimenzióban Ubul a munkatársak csak általa ismert tulajdonságai alapján „Nyalizás”-nak és „Törtetés”-nek nevezte el a dimenziókat Magda, Gyögy, Géza, Aladár különböző irányokba kiesnek a középbolyból Ott viszont majd mindenki (Sári, Laci, Anett, Jenő, Ádám, Sándor) az igazgatótól, Ubultól elkülönülő csoportot alkot A kész elemzést lásd: MDSMinta2.xls MDSMinta2.xls
Az előadás tartalma A Multi Dimenzionális Skálázás (MDS): Az MDS grafikai szemléltetése Mintapélda 1: Autószobrászat Bt. –MDS SPSS-ben, változó-adatokon –Az MDS eredményeinek értelmezése –MDS térképek bemutatása Mintapélda 2: Sarban-Haw-Duke Biztosító –MDS SPSS-ben, távolsági adatokon –MDS térképek bemutatása Változók megbízhatósági vizsgálata –Változók megbízhatósági vizsgálata SPSS-ben
A változók megbízhatósági vizsgálata A változó-adatokból történő MDS elemzésnél láthattuk, hogy biztonsági okokból nem fogadtuk el az Autószobrászat Bt. kérdőívén szereplő 13 termékjellemző- fontossági kérdést 1..6 intervallum skálának, mert nem voltunk benne biztosak, hogy a válaszadók képesek azonos távolságok megkülönböztetésére a fokozatok közt Felvetődik a kérdés, hogyan lehetne ellenőrizni változók egy csoportjánál, hogy helyes módon skálázták-e őket? Ez különösen fontos akkor, ha a kérdőíven elrontották a kérdéseket: –A kérdés nem egyértelmű, vagy nehezen érthető –A skálának van középértéke, és erős középre húzási effektus lépett fel –A válasz alternatívák nem egyértelműek Erre szolgál a skálázási módszerek egy speciális alcsoportja, a megbízhatósági elemzés (Reliability Analysis): –Ez olyan skálázási módszer, amely mindig 1 dimenzióba nyomja össze a változók közti távolságokat –A célja nem valamiféle térkép készítése, hanem hogy tesztelje, mekkorára nő a stressz az 1 dimenzióra történő redukció közben –Ha ez túl nagy, akkor a változók önellenmondó rendszert alkotnak, illetve baj van a skálázással 26. Ha tehetem, hétvégén gyakran olvasok könyvet, de csak ha hét közben nem fáradok el:1-Egyáltalán nem 2-Csak kalandregényeket 3-Közepesen jellemző 4-Igen 5-Abszolút
A változók megbízhatósági vizsgálata SPSS-ben 1 Vizsgáljuk meg az Autószobrászat Bt. kérdőívén (lásd: KerdoivMinta.doc ) szereplő 13 termékjellemző- fontossági kérdés megbízhatóságát: KerdoivMinta.doc A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájltAdatbazisMinta.sav Az Analyze| Scale| Reliability Analysis menüvel válasszuk a megbízhatósági elemzést Erre megjelenik a megbízhatósági elemzés (Reliability Analysis) ablak A bal oldali változólistában Shift+egérhúzással jelöljük ki a 13db termékjellemző változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre Válasszuk az -modellt (Alpha) Listázza a változók címkéit is (List item labels) katt shift +húz shift +húz katt
A változók megbízhatósági vizsgálata SPSS-ben 2 A gombra kattintva állíthatjuka kiszámított statisztikákat: –Kérjük változókra (Item) –Kérjük skálákra (Scale) –Kérjünk változóközi korrelációkat (Correlations) –Az ANOVA táblát az F-teszt (F-test) alapján állítsa össze Az gombbal indítsuk a számításokat Az Output window| Text Output részének végén láthatjuk a Kronbach- tesztet (Cronbach Alpha): –Ez a 13 változó skálázásának konzisztenciáját méri %-os formában –A változók közti korre- lációk átlagán alapul –Itt 78%, ami nem túl jó, de még elfogadható katt
Sokdimenziós skálázás: Elméleti bevezető: Elméleti bevezető: Nem metrikus MDS: Metric-Scaling.pdf#search='multi%20dimensional%20scaling‘ Metric-Scaling.pdf#search='multi%20dimensional%20scaling MDS-el kapcsolatos linkgyűjtemény és szoftverek: MDS diagrammoló szoftver, MAVIS: Megbízhatósági elemzés: Elméleti bevezető: Használata StatView-ben: ml ml Szakirodalom