Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Ozsváth Károly NYME ACSJK Testnevelési Tanszék
StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth Károly NYME ACSJK Testnevelési Tanszék
2
A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás.
Az analízis a csoportosítást mindenképpen elvégzi, de ez még nem jelenti azt, hogy a csoportok között ténylegesen szignifikáns különbségek találhatók. (Ez diszkriminancia-analízissel vizsgálható, szükség esetén.) A clusteranalízis – hasonlóan a faktoranalízishez – nem hipotézisvizsgálati eljárás, nincs nullhipotézis, nincs szignifikancia vizsgálat. Az analízis osztályozási, osztályba sorolási, csoportba sorolási technika. („Cluster”= csoport, csoportosul/összegyűlik, csomó, fürt, nyaláb)
3
A clusteranalízis a vizsgált mintát részhalmazokra próbálja bontani
A clusteranalízis a vizsgált mintát részhalmazokra próbálja bontani. Az eljárás a változók vagy a vizsgálati személyek hierarchiáját mutatja meg a kiválasztott algoritmus szerint, és az eredeti adatok összessége, együttes figyelembe vétele alapján. A hierarchia egy „fa” diagramon is ábrázolható. E grafikus kép elnevezése: dendogram. A dendogramon többnyire jól láthatók „sűrűsödési”, csoportosulási pontok, melyek a hozzájuk tartozó clusterekkel beazonosíthatók.
4
A clusteranalízis több módszerrel (algoritmussal) végezhető, amelyek eredményei egymástól részben eltérőek lehetnek. Ezért az osztályba sorolás „jóságáról” szakmai érvek és más statisztikai módszerek – pl. diszkriminanciaanalízis – alkalmazásával lehet meggyőződni. Feltétlenül meg kell győződni a kialakított csoportok jellemzőiről, változónkénti leíró statisztikáiról (átlag, szórás, stb.)
5
Első lépésként azt kell eldönteni, hogy a változók clusterezésére, vagy az estek/vizsgálati személyek clusterezésére van-e szükségünk? El kell dönteni továbbá, hogy előre meghatározott számú csoportot kívánunk kialakítani, vagy nem szabunk korlátot a csoportok számára és a dendogram (clusterek) alapján kívánunk csoportokat kialakítani. Általában kiindulásként célszerű az utóbbit választani, és elsőként az összekapcsolódáso-kat (fa kapcsolatok, „Joining /tree clustering/ ” ) kimutatni. Azaz kiindulásként célszerű egy dendogramot kapni és azt vizsgálni.
6
Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, 265-281. p.
(SPSS: p., Statistica: p.) Fájl: burka2.sta
7
Példaként egy szakértői értékelés clusteranalízisét mutatom be
Példaként egy szakértői értékelés clusteranalízisét mutatom be. A problémát a következő diák szerint vetettük fel.
8
Milyen sajátosságokat, egyezéseket és eltéréseket mutat?
több szakértő véleménye több dologról, jelenségről (tárgyakról, intézményekről, személyekről) egységes szempontrendszer alapján (strukturált, számszerűsíthető szempontok)
9
A szakértői értékelések egyezése vizsgálható:
a szakértőkre vonatkozóan a vizsgált dolgokra, jelenségekre vonatkozóan
10
A bemutatott sporttudományi példa
11 szakértő 5 sportmotoros tesztrendszerről (Eurofit, Hungarofit, Eiben-Barabás, Arday-Farmosi, Nagy S. tesztrendszerei) 12 strukturált szempont szerinti értékelése (max. 40 pont érhető el)
11
SZEMPONTRENDSZER A MOTOROS TESZTEK ÉRTÉKELÉSÉHEZ / Bös (1988) alapján /
1. DOKUMENTÁCIÓ (Max. 7 pont) 1.1. Név - 1.2. Szerző - 1.3. Forrás 3 1.4. Publikációk 2 1.5. Alkalmazások 2 2. KONCEPCIÓ (Max. 13 pont) 2.1. Tartalom 2.2. Itiner, instrukciók 2 2.3. Értelmezési tart 2.4. Célmeghatározás 2.5. Konstrukciós jegyek 3 2.6. Test manual 3.TESZTSTATISZTIKA (Max. 20 pont) 3.1. A kritériumok megadásának általános szintje 3.2. Fő kritériumok 3.3. Normák, viszonyítási értékek Az egyes pontértékekhez további részletes szempontok kerültek kidolgozásra.
12
Az eredményeket a „burka2.sta” táblázat tartalmazza.
A táblázatban a felkért szakértők nevét megváltoztattuk, de minden esetben valós személyt takarnak a „fantázianevek”. A szakértők elnevezése a későbbi csoportba sorolásnak megfelelő. Az egyes tesztekre adott eredeti pontszámokat az első 5 változó foglalja magába. A Var6 és Var7 csoportosítási változó, amelyek a vizsgálat idején, a clusterezés után kerültek kialakításra.
14
Elsőként nézzük meg az átlagokat és a szórásokat.
Jól látható, hogy a szakértők véleménye erősen szóródik. A magas szórások miatt az átlagok különbsége n.sz., kivéve a szélső értékeket képviselő két tesztrendszert.
17
Ezek után indítsuk el a clusteranalízist, ahol az első lépés a szokásos:
Változók kijelölése
22
Majd válasszuk ki, hogy mire vonatkozik a clusterezés: változókra vagy esetekre (oszlopokra/sorokra), valamint az eljárási algoritmust is válasszuk ki. Jelen esetben elsőként a változókat clusterezzük, a „Complete linkage” eljárással.
27
A kapott eredmény szerint az Arday-Farmosi és a Nagy S
A kapott eredmény szerint az Arday-Farmosi és a Nagy S. féle tesztrendszerek megítélése a legegységesebb. (Ezeknél volt a legkisebb az értékelő pontok szórása.) Ezzel szemben a szakértők egymástól leginkább eltérően az Eurofitet, és különösen a Hungarofitet minősítették. Vegyük észre, hogy jelen esetben a pontszámok szórása már eleve utalt a tesztek eltérő megítélésére. Nézzük meg, hogy ezen túlmenően csoportosíthatók-e a szakértői vélemények (illetve a szakértők)?
28
Az első lépésben az Arday-Farmosi és a Nagy S
Az első lépésben az Arday-Farmosi és a Nagy S. féle tesztrendszerek kapcsolódtak egymáshoz, a második lépésben kapcsolódott hozzájuk az Eiben-féle tesztrendszer, harmadik lépésben következett az Eurofit, majd végül a Hungarofit. „Amalgamation Schedule” eredményei egyértelműen mutatják fentieket, és egyúttal jelzik az egyre nagyobb „távolságokat” (distances) a tesztek kapcsolódása között. Ez egyébként grafikusan is lekérhető a továbbiak szerint.
31
A következő lépésben visszatérünk egy korábbi ablakhoz („Cancel”), és a változók helyett az esetekre/személyekre („Cases/Rows”) végzünk clusteranalízist.
36
3 2 1
37
Az analízis szerint 3 csoport jól elkülöníthető egymástól, ezen belül az első kettő áll közelebb egymáshoz. (Az adatáblázatban „TIPUS2” csoportosítási változó szerint.) A 3 csoport elkülönítéséhez 8 lépés volt szükséges. Sajnálatos – és nehezen érthető – módon a StatSoft Statistica program nem teszi lehetővé a clusterek/csoportok mentését, rögzítését ennél a módszernél (Joining/tree clustering). Ezt vagy manuálisan, vagy más programmal, pl. a fentiekre képes SPSS-el végezhetjük el.
38
Kérdés még, hogy az elkülönített 3 csoport milyen jellemzőkkel rendelkezik?
Ennek megítélésére nézzük meg a csoportonkénti átlagokat, és végezzünk diszkriminanciaanalízist a csoportok közötti különbségekre vonatkozóan.
49
SZIGORÚAK JOVIÁLISOK HUNGAROFITESEK
50
A csoportok átlagos értékelése
51
A szakértők elkülönített 3 csoportja tehát a (nagyon) kicsi elemszámok ellenére szignifikánsan különbözik egymástól. A számított diszkriminatív modell 100%-os biztonsággal sorol be a csoportokba.
52
A szakértők első csoportja értékelte a tesztrendszereket a legmagasabb pontszámokkal. Ők a „JOVIÁLISOK”. Magasra értékelték az Eurofitet, alacsonyra a Hungarofitet. A szakértők második csoportja szűken mérte a pontszámokat. Ők a „SZIGORÚAK”. Relatíve magasra értékelték az Eurofitet, alacsonyra a Hungarofitet. A csillagdiagramon szinte párhuzamos az értékelésük a „Joviálisokkal”, csak alacsonyabb pontokat adtak. A szakértők harmadik csoportja is szűken mérte a pontokat, viszont magasra értékelte a Hungarofitet. Ők a „HUFITESEK”. Magasra értékelték a Hungarofitet, alacsonyra az Eurofitet.
53
A szakértők 3 csoportjának elkülönítését clusteranalízis alapján végeztük el.
54
KÖVETKEZTETÉSEK Az adott vizsgálatban:
a szakértői vélemények nem egyeznek, hanem három egymástól szignifikánsan különböző csoportba sorolhatók a különbségeket alapvetően az Eurofit és a Hungarofit eltérő megítélése okozza
55
Természetesen a clusterezés más módon is végrehajtható. Nézzük meg pl
Természetesen a clusterezés más módon is végrehajtható. Nézzük meg pl. a következő dia szerinti eljárást.
58
Var6= TIPUS 2 1 3 4
60
Az eredmények a korábbiaktól annyiban térnek el, hogy egy szakértő véleménye markánsan különbözik a többiekétől. Azaz elkülönül egy egyedi(nek tekinthető) vélemény. (Szabad fordításban: „A Hungarofit tökéletes, a többi nem sokat ér.”)
61
Végezetül nézzük meg, hogy mit ad a clusteranalízis, ha előre megadjuk a kiszűrendő csoportok számát. Az előzőek szerint a csoportok száma legyen 3. Az eljárás a „K-means clustering”
73
Az eredmény nagyon hasonló a korábbiakhoz, csak egy „szigorú” a „hungarofitesek” közé soroltatott.
Alaposabban megnézve az esetet látható, hogy ezúttal is az Eurofit alacsonyra és a Hungarofit viszonylag magasra értékeléséről van szó, ami a korábbiak után érthetővé teszi ezt a besorolást. Az eredmény ezúttal rögzíthető, és az eredeti adattáblázatba másolható.
81
Az eredmények tehát nagyon hasonlóak a korábbiakhoz, de az alaptendenciák tovább polarizálódtak. A szakértők véleménye erősen különbözik egymástól, amit főleg az Eurofit és a Hungarofit eltérő megítélése okoz. A csoportok közötti különbségek másodlagosan a pontszámok számszerű nagyságával is magyarázhatók (joviálisok/szigorúak), a ténylegesen döntő alap azonban itt is a Hungarofit és Eurofit megítélése.
84
A szakérők csoportosulását tehát 70%-ban a Hungarofit megítélése, 25%-ban az Eurofit megítélése befolyásolja. A többi teszt értékelésének megkülönböztető hatása 5% alatti, gyakorlatilag elhanyagolható.
85
A clusteranalízis igen hatékony osztálybasorolási technika
A clusteranalízis igen hatékony osztálybasorolási technika. Kezdetként célszerű a dendogram meghatározása („Joining/tree clustering”), és ennek elemzése alapján megfontolandó a „K-means clustering” technika alkalmazása. A clusterezés eredményeire alapozott diszkriminanciaanalízis a „nehezebben emészthető” dendogramok eredményeit közérthetővé teheti. A clusteranalízis és a diszkriminanciaanalízis egymást kiegészítő alkalmazása szinte kivétel nélkül ajánlható.
86
The End of Cluster1
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.