Ozsváth Károly NYME ACSJK Testnevelési Tanszék

Slides:



Advertisements
Hasonló előadás
I. előadás.
Advertisements

Statisztika II. I. Dr. Szalka Éva, Ph.D..
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Adatbázis alapú rendszerek 1. Gyakorlat Követelmények / SQL.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Az egyed-kapcsolat modell
Élelmiszer profilanalízis bíráló paneljének minősítése
Non-profit szervezetek bevételi szerkezetének elemzése.
Kétértékűség és kontextusfüggőség Kijelentéseink igazak vagy hamisak (mindig az egyik és csak az egyik) Kijelentés: kijelentő mondat (tartalma), amivel.
Csoportosítás megadása: Δx – csoport szélesség
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Ábramagyarázat az Országos Kompetenciamérés iskolajelentéséhez
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. II. Országos Sportinformatikai Szimpózium A sportinformatikai szimpózium előadásai kimondva.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Dr.Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p.,
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. A diszkriminanciaanalízis (DSC, DISCRIMINANT) /{ DA, MDA }/ csoportok közti különbségek (különbözőségek),
Előadó: Prof. Dr. Besenyei Lajos
A középérték mérőszámai
Szélességi bejárás A szélességi bejárással egy irányított vagy irányítás nélküli véges gráfot járhatunk be a kezdőcsúcstól való távolságuk növekvő sorrendjében.
A megyei jogú városok, mint innovációs potenciál hordozók
Többdimenziós skálázás (7. fejezet). Alapgondolat Feltáró elemzés A skálázással az adatok közötti különbségeket vizsgáljuk, illetve vetítjük le őket kevesebb.
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Az F-próba szignifikáns
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Statisztika.
Kvantitatív Módszerek
Az elemzés és tervezés módszertana
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Képfeldolgozási módszerek alkalmazása kajszimagok morfológiai tulajdonságainak leírására Felföldi J. 1, Hermán R. 2, Pedryc A. 2, Firtha F. 1 1 Budapesti.
Közösségi érték (public value) vizsgálat Budapest, Szonda Ipsos.
Többváltozós adatelemzés
Többváltozós adatelemzés
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
A... TANTÁRGY OKTATÁSA KÍSÉRLETI/PROJEKT FORMÁBAN Projekt/kísérlet konkrét címe Név | Tanár neve | Iskola.
HALLGATÓI ELÉGEDETTSÉGI VIZSGÁLATOK A WJLF-EN A es tanév eredményei.
BISEL Biotikus Index a Középiskolai Oktatásban.
Térinformatika adatok tudásbázisán alapuló kereső- motor IKTA / 2000.
1 Az érzékleti csatornákat felmérő teszt reliabilitási vizsgálata.
I. előadás.
Ábramagyarázat az Országos Kompetenciamérés iskolajelentéséhez
Dr. Bánkuti Gyöngyi Klingné Takács Anna
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Kutatásmódszertani dilemmák
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
„R” helyett „Q”? – Új lehetőségek a faktoranalízis alkalmazásában
A számítógépes elemzés alapjai
Kiváltott agyi jelek informatikai feldolgozása 2016
Részekre bontott sokaság vizsgálata, gyakorló feladatok
Becsléselmélet - Konzultáció
Adatelemzési gyakorlatok
I. Előadás bgk. uni-obuda
Cím elrendezés Alcím.
Az Európai Unió tagországainak, a csatlakozásra váró országoknak
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Cím Alcím.
Mérési skálák, adatsorok típusai
Előadás másolata:

Ozsváth Károly NYME ACSJK Testnevelési Tanszék StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth Károly NYME ACSJK Testnevelési Tanszék

A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás. Az analízis a csoportosítást mindenképpen elvégzi, de ez még nem jelenti azt, hogy a csoportok között ténylegesen szignifikáns különbségek találhatók. (Ez diszkriminancia-analízissel vizsgálható, szükség esetén.) A clusteranalízis – hasonlóan a faktoranalízishez – nem hipotézisvizsgálati eljárás, nincs nullhipotézis, nincs szignifikancia vizsgálat. Az analízis osztályozási, osztályba sorolási, csoportba sorolási technika. („Cluster”= csoport, csoportosul/összegyűlik, csomó, fürt, nyaláb)

A clusteranalízis a vizsgált mintát részhalmazokra próbálja bontani A clusteranalízis a vizsgált mintát részhalmazokra próbálja bontani. Az eljárás a változók vagy a vizsgálati személyek hierarchiáját mutatja meg a kiválasztott algoritmus szerint, és az eredeti adatok összessége, együttes figyelembe vétele alapján. A hierarchia egy „fa” diagramon is ábrázolható. E grafikus kép elnevezése: dendogram. A dendogramon többnyire jól láthatók „sűrűsödési”, csoportosulási pontok, melyek a hozzájuk tartozó clusterekkel beazonosíthatók.

A clusteranalízis több módszerrel (algoritmussal) végezhető, amelyek eredményei egymástól részben eltérőek lehetnek. Ezért az osztályba sorolás „jóságáról” szakmai érvek és más statisztikai módszerek – pl. diszkriminanciaanalízis – alkalmazásával lehet meggyőződni. Feltétlenül meg kell győződni a kialakított csoportok jellemzőiről, változónkénti leíró statisztikáiról (átlag, szórás, stb.)

Első lépésként azt kell eldönteni, hogy a változók clusterezésére, vagy az estek/vizsgálati személyek clusterezésére van-e szükségünk? El kell dönteni továbbá, hogy előre meghatározott számú csoportot kívánunk kialakítani, vagy nem szabunk korlátot a csoportok számára és a dendogram (clusterek) alapján kívánunk csoportokat kialakítani. Általában kiindulásként célszerű az utóbbit választani, és elsőként az összekapcsolódáso-kat (fa kapcsolatok, „Joining /tree clustering/ ” ) kimutatni. Azaz kiindulásként célszerű egy dendogramot kapni és azt vizsgálni.

Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, 265-281. p. (SPSS: 266-273.p., Statistica: 273-281.p.) Fájl: burka2.sta

Példaként egy szakértői értékelés clusteranalízisét mutatom be Példaként egy szakértői értékelés clusteranalízisét mutatom be. A problémát a következő diák szerint vetettük fel.

Milyen sajátosságokat, egyezéseket és eltéréseket mutat? több szakértő véleménye több dologról, jelenségről (tárgyakról, intézményekről, személyekről) egységes szempontrendszer alapján (strukturált, számszerűsíthető szempontok)

A szakértői értékelések egyezése vizsgálható: a szakértőkre vonatkozóan a vizsgált dolgokra, jelenségekre vonatkozóan

A bemutatott sporttudományi példa 11 szakértő 5 sportmotoros tesztrendszerről (Eurofit, Hungarofit, Eiben-Barabás, Arday-Farmosi, Nagy S. tesztrendszerei) 12 strukturált szempont szerinti értékelése (max. 40 pont érhető el)

SZEMPONTRENDSZER A MOTOROS TESZTEK ÉRTÉKELÉSÉHEZ / Bös (1988) alapján / 1. DOKUMENTÁCIÓ (Max. 7 pont) 1.1. Név - 1.2. Szerző - 1.3. Forrás 3 1.4. Publikációk 2 1.5. Alkalmazások 2 2. KONCEPCIÓ (Max. 13 pont) 2.1. Tartalom 3 2.2. Itiner, instrukciók 2 2.3. Értelmezési tart. 1 2.4. Célmeghatározás 1 2.5. Konstrukciós jegyek 3 2.6. Test manual 3 3.TESZTSTATISZTIKA (Max. 20 pont) 3.1. A kritériumok megadásának általános szintje 3 3.2. Fő kritériumok 10 3.3. Normák, viszonyítási értékek 7 Az egyes pontértékekhez további részletes szempontok kerültek kidolgozásra.

Az eredményeket a „burka2.sta” táblázat tartalmazza. A táblázatban a felkért szakértők nevét megváltoztattuk, de minden esetben valós személyt takarnak a „fantázianevek”. A szakértők elnevezése a későbbi csoportba sorolásnak megfelelő. Az egyes tesztekre adott eredeti pontszámokat az első 5 változó foglalja magába. A Var6 és Var7 csoportosítási változó, amelyek a vizsgálat idején, a clusterezés után kerültek kialakításra.

Elsőként nézzük meg az átlagokat és a szórásokat. Jól látható, hogy a szakértők véleménye erősen szóródik. A magas szórások miatt az átlagok különbsége n.sz., kivéve a szélső értékeket képviselő két tesztrendszert.

Ezek után indítsuk el a clusteranalízist, ahol az első lépés a szokásos: Változók kijelölése

Majd válasszuk ki, hogy mire vonatkozik a clusterezés: változókra vagy esetekre (oszlopokra/sorokra), valamint az eljárási algoritmust is válasszuk ki. Jelen esetben elsőként a változókat clusterezzük, a „Complete linkage” eljárással.

A kapott eredmény szerint az Arday-Farmosi és a Nagy S A kapott eredmény szerint az Arday-Farmosi és a Nagy S. féle tesztrendszerek megítélése a legegységesebb. (Ezeknél volt a legkisebb az értékelő pontok szórása.) Ezzel szemben a szakértők egymástól leginkább eltérően az Eurofitet, és különösen a Hungarofitet minősítették. Vegyük észre, hogy jelen esetben a pontszámok szórása már eleve utalt a tesztek eltérő megítélésére. Nézzük meg, hogy ezen túlmenően csoportosíthatók-e a szakértői vélemények (illetve a szakértők)?

Az első lépésben az Arday-Farmosi és a Nagy S Az első lépésben az Arday-Farmosi és a Nagy S. féle tesztrendszerek kapcsolódtak egymáshoz, a második lépésben kapcsolódott hozzájuk az Eiben-féle tesztrendszer, harmadik lépésben következett az Eurofit, majd végül a Hungarofit. „Amalgamation Schedule” eredményei egyértelműen mutatják fentieket, és egyúttal jelzik az egyre nagyobb „távolságokat” (distances) a tesztek kapcsolódása között. Ez egyébként grafikusan is lekérhető a továbbiak szerint.

A következő lépésben visszatérünk egy korábbi ablakhoz („Cancel”), és a változók helyett az esetekre/személyekre („Cases/Rows”) végzünk clusteranalízist.

3 2 1

Az analízis szerint 3 csoport jól elkülöníthető egymástól, ezen belül az első kettő áll közelebb egymáshoz. (Az adatáblázatban „TIPUS2” csoportosítási változó szerint.) A 3 csoport elkülönítéséhez 8 lépés volt szükséges. Sajnálatos – és nehezen érthető – módon a StatSoft Statistica program nem teszi lehetővé a clusterek/csoportok mentését, rögzítését ennél a módszernél (Joining/tree clustering). Ezt vagy manuálisan, vagy más programmal, pl. a fentiekre képes SPSS-el végezhetjük el.

Kérdés még, hogy az elkülönített 3 csoport milyen jellemzőkkel rendelkezik? Ennek megítélésére nézzük meg a csoportonkénti átlagokat, és végezzünk diszkriminanciaanalízist a csoportok közötti különbségekre vonatkozóan.

SZIGORÚAK JOVIÁLISOK HUNGAROFITESEK

A csoportok átlagos értékelése

A szakértők elkülönített 3 csoportja tehát a (nagyon) kicsi elemszámok ellenére szignifikánsan különbözik egymástól. A számított diszkriminatív modell 100%-os biztonsággal sorol be a csoportokba.

A szakértők első csoportja értékelte a tesztrendszereket a legmagasabb pontszámokkal. Ők a „JOVIÁLISOK”. Magasra értékelték az Eurofitet, alacsonyra a Hungarofitet. A szakértők második csoportja szűken mérte a pontszámokat. Ők a „SZIGORÚAK”. Relatíve magasra értékelték az Eurofitet, alacsonyra a Hungarofitet. A csillagdiagramon szinte párhuzamos az értékelésük a „Joviálisokkal”, csak alacsonyabb pontokat adtak. A szakértők harmadik csoportja is szűken mérte a pontokat, viszont magasra értékelte a Hungarofitet. Ők a „HUFITESEK”. Magasra értékelték a Hungarofitet, alacsonyra az Eurofitet.

A szakértők 3 csoportjának elkülönítését clusteranalízis alapján végeztük el.

KÖVETKEZTETÉSEK Az adott vizsgálatban: a szakértői vélemények nem egyeznek, hanem három egymástól szignifikánsan különböző csoportba sorolhatók a különbségeket alapvetően az Eurofit és a Hungarofit eltérő megítélése okozza

Természetesen a clusterezés más módon is végrehajtható. Nézzük meg pl Természetesen a clusterezés más módon is végrehajtható. Nézzük meg pl. a következő dia szerinti eljárást.

Var6= TIPUS 2 1 3 4

Az eredmények a korábbiaktól annyiban térnek el, hogy egy szakértő véleménye markánsan különbözik a többiekétől. Azaz elkülönül egy egyedi(nek tekinthető) vélemény. (Szabad fordításban: „A Hungarofit tökéletes, a többi nem sokat ér.”)

Végezetül nézzük meg, hogy mit ad a clusteranalízis, ha előre megadjuk a kiszűrendő csoportok számát. Az előzőek szerint a csoportok száma legyen 3. Az eljárás a „K-means clustering”

Az eredmény nagyon hasonló a korábbiakhoz, csak egy „szigorú” a „hungarofitesek” közé soroltatott. Alaposabban megnézve az esetet látható, hogy ezúttal is az Eurofit alacsonyra és a Hungarofit viszonylag magasra értékeléséről van szó, ami a korábbiak után érthetővé teszi ezt a besorolást. Az eredmény ezúttal rögzíthető, és az eredeti adattáblázatba másolható.

Az eredmények tehát nagyon hasonlóak a korábbiakhoz, de az alaptendenciák tovább polarizálódtak. A szakértők véleménye erősen különbözik egymástól, amit főleg az Eurofit és a Hungarofit eltérő megítélése okoz. A csoportok közötti különbségek másodlagosan a pontszámok számszerű nagyságával is magyarázhatók (joviálisok/szigorúak), a ténylegesen döntő alap azonban itt is a Hungarofit és Eurofit megítélése.

A szakérők csoportosulását tehát 70%-ban a Hungarofit megítélése, 25%-ban az Eurofit megítélése befolyásolja. A többi teszt értékelésének megkülönböztető hatása 5% alatti, gyakorlatilag elhanyagolható.

A clusteranalízis igen hatékony osztálybasorolási technika A clusteranalízis igen hatékony osztálybasorolási technika. Kezdetként célszerű a dendogram meghatározása („Joining/tree clustering”), és ennek elemzése alapján megfontolandó a „K-means clustering” technika alkalmazása. A clusterezés eredményeire alapozott diszkriminanciaanalízis a „nehezebben emészthető” dendogramok eredményeit közérthetővé teheti. A clusteranalízis és a diszkriminanciaanalízis egymást kiegészítő alkalmazása szinte kivétel nélkül ajánlható.

The End of Cluster1