Többváltozós adatelemzés 4. előadás
Klaszterelemzés Nem irányított szegmentálás Nincs ‘eredményváltozó’ A változók egyenrangúak Osztályozó nélküli osztályozás Nem irányított tanulás
Mi a cél? Nem jól definiált (saját meglátás) „Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure.” Heterogén sokaság homogén részsokaságokra történő felbontása (saját definíció)
Előnyök Nem szükséges az eloszlást ismerni Gyakorlatilag bármilyen adatállományon lehet klaszterelemzést végezni
Hátrányok Erős szubjektivitás Nincsenek támpontok az ‘illeszkedés’ jóságának méréséhez Sok választási lehetőség, orientáció nélkül Tapasztalat
Elvárások a klaszterezéssel szemben Folytonosság: kis változásokra az adatokban kis változások történjenek a klaszterekben) Nincs jól definiálva, hogy mit jelent a kis változás
Elvárások a klaszterezéssel szemben -2- Stabilitás: egy-egy adat jelentősége csekély (egy új pont elvétele vagy hozzáadása elenyésző hatású) Időbeli (keresztmetszeti) stabilitás: különböző időpontokban (helyeken) elvégzett klaszterezés azonos eredményt adjon
Elvárások a klaszterezéssel szemben -3- Invariancia: a klaszterelemzés invariáns legyen a változók monoton transzformációjára Skálafüggetlenség (pl.: sztenderdizálás) Adatok sorrendjétől való függetlenség
Elvárások a klaszterezéssel szemben -4- Validitás: Külső validitás: ismert csoportokba tartozó egyedekből veszünk mintát Belső validitás: eredeti és származtatott távolságok Megismételhetőség Különböző eljárások összevetése
Elvárások a klaszterezéssel szemben -5- Robosztusság: kilógó pontok hatásának csökkentése
Klaszterelmzés két fő iránya Nemhierarchikus klaszterelmzés K-középpontú algoritmus (K-means cluster) Partícionáló klaszterelemzés Hierarchikus klaszterelmzés Természetesen ezen két fő irányon kívül léteznek még más eljárások is. Egyik legismertebb az ún. Kohonen-map ami neurális hálón alapszik
K középpontú algoritmus Algoritmus leírása Klaszterközepek kijelölése Adatpontok hozzárendelése a középpontokohoz Klaszterközepek újraszámolás Ha a klaszterközepek változtak, akkor újabb iteráció
Kezdőpontok hatása A kleszterelmzést megismételjük úgy, hogy induláskor másik kezdőpontot választunk
Kezdőpontok választása Az előbbi példán is láttuk, milyen nagy a kezdőpontok választásának jelentősége Az SPSS programcsomag egy viszonylag bonyolult algoritmussal választ kezdőpontot, amivel eléri, hogy az esetek nagy részében nem függ az adatok sorrendjétől a választás, de bizonyos esetekben más eredményt kapunk az adatok sorrendjétől függően
K középpontú algoritmus Az algoritmus meglehetősen gyors Lokális optimum problémája Az eljárás függhet a kezdőpontok megválasztásától Kis elemszámú klaszterek Klaszterek számára nincs iránymutatás (hüvelykujj szabály: könyökpont keresése) Változók jelentősége (ANOVA tábla)
Változók mértékegysége A nagyobb szórású változók nagyobb hatással vannak a klaszterezésre Ha a változók mértékegysége különbözik, akkor a változókat sztenderdizáljuk A sztenderdizálás hatására az eredmény érzéketlen a lineáris transzformációra
K középpontú klaszterelemzés
Extrém értékek nélkül
ANOVA
Hány klaszter legyen?
Könyökpont keresése Egy heurisztikus megközelítés: Tekintsük a klasztereket csoportképző változónak. Számoljuk minden klaszterszám esetén a külső szórásnégyzet és a teljes szórásnégyzet arányát. Válasszuk azt a klaszterszámot, ahol törés mutatkozik a görbében
Könyökpont keresése
Százalékos megoszlás Ha az abszolút értékek alapján végezzük el a klaszterelemzést (még ha sztenderdizálva vannak is a változók) olyan klaszterek keletkeznek, hogy vannak nagy költségvetésű intézmények és vannak kicsik Százalékos megoszlás esetén nem alkalmazok sztenderdizálást
Százalékos megoszlás
Százalékos megoszlás -szűrés után-
Százalékos megoszlás -szűrés után-