Többváltozós adatelemzés

Többváltozós adatelemzés
4. előadás

Klaszterelemzés Nem irányított szegmentálás Nincs ‘eredményváltozó’
A változók egyenrangúak Osztályozó nélküli osztályozás Nem irányított tanulás

Mi a cél? Nem jól definiált (saját meglátás)
„Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure.” Heterogén sokaság homogén részsokaságokra történő felbontása (saját definíció)

Előnyök Nem szükséges az eloszlást ismerni
Gyakorlatilag bármilyen adatállományon lehet klaszterelemzést végezni

Hátrányok Erős szubjektivitás
Nincsenek támpontok az ‘illeszkedés’ jóságának méréséhez Sok választási lehetőség, orientáció nélkül Tapasztalat

Elvárások a klaszterezéssel szemben
Folytonosság: kis változásokra az adatokban kis változások történjenek a klaszterekben) Nincs jól definiálva, hogy mit jelent a kis változás

Elvárások a klaszterezéssel szemben -2-
Stabilitás: egy-egy adat jelentősége csekély (egy új pont elvétele vagy hozzáadása elenyésző hatású) Időbeli (keresztmetszeti) stabilitás: különböző időpontokban (helyeken) elvégzett klaszterezés azonos eredményt adjon

Invariancia: a klaszterelemzés invariáns legyen a változók monoton transzformációjára Skálafüggetlenség (pl.: sztenderdizálás) Adatok sorrendjétől való függetlenség

Validitás: Külső validitás: ismert csoportokba tartozó egyedekből veszünk mintát Belső validitás: eredeti és származtatott távolságok Megismételhetőség Különböző eljárások összevetése

Robosztusság: kilógó pontok hatásának csökkentése

Klaszterelmzés két fő iránya
Nemhierarchikus klaszterelmzés K-középpontú algoritmus (K-means cluster) Partícionáló klaszterelemzés Hierarchikus klaszterelmzés Természetesen ezen két fő irányon kívül léteznek még más eljárások is. Egyik legismertebb az ún. Kohonen-map ami neurális hálón alapszik

K középpontú algoritmus
Algoritmus leírása Klaszterközepek kijelölése Adatpontok hozzárendelése a középpontokohoz Klaszterközepek újraszámolás Ha a klaszterközepek változtak, akkor újabb iteráció

Kezdőpontok hatása A kleszterelmzést megismételjük úgy, hogy induláskor másik kezdőpontot választunk

Kezdőpontok választása
Az előbbi példán is láttuk, milyen nagy a kezdőpontok választásának jelentősége Az SPSS programcsomag egy viszonylag bonyolult algoritmussal választ kezdőpontot, amivel eléri, hogy az esetek nagy részében nem függ az adatok sorrendjétől a választás, de bizonyos esetekben más eredményt kapunk az adatok sorrendjétől függően

K középpontú algoritmus
Az algoritmus meglehetősen gyors Lokális optimum problémája Az eljárás függhet a kezdőpontok megválasztásától Kis elemszámú klaszterek Klaszterek számára nincs iránymutatás (hüvelykujj szabály: könyökpont keresése) Változók jelentősége (ANOVA tábla)

Változók mértékegysége
A nagyobb szórású változók nagyobb hatással vannak a klaszterezésre Ha a változók mértékegysége különbözik, akkor a változókat sztenderdizáljuk A sztenderdizálás hatására az eredmény érzéketlen a lineáris transzformációra

K középpontú klaszterelemzés

Extrém értékek nélkül

Hány klaszter legyen?

Könyökpont keresése Egy heurisztikus megközelítés:
Tekintsük a klasztereket csoportképző változónak. Számoljuk minden klaszterszám esetén a külső szórásnégyzet és a teljes szórásnégyzet arányát. Válasszuk azt a klaszterszámot, ahol törés mutatkozik a görbében

Könyökpont keresése

Százalékos megoszlás Ha az abszolút értékek alapján végezzük el a klaszterelemzést (még ha sztenderdizálva vannak is a változók) olyan klaszterek keletkeznek, hogy vannak nagy költségvetésű intézmények és vannak kicsik Százalékos megoszlás esetén nem alkalmazok sztenderdizálást

Százalékos megoszlás

Százalékos megoszlás -szűrés után-

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés