Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Többváltozós adatelemzés
4. előadás
2
Klaszterelemzés Nem irányított szegmentálás Nincs ‘eredményváltozó’
A változók egyenrangúak Osztályozó nélküli osztályozás Nem irányított tanulás
3
Mi a cél? Nem jól definiált (saját meglátás)
„Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure.” Heterogén sokaság homogén részsokaságokra történő felbontása (saját definíció)
4
Előnyök Nem szükséges az eloszlást ismerni
Gyakorlatilag bármilyen adatállományon lehet klaszterelemzést végezni
5
Hátrányok Erős szubjektivitás
Nincsenek támpontok az ‘illeszkedés’ jóságának méréséhez Sok választási lehetőség, orientáció nélkül Tapasztalat
6
Elvárások a klaszterezéssel szemben
Folytonosság: kis változásokra az adatokban kis változások történjenek a klaszterekben) Nincs jól definiálva, hogy mit jelent a kis változás
7
Elvárások a klaszterezéssel szemben -2-
Stabilitás: egy-egy adat jelentősége csekély (egy új pont elvétele vagy hozzáadása elenyésző hatású) Időbeli (keresztmetszeti) stabilitás: különböző időpontokban (helyeken) elvégzett klaszterezés azonos eredményt adjon
8
Elvárások a klaszterezéssel szemben -3-
Invariancia: a klaszterelemzés invariáns legyen a változók monoton transzformációjára Skálafüggetlenség (pl.: sztenderdizálás) Adatok sorrendjétől való függetlenség
9
Elvárások a klaszterezéssel szemben -4-
Validitás: Külső validitás: ismert csoportokba tartozó egyedekből veszünk mintát Belső validitás: eredeti és származtatott távolságok Megismételhetőség Különböző eljárások összevetése
10
Elvárások a klaszterezéssel szemben -5-
Robosztusság: kilógó pontok hatásának csökkentése
11
Klaszterelmzés két fő iránya
Nemhierarchikus klaszterelmzés K-középpontú algoritmus (K-means cluster) Partícionáló klaszterelemzés Hierarchikus klaszterelmzés Természetesen ezen két fő irányon kívül léteznek még más eljárások is. Egyik legismertebb az ún. Kohonen-map ami neurális hálón alapszik
12
K középpontú algoritmus
Algoritmus leírása Klaszterközepek kijelölése Adatpontok hozzárendelése a középpontokohoz Klaszterközepek újraszámolás Ha a klaszterközepek változtak, akkor újabb iteráció
22
Kezdőpontok hatása A kleszterelmzést megismételjük úgy, hogy induláskor másik kezdőpontot választunk
25
Kezdőpontok választása
Az előbbi példán is láttuk, milyen nagy a kezdőpontok választásának jelentősége Az SPSS programcsomag egy viszonylag bonyolult algoritmussal választ kezdőpontot, amivel eléri, hogy az esetek nagy részében nem függ az adatok sorrendjétől a választás, de bizonyos esetekben más eredményt kapunk az adatok sorrendjétől függően
26
K középpontú algoritmus
Az algoritmus meglehetősen gyors Lokális optimum problémája Az eljárás függhet a kezdőpontok megválasztásától Kis elemszámú klaszterek Klaszterek számára nincs iránymutatás (hüvelykujj szabály: könyökpont keresése) Változók jelentősége (ANOVA tábla)
27
Változók mértékegysége
A nagyobb szórású változók nagyobb hatással vannak a klaszterezésre Ha a változók mértékegysége különbözik, akkor a változókat sztenderdizáljuk A sztenderdizálás hatására az eredmény érzéketlen a lineáris transzformációra
32
K középpontú klaszterelemzés
33
Extrém értékek nélkül
34
ANOVA
35
Hány klaszter legyen?
36
Könyökpont keresése Egy heurisztikus megközelítés:
Tekintsük a klasztereket csoportképző változónak. Számoljuk minden klaszterszám esetén a külső szórásnégyzet és a teljes szórásnégyzet arányát. Válasszuk azt a klaszterszámot, ahol törés mutatkozik a görbében
37
Könyökpont keresése
38
Százalékos megoszlás Ha az abszolút értékek alapján végezzük el a klaszterelemzést (még ha sztenderdizálva vannak is a változók) olyan klaszterek keletkeznek, hogy vannak nagy költségvetésű intézmények és vannak kicsik Százalékos megoszlás esetén nem alkalmazok sztenderdizálást
39
Százalékos megoszlás
40
Százalékos megoszlás -szűrés után-
41
Százalékos megoszlás -szűrés után-
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.