Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Többváltozós adatelemzés

Hasonló előadás


Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

1 Többváltozós adatelemzés
4. előadás

2 Klaszterelemzés Nem irányított szegmentálás Nincs ‘eredményváltozó’
A változók egyenrangúak Osztályozó nélküli osztályozás Nem irányított tanulás

3 Mi a cél? Nem jól definiált (saját meglátás)
„Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure.” Heterogén sokaság homogén részsokaságokra történő felbontása (saját definíció)

4 Előnyök Nem szükséges az eloszlást ismerni
Gyakorlatilag bármilyen adatállományon lehet klaszterelemzést végezni

5 Hátrányok Erős szubjektivitás
Nincsenek támpontok az ‘illeszkedés’ jóságának méréséhez Sok választási lehetőség, orientáció nélkül Tapasztalat

6 Elvárások a klaszterezéssel szemben
Folytonosság: kis változásokra az adatokban kis változások történjenek a klaszterekben) Nincs jól definiálva, hogy mit jelent a kis változás

7 Elvárások a klaszterezéssel szemben -2-
Stabilitás: egy-egy adat jelentősége csekély (egy új pont elvétele vagy hozzáadása elenyésző hatású) Időbeli (keresztmetszeti) stabilitás: különböző időpontokban (helyeken) elvégzett klaszterezés azonos eredményt adjon

8 Elvárások a klaszterezéssel szemben -3-
Invariancia: a klaszterelemzés invariáns legyen a változók monoton transzformációjára Skálafüggetlenség (pl.: sztenderdizálás) Adatok sorrendjétől való függetlenség

9 Elvárások a klaszterezéssel szemben -4-
Validitás: Külső validitás: ismert csoportokba tartozó egyedekből veszünk mintát Belső validitás: eredeti és származtatott távolságok Megismételhetőség Különböző eljárások összevetése

10 Elvárások a klaszterezéssel szemben -5-
Robosztusság: kilógó pontok hatásának csökkentése

11 Klaszterelmzés két fő iránya
Nemhierarchikus klaszterelmzés K-középpontú algoritmus (K-means cluster) Partícionáló klaszterelemzés Hierarchikus klaszterelmzés Természetesen ezen két fő irányon kívül léteznek még más eljárások is. Egyik legismertebb az ún. Kohonen-map ami neurális hálón alapszik

12 K középpontú algoritmus
Algoritmus leírása Klaszterközepek kijelölése Adatpontok hozzárendelése a középpontokohoz Klaszterközepek újraszámolás Ha a klaszterközepek változtak, akkor újabb iteráció

13

14

15

16

17

18

19

20

21

22 Kezdőpontok hatása A kleszterelmzést megismételjük úgy, hogy induláskor másik kezdőpontot választunk

23

24

25 Kezdőpontok választása
Az előbbi példán is láttuk, milyen nagy a kezdőpontok választásának jelentősége Az SPSS programcsomag egy viszonylag bonyolult algoritmussal választ kezdőpontot, amivel eléri, hogy az esetek nagy részében nem függ az adatok sorrendjétől a választás, de bizonyos esetekben más eredményt kapunk az adatok sorrendjétől függően

26 K középpontú algoritmus
Az algoritmus meglehetősen gyors Lokális optimum problémája Az eljárás függhet a kezdőpontok megválasztásától Kis elemszámú klaszterek Klaszterek számára nincs iránymutatás (hüvelykujj szabály: könyökpont keresése) Változók jelentősége (ANOVA tábla)

27 Változók mértékegysége
A nagyobb szórású változók nagyobb hatással vannak a klaszterezésre Ha a változók mértékegysége különbözik, akkor a változókat sztenderdizáljuk A sztenderdizálás hatására az eredmény érzéketlen a lineáris transzformációra

28

29

30

31

32 K középpontú klaszterelemzés

33 Extrém értékek nélkül

34 ANOVA

35 Hány klaszter legyen?

36 Könyökpont keresése Egy heurisztikus megközelítés:
Tekintsük a klasztereket csoportképző változónak. Számoljuk minden klaszterszám esetén a külső szórásnégyzet és a teljes szórásnégyzet arányát. Válasszuk azt a klaszterszámot, ahol törés mutatkozik a görbében

37 Könyökpont keresése

38 Százalékos megoszlás Ha az abszolút értékek alapján végezzük el a klaszterelemzést (még ha sztenderdizálva vannak is a változók) olyan klaszterek keletkeznek, hogy vannak nagy költségvetésű intézmények és vannak kicsik Százalékos megoszlás esetén nem alkalmazok sztenderdizálást

39 Százalékos megoszlás

40 Százalékos megoszlás -szűrés után-

41 Százalékos megoszlás -szűrés után-


Letölteni ppt "Többváltozós adatelemzés"

Hasonló előadás


Google Hirdetések