Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.

Hasonló előadás


Az előadások a következő témára: "Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül."— Előadás másolata:

1 Többváltozós adatelemzés 5. előadás

2 Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül képződnek klaszterek Agglomeratív és felosztó eljárások Adatok és/vagy változók klaszterezése

3 Hierarchikus klaszterezés -2- Algoritmus leírása (agglomeratív eljárások): Kezdetben minden pont önálló klaszter Minden lépésben a két legközelebbi klaszter összevonása történik N-1 lépésben összevonásra kerül az összes pont (változó) Az összevonásokat ún. dendrogramon ábrázoljuk

4 Hierarchikus klaszterezés -3- Két lényeges kérdés: Mit értünk két pont távolságán (hasonlóságán) Mit értünk két klaszter távolságán (un. agglomerációs elvek)

5 Távolság (hasonlósági) mértékek Távolság definíciója: d(x,y) kétváltozós függvény távolság, ha –nemnegatív: d(x,y)>=0 –d(x,y)=0, akkor és csak akkor, ha x=y –szimmetrikus d(x,y)=d(y,x) –háromszög egyenlőtlenség d(x,z)>=d(x,y)+d(y,z)

6 Távolság (hasonlósági) mértékek Nevezetes távolságok: –Euklídeszi: d(x,y)= sqrt[(x 1 -y 1 ) 2 +(x 2 -y 2 ) 2 +…+(x n -y n ) 2 ] –Négyzetes euklídeszi (nem távolság!): (x 1 -y 1 ) 2 +(x 2 -y 2 ) 2 +…+(x n -y n ) 2 –City block (Manhattan): |x 1 -y 1 |+|x 2 -y 2 |+…+|x n -y n | –Csebisev: max(|x 1 -y 1 |,|x 2 -y 2 |,…,|x n -y n |)

7 Agglomerációs elvek Mit értünk két klaszter távolságán

8 Agglomerációs elvek Legközelebbi szomszéd (egyszerű lánc) Legtávolabbi szomszéd (teljes lánc) Átlagos lánc (csoportok között, csoporton belül) Centroid Medián Ward

9 Legközelebbi szomszéd

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29 Legtávolabbi szomszéd

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50 Ward elv

51 Hány klaszter keletkezik A dendrogramot az 5 és 10 távolságszint között szoktuk elvágni Akkor jó, ha összevonódások az 5 távolságszint alatt, vagy a 10 felett vannak Az eljárás meglehetősen heurisztikus

52 Melyiket válasszuk ‘Ahogy tetszik gondolni’ Tértégító, térszűkítő, térkonzerváló hatás ‘Szokásjog’ Feladat egyedi jellege (pl. monoton transzformációra legyen érzéketlen)

53 Esetek szűrése Ha túl sok eset van nem mutat semmit a dendrogram, ilyenkor célszerű szűkíteni a megfigyelések körét Sztendredizálás szűrés előtt, vagy szűrés után?

54 Hierarchikus klaszterezés Egyházi intézmények

55 Fenntartóra aggregálva kiadások szerkezete

56 Fenntartóra aggregálva kiadások megoszlása

57 Megyére aggregálva kiadások szerkezete

58 Megyére aggregálva kiadások megoszlása


Letölteni ppt "Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül."

Hasonló előadás


Google Hirdetések