Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaIgnác Kovács Megváltozta több, mint 10 éve
1
MI 2003/12 - 1 Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering). Fő lépései:
2
MI 2003/12 - 2 tulajdonság kiválasztása, hasonlóság (különbözőség) mérése a tulajdonságvektorok között, csoportosítási kritérium, csoportosítási algoritmus, az eredmények ellenőrzése, az eredmények interpretálása.
3
MI 2003/12 - 3 Alkalmazási lehetőségek: - adatredukció, - hipotézisek felállítása, - hipotézisek ellenőrzése, - csoportokon alapuló előrejelzések. Adatok: nominális (rendezés?), intervallum- skála, arány-skála, numerikus.
4
MI 2003/12 - 4 Klaszterezés: adott az X = (x 1, x 2, …, x N ) minta. Ennek m-(“kemény”)klaszterezésén egy olyan, m részhalmazra (C 1, C 2, …, C m ) való felbontását nevezzük, amelyre - C i , i = 1, …, m, - i=1 m C i = X, - C i C i = , i j, i, j = 1, …, m.
5
MI 2003/12 - 5 A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X [0, 1], j = 1, 2, …, m ahol: j=1 m u j (x i ) =1, i=1, 2, …, N, és 0 < j=1 N u j (x i ) < N, j=1, 2, …, m.
6
MI 2003/12 - 6 Kétfajta mérték: - Különbözőségi: d: X X , úgy, hogy d 0 : - < d 0 d(x, y) < , x, y X, d(x, x) = d 0, x X, d(x, y) = d(y, x), x, y X. Ha még d(x, y) = d 0 csakkor, ha x=y, és d(x, z) d(x, y) + d(y, z) x, y, z X, akkor metrikus különbözőségi mérték.
7
MI 2003/12 - 7 Hasonlóan: - Hasonlósági: s: X X , úgy, hogy s 0 : - < s 0 s(x, y) < , x, y X, s(x, x) = s 0, x X, s(x, y) = s(y, x), x, y X. Ha még s(x, y) = s 0 csakkor, ha x=y, és s(x, z)s(y, z) (s(x, y) + s(y, z))s(x, z) x, y, z X, akkor metrikus hasonlósági mérték.
8
MI 2003/12 - 8 Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.
9
MI 2003/12 - 9 Leggyakoribb mértékek (l dimenziós pontok között) Különbözőségi: súlyozott l p : súlyozott l 2 általánosítása:
10
MI 2003/12 - 10 Speciális (súlyozott Manhattan): (Súlyozott) l :
11
MI 2003/12 - 11 Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y = i=1 l x i y i Tanimoto:
12
MI 2003/12 - 12 Diszkrét értékű vektorok. Lehetséges értékek száma: k. Kontingencia tábla (A(x,x)), példa. Különbözőségi Hamming távolság: l 1 távolság, mint korábban
13
MI 2003/12 - 13 Hasonlósági Tanimoto: Diszkrétre példa
14
MI 2003/12 - 14 Fuzzy eset. Itt a tulajdonságvektorok komponensei [0,1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték: s(x i, y i ) = max(min(1 - x i, 1 - y i ), min(x i - y i )) Vektorra: Példa.
15
MI 2003/12 - 15 Pontok és halmazok hasonlósága. Adott az x pont és a C halmaz. Szokásos módszerek: - max hasonlóság: max (x, C) = max y C (x, y) - min hasonlóság: min (x, C) = min y C (x, y) - átlagos hasonlóság: avg (x, C) = y C (x, y)/n C
16
MI 2003/12 - 16 Reprezentatív pontok választása - Átlag: m P = y C y/n C - Középpont: m C C, amelyre y C d(m C, y) y C d(z, y), z C - Median: m med C, amelynél a távolságok nagyság szerinti (n C +1)/2 -dik eleme a többitől minimális.
17
MI 2003/12 - 17 Ponthalmazok közötti hasonlóság mértékek: - max hasonlóság: max (D i, D j ) = max x Di, y Dj (x, y) - min hasonlóság, átlagos hasonlóság is az előzőekhez hasonlóan, - középpont-hasonlóság: mean (D i, D j ) = (m Di, m Dj ).
18
MI 2003/12 - 18 Klaszterezési eljárások. N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m). Erre: S(N,1) = 1, S(N, N) = 1, S(N, m) = mS(N-1, m) + S(N-1, m-1), vagyis a másodrendű Stirling számok.
19
MI 2003/12 - 19 nem sorolható fel az összes lehetőség. Soros eljárások: minden mintát csak kevésszer (egyszer) adunk az algoritmusnak Hierarchikus eljárások - agglomeratív eljárások: általában korábbi klaszterek összevonásával adnak újakat - felosztó eljárások: egy klaszter kettébontásával adnak eredményt
20
MI 2003/12 - 20 Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és a klaszterek maximális száma. Közös alapgondolat: egy új mintaelem érkezésekor meghatározzuk, melyik eddigi klaszterhez van legközelebb; ha ez a távolság túl nagy, és még nincs elég klaszter, újat kezdünk vele, különben a legközelebbi mellé tesszük.
21
MI 2003/12 - 21 Nagyon sok konkrét módszer tartozik ide, attól függően, hogyan választjuk a különbözőséget, hogyan reprezentáljuk az osztályokat, milyen osztály-pont távolságot veszünk … Példa, problémák, javítási lehetőségek (küszöb-, osztály-szám módosítása)
22
MI 2003/12 - 22 Minden pontot már az első menetben besorolunk valahova. Javítás: az első menetben csak m osztályt csinálunk, a “távoli” elemek felhasználásával, és egy második menet is jön, ahol a maradékokat besoroljuk a legközelebbi osztályba. Még mindig baj: az eredmény függ a sorrendtől! Sok további javítás ismert.
23
MI 2003/12 - 23 Hierarchikus eljárások. Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából keletkeztek újabbak - példa). A hierarchikus eljárások az egymásba ágyazáson alapulnak, és lépésenként két klasztert összevonnak (agglomeratív) vagy egyet kettéosztanak (felosztó).
24
MI 2003/12 - 24 Agglomeratív eljárás általános lépése: a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt, amelyik legközelebb van (legjobban hasonlít). Ezt ismételjük addig, amíg a kívánt osztályszámot el nem érjük, vagy valami egyéb kritériumot ki nem elégítünk.
25
MI 2003/12 - 25 Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható. Itt is nagyon sokféle eljárás lehet, a különböző választási lehetőségek alkalmazásával. Példa
26
MI 2003/12 - 26 Felosztó eljárások. Általános alapelv: az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben a legjobban kettéosztani - végül azt osztjuk, amelyiknél a legjobb szétosztás a legjobb (kezdetben az összes pont egyetlen klaszterben van).
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.