MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering). Fő lépései:
MI 2003/ tulajdonság kiválasztása, hasonlóság (különbözőség) mérése a tulajdonságvektorok között, csoportosítási kritérium, csoportosítási algoritmus, az eredmények ellenőrzése, az eredmények interpretálása.
MI 2003/ Alkalmazási lehetőségek: - adatredukció, - hipotézisek felállítása, - hipotézisek ellenőrzése, - csoportokon alapuló előrejelzések. Adatok: nominális (rendezés?), intervallum- skála, arány-skála, numerikus.
MI 2003/ Klaszterezés: adott az X = (x 1, x 2, …, x N ) minta. Ennek m-(“kemény”)klaszterezésén egy olyan, m részhalmazra (C 1, C 2, …, C m ) való felbontását nevezzük, amelyre - C i , i = 1, …, m, - i=1 m C i = X, - C i C i = , i j, i, j = 1, …, m.
MI 2003/ A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X [0, 1], j = 1, 2, …, m ahol: j=1 m u j (x i ) =1, i=1, 2, …, N, és 0 < j=1 N u j (x i ) < N, j=1, 2, …, m.
MI 2003/ Kétfajta mérték: - Különbözőségi: d: X X , úgy, hogy d 0 : - < d 0 d(x, y) < , x, y X, d(x, x) = d 0, x X, d(x, y) = d(y, x), x, y X. Ha még d(x, y) = d 0 csakkor, ha x=y, és d(x, z) d(x, y) + d(y, z) x, y, z X, akkor metrikus különbözőségi mérték.
MI 2003/ Hasonlóan: - Hasonlósági: s: X X , úgy, hogy s 0 : - < s 0 s(x, y) < , x, y X, s(x, x) = s 0, x X, s(x, y) = s(y, x), x, y X. Ha még s(x, y) = s 0 csakkor, ha x=y, és s(x, z)s(y, z) (s(x, y) + s(y, z))s(x, z) x, y, z X, akkor metrikus hasonlósági mérték.
MI 2003/ Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.
MI 2003/ Leggyakoribb mértékek (l dimenziós pontok között) Különbözőségi: súlyozott l p : súlyozott l 2 általánosítása:
MI 2003/ Speciális (súlyozott Manhattan): (Súlyozott) l :
MI 2003/ Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y = i=1 l x i y i Tanimoto:
MI 2003/ Diszkrét értékű vektorok. Lehetséges értékek száma: k. Kontingencia tábla (A(x,x)), példa. Különbözőségi Hamming távolság: l 1 távolság, mint korábban
MI 2003/ Hasonlósági Tanimoto: Diszkrétre példa
MI 2003/ Fuzzy eset. Itt a tulajdonságvektorok komponensei [0,1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték: s(x i, y i ) = max(min(1 - x i, 1 - y i ), min(x i - y i )) Vektorra: Példa.
MI 2003/ Pontok és halmazok hasonlósága. Adott az x pont és a C halmaz. Szokásos módszerek: - max hasonlóság: max (x, C) = max y C (x, y) - min hasonlóság: min (x, C) = min y C (x, y) - átlagos hasonlóság: avg (x, C) = y C (x, y)/n C
MI 2003/ Reprezentatív pontok választása - Átlag: m P = y C y/n C - Középpont: m C C, amelyre y C d(m C, y) y C d(z, y), z C - Median: m med C, amelynél a távolságok nagyság szerinti (n C +1)/2 -dik eleme a többitől minimális.
MI 2003/ Ponthalmazok közötti hasonlóság mértékek: - max hasonlóság: max (D i, D j ) = max x Di, y Dj (x, y) - min hasonlóság, átlagos hasonlóság is az előzőekhez hasonlóan, - középpont-hasonlóság: mean (D i, D j ) = (m Di, m Dj ).
MI 2003/ Klaszterezési eljárások. N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m). Erre: S(N,1) = 1, S(N, N) = 1, S(N, m) = mS(N-1, m) + S(N-1, m-1), vagyis a másodrendű Stirling számok.
MI 2003/ nem sorolható fel az összes lehetőség. Soros eljárások: minden mintát csak kevésszer (egyszer) adunk az algoritmusnak Hierarchikus eljárások - agglomeratív eljárások: általában korábbi klaszterek összevonásával adnak újakat - felosztó eljárások: egy klaszter kettébontásával adnak eredményt
MI 2003/ Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és a klaszterek maximális száma. Közös alapgondolat: egy új mintaelem érkezésekor meghatározzuk, melyik eddigi klaszterhez van legközelebb; ha ez a távolság túl nagy, és még nincs elég klaszter, újat kezdünk vele, különben a legközelebbi mellé tesszük.
MI 2003/ Nagyon sok konkrét módszer tartozik ide, attól függően, hogyan választjuk a különbözőséget, hogyan reprezentáljuk az osztályokat, milyen osztály-pont távolságot veszünk … Példa, problémák, javítási lehetőségek (küszöb-, osztály-szám módosítása)
MI 2003/ Minden pontot már az első menetben besorolunk valahova. Javítás: az első menetben csak m osztályt csinálunk, a “távoli” elemek felhasználásával, és egy második menet is jön, ahol a maradékokat besoroljuk a legközelebbi osztályba. Még mindig baj: az eredmény függ a sorrendtől! Sok további javítás ismert.
MI 2003/ Hierarchikus eljárások. Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából keletkeztek újabbak - példa). A hierarchikus eljárások az egymásba ágyazáson alapulnak, és lépésenként két klasztert összevonnak (agglomeratív) vagy egyet kettéosztanak (felosztó).
MI 2003/ Agglomeratív eljárás általános lépése: a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt, amelyik legközelebb van (legjobban hasonlít). Ezt ismételjük addig, amíg a kívánt osztályszámot el nem érjük, vagy valami egyéb kritériumot ki nem elégítünk.
MI 2003/ Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható. Itt is nagyon sokféle eljárás lehet, a különböző választási lehetőségek alkalmazásával. Példa
MI 2003/ Felosztó eljárások. Általános alapelv: az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben a legjobban kettéosztani - végül azt osztjuk, amelyiknél a legjobb szétosztás a legjobb (kezdetben az összes pont egyetlen klaszterben van).