Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

MI 2003/12 - 1 Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).

Hasonló előadás


Az előadások a következő témára: "MI 2003/12 - 1 Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering)."— Előadás másolata:

1 MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering). Fő lépései:

2 MI 2003/ tulajdonság kiválasztása, hasonlóság (különbözőség) mérése a tulajdonságvektorok között, csoportosítási kritérium, csoportosítási algoritmus, az eredmények ellenőrzése, az eredmények interpretálása.

3 MI 2003/ Alkalmazási lehetőségek: - adatredukció, - hipotézisek felállítása, - hipotézisek ellenőrzése, - csoportokon alapuló előrejelzések. Adatok: nominális (rendezés?), intervallum- skála, arány-skála, numerikus.

4 MI 2003/ Klaszterezés: adott az X = (x 1, x 2, …, x N ) minta. Ennek m-(“kemény”)klaszterezésén egy olyan, m részhalmazra (C 1, C 2, …, C m ) való felbontását nevezzük, amelyre - C i  , i = 1, …, m, -  i=1 m C i = X, - C i  C i = , i  j, i, j = 1, …, m.

5 MI 2003/ A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X  [0, 1], j = 1, 2, …, m ahol:  j=1 m u j (x i ) =1, i=1, 2, …, N, és 0 <  j=1 N u j (x i ) < N, j=1, 2, …, m.

6 MI 2003/ Kétfajta mérték: - Különbözőségi: d: X  X  , úgy, hogy  d 0   : -  < d 0  d(x, y) < ,  x, y  X, d(x, x) = d 0,  x  X, d(x, y) = d(y, x),  x, y  X. Ha még d(x, y) = d 0 csakkor, ha x=y, és d(x, z)  d(x, y) + d(y, z)  x, y, z  X, akkor metrikus különbözőségi mérték.

7 MI 2003/ Hasonlóan: - Hasonlósági: s: X  X  , úgy, hogy  s 0   : -  < s 0  s(x, y) < ,  x, y  X, s(x, x) = s 0,  x  X, s(x, y) = s(y, x),  x, y  X. Ha még s(x, y) = s 0 csakkor, ha x=y, és s(x, z)s(y, z)  (s(x, y) + s(y, z))s(x, z)  x, y, z  X, akkor metrikus hasonlósági mérték.

8 MI 2003/ Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.

9 MI 2003/ Leggyakoribb mértékek (l dimenziós pontok között) Különbözőségi: súlyozott l p : súlyozott l 2 általánosítása:

10 MI 2003/ Speciális (súlyozott Manhattan): (Súlyozott) l  :

11 MI 2003/ Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y =  i=1 l x i y i Tanimoto:

12 MI 2003/ Diszkrét értékű vektorok. Lehetséges értékek száma: k. Kontingencia tábla (A(x,x)), példa. Különbözőségi Hamming távolság: l 1 távolság, mint korábban

13 MI 2003/ Hasonlósági Tanimoto: Diszkrétre példa

14 MI 2003/ Fuzzy eset. Itt a tulajdonságvektorok komponensei [0,1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték: s(x i, y i ) = max(min(1 - x i, 1 - y i ), min(x i - y i )) Vektorra: Példa.

15 MI 2003/ Pontok és halmazok hasonlósága. Adott az x pont és a C halmaz. Szokásos módszerek: - max hasonlóság:  max (x, C) = max y  C  (x, y) - min hasonlóság:  min (x, C) = min y  C  (x, y) - átlagos hasonlóság:  avg (x, C) =  y  C  (x, y)/n C

16 MI 2003/ Reprezentatív pontok választása - Átlag: m P =  y  C y/n C - Középpont: m C  C, amelyre  y  C d(m C, y)   y  C d(z, y),  z  C - Median: m med  C, amelynél a távolságok nagyság szerinti  (n C +1)/2  -dik eleme a többitől minimális.

17 MI 2003/ Ponthalmazok közötti hasonlóság mértékek: - max hasonlóság:  max (D i, D j ) = max x  Di, y  Dj  (x, y) - min hasonlóság, átlagos hasonlóság is az előzőekhez hasonlóan, - középpont-hasonlóság:  mean (D i, D j ) =  (m Di, m Dj ).

18 MI 2003/ Klaszterezési eljárások. N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m). Erre: S(N,1) = 1, S(N, N) = 1, S(N, m) = mS(N-1, m) + S(N-1, m-1), vagyis a másodrendű Stirling számok.

19 MI 2003/  nem sorolható fel az összes lehetőség. Soros eljárások: minden mintát csak kevésszer (egyszer) adunk az algoritmusnak Hierarchikus eljárások - agglomeratív eljárások: általában korábbi klaszterek összevonásával adnak újakat - felosztó eljárások: egy klaszter kettébontásával adnak eredményt

20 MI 2003/ Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és a klaszterek maximális száma. Közös alapgondolat: egy új mintaelem érkezésekor meghatározzuk, melyik eddigi klaszterhez van legközelebb; ha ez a távolság túl nagy, és még nincs elég klaszter, újat kezdünk vele, különben a legközelebbi mellé tesszük.

21 MI 2003/ Nagyon sok konkrét módszer tartozik ide, attól függően, hogyan választjuk a különbözőséget, hogyan reprezentáljuk az osztályokat, milyen osztály-pont távolságot veszünk … Példa, problémák, javítási lehetőségek (küszöb-, osztály-szám módosítása)

22 MI 2003/ Minden pontot már az első menetben besorolunk valahova. Javítás: az első menetben csak m osztályt csinálunk, a “távoli” elemek felhasználásával, és egy második menet is jön, ahol a maradékokat besoroljuk a legközelebbi osztályba. Még mindig baj: az eredmény függ a sorrendtől! Sok további javítás ismert.

23 MI 2003/ Hierarchikus eljárások. Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából keletkeztek újabbak - példa). A hierarchikus eljárások az egymásba ágyazáson alapulnak, és lépésenként két klasztert összevonnak (agglomeratív) vagy egyet kettéosztanak (felosztó).

24 MI 2003/ Agglomeratív eljárás általános lépése: a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt, amelyik legközelebb van (legjobban hasonlít). Ezt ismételjük addig, amíg a kívánt osztályszámot el nem érjük, vagy valami egyéb kritériumot ki nem elégítünk.

25 MI 2003/ Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható. Itt is nagyon sokféle eljárás lehet, a különböző választási lehetőségek alkalmazásával. Példa

26 MI 2003/ Felosztó eljárások. Általános alapelv: az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben a legjobban kettéosztani - végül azt osztjuk, amelyiknél a legjobb szétosztás a legjobb (kezdetben az összes pont egyetlen klaszterben van).


Letölteni ppt "MI 2003/12 - 1 Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering)."

Hasonló előadás


Google Hirdetések