MI 2003/12 - 1 Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Nem hierarchikus klaszterelemzés az SPSS-ben
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Műveletek logaritmussal
Geodézia I. Geodéziai számítások Pontkapcsolások Gyenes Róbert.
Illés Tibor – Hálózati folyamok
1 terv (régi szint a szürke): x 4 =  x 1 x 2 x 5 =  x 1 x 3 x 6 =  x 2 x 3 x 7 =x 1 x 2 x 3 1. példa: Ina Tile.
INFOÉRA Kombinatorikai algoritmusok (Horváth Gyula és Szlávi Péter előadásai felhasználásával) Juhász István-Zsakó László: Informatikai.
Csoport részcsoport invariáns faktorcsoport részcsoport
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Távolság alapú eljárások Hierarchikus eljárások
Gépi tanulási módszerek
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Papp Róbert, Blaskovics Viktor, Hantos Norbert
OPERÁCIÓKUTATÁS Kalmár János, 2012 Tartalom A nulla-egy LP megoldása Hátizsák feladat.
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
Szűrés és konvolúció Vámossy Zoltán 2004
ADATBÁZISOK
1.3 Relációk Def. (rendezett pár) (a1 , a2 ) := {{a1} , {a1 , a2 }} .
MATEMATIKA ÉS INFORMATIKA I.
Hierarchikus klaszteranalízis
K-közepű és kétlépéses klaszteranalízis (3. fejezet)
Kvantitatív módszerek
Az Alakfelismerés és gépi tanulás ELEMEI
Gráfok Készítette: Dr. Ábrahám István.
Access XP Kifejezés-szerkesztő Összehasonlító operátorok:
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Fuzzy rendszerek dr. Szilágyi László.
Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.
TÖMBÖK Asszociatív adatszerkezetek Tömbök
Szükségünk lesz valamilyen spreadsheet / táblázat kezelő programra
Sapientia-Csíkszereda ILLYES LÁSZLÓ Grundfoci-csapatválasztás. A Pál utcai fiúk és két célfüggvény.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
Alapsokaság (populáció)
Programozási alapismeretek 11. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 11.2/ Tartalom  Rendezési.
Határozatlan integrál
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
Business Mathematics A legrövidebb út.
Integrátorok alkalmazása a számítógépes szimulációban
Valószínűségszámítás II.
Nagy Szilvia 7. Lineáris blokk-kódok
F IGYELMI ALGORITMUSOKKAL VEZÉRELT HELYSZÍNANALÍZIS Persa György.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
előadások, konzultációk
 A matematikai statisztika a természet és társadalom tömeges jelenségeit tanulmányozza.  Azokat a jelenségeket, amelyek egyszerre nagyszámú azonos tipusú.
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Készítette: Mátyás István agrár mérnöktanár szakos hallgató,
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
Gépi tanulási módszerek
Mediánok és rendezett minták
A évi kompetenciamérés FIT-jelentéseinek új elemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering). Fő lépései:

MI 2003/ tulajdonság kiválasztása, hasonlóság (különbözőség) mérése a tulajdonságvektorok között, csoportosítási kritérium, csoportosítási algoritmus, az eredmények ellenőrzése, az eredmények interpretálása.

MI 2003/ Alkalmazási lehetőségek: - adatredukció, - hipotézisek felállítása, - hipotézisek ellenőrzése, - csoportokon alapuló előrejelzések. Adatok: nominális (rendezés?), intervallum- skála, arány-skála, numerikus.

MI 2003/ Klaszterezés: adott az X = (x 1, x 2, …, x N ) minta. Ennek m-(“kemény”)klaszterezésén egy olyan, m részhalmazra (C 1, C 2, …, C m ) való felbontását nevezzük, amelyre - C i  , i = 1, …, m, -  i=1 m C i = X, - C i  C i = , i  j, i, j = 1, …, m.

MI 2003/ A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X  [0, 1], j = 1, 2, …, m ahol:  j=1 m u j (x i ) =1, i=1, 2, …, N, és 0 <  j=1 N u j (x i ) < N, j=1, 2, …, m.

MI 2003/ Kétfajta mérték: - Különbözőségi: d: X  X  , úgy, hogy  d 0   : -  < d 0  d(x, y) < ,  x, y  X, d(x, x) = d 0,  x  X, d(x, y) = d(y, x),  x, y  X. Ha még d(x, y) = d 0 csakkor, ha x=y, és d(x, z)  d(x, y) + d(y, z)  x, y, z  X, akkor metrikus különbözőségi mérték.

MI 2003/ Hasonlóan: - Hasonlósági: s: X  X  , úgy, hogy  s 0   : -  < s 0  s(x, y) < ,  x, y  X, s(x, x) = s 0,  x  X, s(x, y) = s(y, x),  x, y  X. Ha még s(x, y) = s 0 csakkor, ha x=y, és s(x, z)s(y, z)  (s(x, y) + s(y, z))s(x, z)  x, y, z  X, akkor metrikus hasonlósági mérték.

MI 2003/ Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.

MI 2003/ Leggyakoribb mértékek (l dimenziós pontok között) Különbözőségi: súlyozott l p : súlyozott l 2 általánosítása:

MI 2003/ Speciális (súlyozott Manhattan): (Súlyozott) l  :

MI 2003/ Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y =  i=1 l x i y i Tanimoto:

MI 2003/ Diszkrét értékű vektorok. Lehetséges értékek száma: k. Kontingencia tábla (A(x,x)), példa. Különbözőségi Hamming távolság: l 1 távolság, mint korábban

MI 2003/ Hasonlósági Tanimoto: Diszkrétre példa

MI 2003/ Fuzzy eset. Itt a tulajdonságvektorok komponensei [0,1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték: s(x i, y i ) = max(min(1 - x i, 1 - y i ), min(x i - y i )) Vektorra: Példa.

MI 2003/ Pontok és halmazok hasonlósága. Adott az x pont és a C halmaz. Szokásos módszerek: - max hasonlóság:  max (x, C) = max y  C  (x, y) - min hasonlóság:  min (x, C) = min y  C  (x, y) - átlagos hasonlóság:  avg (x, C) =  y  C  (x, y)/n C

MI 2003/ Reprezentatív pontok választása - Átlag: m P =  y  C y/n C - Középpont: m C  C, amelyre  y  C d(m C, y)   y  C d(z, y),  z  C - Median: m med  C, amelynél a távolságok nagyság szerinti  (n C +1)/2  -dik eleme a többitől minimális.

MI 2003/ Ponthalmazok közötti hasonlóság mértékek: - max hasonlóság:  max (D i, D j ) = max x  Di, y  Dj  (x, y) - min hasonlóság, átlagos hasonlóság is az előzőekhez hasonlóan, - középpont-hasonlóság:  mean (D i, D j ) =  (m Di, m Dj ).

MI 2003/ Klaszterezési eljárások. N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m). Erre: S(N,1) = 1, S(N, N) = 1, S(N, m) = mS(N-1, m) + S(N-1, m-1), vagyis a másodrendű Stirling számok.

MI 2003/  nem sorolható fel az összes lehetőség. Soros eljárások: minden mintát csak kevésszer (egyszer) adunk az algoritmusnak Hierarchikus eljárások - agglomeratív eljárások: általában korábbi klaszterek összevonásával adnak újakat - felosztó eljárások: egy klaszter kettébontásával adnak eredményt

MI 2003/ Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és a klaszterek maximális száma. Közös alapgondolat: egy új mintaelem érkezésekor meghatározzuk, melyik eddigi klaszterhez van legközelebb; ha ez a távolság túl nagy, és még nincs elég klaszter, újat kezdünk vele, különben a legközelebbi mellé tesszük.

MI 2003/ Nagyon sok konkrét módszer tartozik ide, attól függően, hogyan választjuk a különbözőséget, hogyan reprezentáljuk az osztályokat, milyen osztály-pont távolságot veszünk … Példa, problémák, javítási lehetőségek (küszöb-, osztály-szám módosítása)

MI 2003/ Minden pontot már az első menetben besorolunk valahova. Javítás: az első menetben csak m osztályt csinálunk, a “távoli” elemek felhasználásával, és egy második menet is jön, ahol a maradékokat besoroljuk a legközelebbi osztályba. Még mindig baj: az eredmény függ a sorrendtől! Sok további javítás ismert.

MI 2003/ Hierarchikus eljárások. Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából keletkeztek újabbak - példa). A hierarchikus eljárások az egymásba ágyazáson alapulnak, és lépésenként két klasztert összevonnak (agglomeratív) vagy egyet kettéosztanak (felosztó).

MI 2003/ Agglomeratív eljárás általános lépése: a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt, amelyik legközelebb van (legjobban hasonlít). Ezt ismételjük addig, amíg a kívánt osztályszámot el nem érjük, vagy valami egyéb kritériumot ki nem elégítünk.

MI 2003/ Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható. Itt is nagyon sokféle eljárás lehet, a különböző választási lehetőségek alkalmazásával. Példa

MI 2003/ Felosztó eljárások. Általános alapelv: az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben a legjobban kettéosztani - végül azt osztjuk, amelyiknél a legjobb szétosztás a legjobb (kezdetben az összes pont egyetlen klaszterben van).