MI 2003/12 - 1 Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).

Slides:

Advertisements

Hasonló előadás

Összetett kísérleti tervek és kiértékelésük:

Advertisements

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009

Nem hierarchikus klaszterelemzés az SPSS-ben

MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.

MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:

Műveletek logaritmussal

Geodézia I. Geodéziai számítások Pontkapcsolások Gyenes Róbert.

Illés Tibor – Hálózati folyamok

1 terv (régi szint a szürke): x 4 =  x 1 x 2 x 5 =  x 1 x 3 x 6 =  x 2 x 3 x 7 =x 1 x 2 x 3 1. példa: Ina Tile.

INFOÉRA Kombinatorikai algoritmusok (Horváth Gyula és Szlávi Péter előadásai felhasználásával) Juhász István-Zsakó László: Informatikai.

Csoport részcsoport invariáns faktorcsoport részcsoport

4. VÉGES HALMAZOK 4.1 Alaptulajdonságok

Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 

Távolság alapú eljárások Hierarchikus eljárások

Gépi tanulási módszerek

Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.

Papp Róbert, Blaskovics Viktor, Hantos Norbert

OPERÁCIÓKUTATÁS Kalmár János, 2012 Tartalom A nulla-egy LP megoldása Hátizsák feladat.

Előadó: Prof. Dr. Besenyei Lajos

Mintavételes eljárások

Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján

Szűrés és konvolúció Vámossy Zoltán 2004

1.3 Relációk Def. (rendezett pár) (a1 , a2 ) := {{a1} , {a1 , a2 }} .

MATEMATIKA ÉS INFORMATIKA I.

Hierarchikus klaszteranalízis

K-közepű és kétlépéses klaszteranalízis (3. fejezet)

Kvantitatív módszerek

Az Alakfelismerés és gépi tanulás ELEMEI

Gráfok Készítette: Dr. Ábrahám István.

Access XP Kifejezés-szerkesztő Összehasonlító operátorok:

Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.

Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo

Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK

Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.

Fuzzy rendszerek dr. Szilágyi László.

Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.

TÖMBÖK Asszociatív adatszerkezetek Tömbök

Szükségünk lesz valamilyen spreadsheet / táblázat kezelő programra

Sapientia-Csíkszereda ILLYES LÁSZLÓ Grundfoci-csapatválasztás. A Pál utcai fiúk és két célfüggvény.

Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.

Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.

Adatbányászati módszerek a térinformatikában

Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.

Többváltozós adatelemzés

Alapsokaság (populáció)

Programozási alapismeretek 11. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 11.2/ Tartalom  Rendezési.

Határozatlan integrál

MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.

Algoritmizálás, adatmodellezés tanítása 8. előadás.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.

Business Mathematics A legrövidebb út.

Integrátorok alkalmazása a számítógépes szimulációban

Valószínűségszámítás II.

Nagy Szilvia 7. Lineáris blokk-kódok

F IGYELMI ALGORITMUSOKKAL VEZÉRELT HELYSZÍNANALÍZIS Persa György.

Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.

előadások, konzultációk

 A matematikai statisztika a természet és társadalom tömeges jelenségeit tanulmányozza.  Azokat a jelenségeket, amelyek egyszerre nagyszámú azonos tipusú.

Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.

MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.

Készítette: Mátyás István agrár mérnöktanár szakos hallgató,

Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.

Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.

OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.

Gépi tanulási módszerek

Mediánok és rendezett minták

A évi kompetenciamérés FIT-jelentéseinek új elemei

Mérések adatfeldolgozási gyakorlata vegyész technikusok számára

Algoritmusok és Adatszerkezetek I.

Előadás másolata:

MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering). Fő lépései:

MI 2003/ tulajdonság kiválasztása, hasonlóság (különbözőség) mérése a tulajdonságvektorok között, csoportosítási kritérium, csoportosítási algoritmus, az eredmények ellenőrzése, az eredmények interpretálása.

MI 2003/ Alkalmazási lehetőségek: - adatredukció, - hipotézisek felállítása, - hipotézisek ellenőrzése, - csoportokon alapuló előrejelzések. Adatok: nominális (rendezés?), intervallum- skála, arány-skála, numerikus.

MI 2003/ Klaszterezés: adott az X = (x 1, x 2, …, x N ) minta. Ennek m-(“kemény”)klaszterezésén egy olyan, m részhalmazra (C 1, C 2, …, C m ) való felbontását nevezzük, amelyre - C i  , i = 1, …, m, -  i=1 m C i = X, - C i  C i = , i  j, i, j = 1, …, m.

MI 2003/ A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X  [0, 1], j = 1, 2, …, m ahol:  j=1 m u j (x i ) =1, i=1, 2, …, N, és 0 <  j=1 N u j (x i ) < N, j=1, 2, …, m.

MI 2003/ Kétfajta mérték: - Különbözőségi: d: X  X  , úgy, hogy  d 0   : -  < d 0  d(x, y) < ,  x, y  X, d(x, x) = d 0,  x  X, d(x, y) = d(y, x),  x, y  X. Ha még d(x, y) = d 0 csakkor, ha x=y, és d(x, z)  d(x, y) + d(y, z)  x, y, z  X, akkor metrikus különbözőségi mérték.

MI 2003/ Hasonlóan: - Hasonlósági: s: X  X  , úgy, hogy  s 0   : -  < s 0  s(x, y) < ,  x, y  X, s(x, x) = s 0,  x  X, s(x, y) = s(y, x),  x, y  X. Ha még s(x, y) = s 0 csakkor, ha x=y, és s(x, z)s(y, z)  (s(x, y) + s(y, z))s(x, z)  x, y, z  X, akkor metrikus hasonlósági mérték.

MI 2003/ Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.

MI 2003/ Leggyakoribb mértékek (l dimenziós pontok között) Különbözőségi: súlyozott l p : súlyozott l 2 általánosítása:

MI 2003/ Speciális (súlyozott Manhattan): (Súlyozott) l  :

MI 2003/ Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y =  i=1 l x i y i Tanimoto:

MI 2003/ Diszkrét értékű vektorok. Lehetséges értékek száma: k. Kontingencia tábla (A(x,x)), példa. Különbözőségi Hamming távolság: l 1 távolság, mint korábban

MI 2003/ Hasonlósági Tanimoto: Diszkrétre példa

MI 2003/ Fuzzy eset. Itt a tulajdonságvektorok komponensei [0,1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték: s(x i, y i ) = max(min(1 - x i, 1 - y i ), min(x i - y i )) Vektorra: Példa.

MI 2003/ Pontok és halmazok hasonlósága. Adott az x pont és a C halmaz. Szokásos módszerek: - max hasonlóság:  max (x, C) = max y  C  (x, y) - min hasonlóság:  min (x, C) = min y  C  (x, y) - átlagos hasonlóság:  avg (x, C) =  y  C  (x, y)/n C

MI 2003/ Reprezentatív pontok választása - Átlag: m P =  y  C y/n C - Középpont: m C  C, amelyre  y  C d(m C, y)   y  C d(z, y),  z  C - Median: m med  C, amelynél a távolságok nagyság szerinti  (n C +1)/2  -dik eleme a többitől minimális.

MI 2003/ Ponthalmazok közötti hasonlóság mértékek: - max hasonlóság:  max (D i, D j ) = max x  Di, y  Dj  (x, y) - min hasonlóság, átlagos hasonlóság is az előzőekhez hasonlóan, - középpont-hasonlóság:  mean (D i, D j ) =  (m Di, m Dj ).

MI 2003/ Klaszterezési eljárások. N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m). Erre: S(N,1) = 1, S(N, N) = 1, S(N, m) = mS(N-1, m) + S(N-1, m-1), vagyis a másodrendű Stirling számok.

MI 2003/  nem sorolható fel az összes lehetőség. Soros eljárások: minden mintát csak kevésszer (egyszer) adunk az algoritmusnak Hierarchikus eljárások - agglomeratív eljárások: általában korábbi klaszterek összevonásával adnak újakat - felosztó eljárások: egy klaszter kettébontásával adnak eredményt

MI 2003/ Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és a klaszterek maximális száma. Közös alapgondolat: egy új mintaelem érkezésekor meghatározzuk, melyik eddigi klaszterhez van legközelebb; ha ez a távolság túl nagy, és még nincs elég klaszter, újat kezdünk vele, különben a legközelebbi mellé tesszük.

MI 2003/ Nagyon sok konkrét módszer tartozik ide, attól függően, hogyan választjuk a különbözőséget, hogyan reprezentáljuk az osztályokat, milyen osztály-pont távolságot veszünk … Példa, problémák, javítási lehetőségek (küszöb-, osztály-szám módosítása)

MI 2003/ Minden pontot már az első menetben besorolunk valahova. Javítás: az első menetben csak m osztályt csinálunk, a “távoli” elemek felhasználásával, és egy második menet is jön, ahol a maradékokat besoroljuk a legközelebbi osztályba. Még mindig baj: az eredmény függ a sorrendtől! Sok további javítás ismert.

MI 2003/ Hierarchikus eljárások. Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából keletkeztek újabbak - példa). A hierarchikus eljárások az egymásba ágyazáson alapulnak, és lépésenként két klasztert összevonnak (agglomeratív) vagy egyet kettéosztanak (felosztó).

MI 2003/ Agglomeratív eljárás általános lépése: a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt, amelyik legközelebb van (legjobban hasonlít). Ezt ismételjük addig, amíg a kívánt osztályszámot el nem érjük, vagy valami egyéb kritériumot ki nem elégítünk.

MI 2003/ Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható. Itt is nagyon sokféle eljárás lehet, a különböző választási lehetőségek alkalmazásával. Példa

MI 2003/ Felosztó eljárások. Általános alapelv: az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben a legjobban kettéosztani - végül azt osztjuk, amelyiknél a legjobb szétosztás a legjobb (kezdetben az összes pont egyetlen klaszterben van).