Adatredukciós módszerek (klaszterezés, alakfelismerés)

Slides:

Advertisements

Hasonló előadás

Összetett kísérleti tervek és kiértékelésük:

Advertisements

MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.

MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:

Számítógépes algebrai problémák a geodéziában

Non-profit szervezetek bevételi szerkezetének elemzése.

Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.

Digitális képanalízis

Statisztika feladatok Informatikai Tudományok Doktori Iskola.

SAS Enterprise Miner 2. gyakorlat

Csoportosítás megadása: Δx – csoport szélesség

Gépi tanulási módszerek

Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.

MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).

Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.

Mérési pontosság (hőmérő)

Becsléselméleti ismétlés

Gazdaságelemzési és Statisztikai Tanszék

Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.

Előadó: Prof. Dr. Besenyei Lajos

Mintavételes eljárások

III. előadás.

Regresszióanalízis 10. gyakorlat.

Hierarchikus klaszteranalízis

K-közepű és kétlépéses klaszteranalízis (3. fejezet)

KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA

Az Alakfelismerés és gépi tanulás ELEMEI

Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo

Az F-próba szignifikáns

Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.

Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat

Gazdaságstatisztika 11. előadás.

Adatbányászati módszerek a térinformatikában

Többváltozós adatelemzés

Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.

Többváltozós adatelemzés

Alapsokaság (populáció)

Lineáris regresszió.

Két kvantitatív változó kapcsolatának vizsgálata

Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS

Mintavételes eljárások

MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.

Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/

Valószínűségszámítás II.

MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.

A számítógépes elemzés alapjai

Gépi tanulási módszerek

1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.

A számítógépes elemzés alapjai

I. Előadás bgk. uni-obuda

Statisztikai Programcsomagok SAS EG gyakorlat

Adatredukciós módszerek

Trendelemzés előadó: Ketskeméty László

Az Európai Unió tagországainak, a csatlakozásra váró országoknak

A évi kompetenciamérés FIT-jelentéseinek új elemei

Nemparaméteres próbák

Gazdaságinformatikus MSc

Valószínűségi változók együttes eloszlása

Gazdaságinformatikus MSc

A leíró statisztikák alapelemei

Gazdaságinformatika MSc labor

A Box-Jenkins féle modellek

2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.

Mérési skálák, adatsorok típusai

A normális eloszlásból származó eloszlások

Előadás másolata:

Adatredukciós módszerek (klaszterezés, alakfelismerés) Gazdaságinformatikus MSc

Dr Ketskeméty László előadása Adatredukció Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. Klaszteranalízis, osztályozás Ritkítás véletlenszám generálással Faktoranalízis, főkomponens-analízis Diszkriminanciaanalízis Többdimenziós skálázás (MDS) 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Adatredukció KLASZTERANALÍZIS Az eseteket homogén csoportokba (ú.n. klaszterekbe) soroljuk. A csoportosítás alapja egy adott metrika szerinti közelség, illetve egy adott hasonlósági mérték szerinti hasonlóság. DISZKRIMINANCIAALÍZIS Az esetek egy kategóriaváltozó értékei alapján osztályokba vannak tagolva. A feladat az, hogy a többdimenziós térben az osztályokat szeparáló felületekkel elválasszuk. OSZTÁLYOZÁS Ismert kategóriájú esetek segítségével (tananyag) döntésfügg- vényt konstruálunk, amivel ismeretlen kategóriájú esetekhez is tudunk osztályokat rendelni. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az alakfelismerés matematikai modellje 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az alakfelismerés matematikai modellje 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az alakfelismerés matematikai modellje 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az alakfelismerés matematikai modellje 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az alakfelismerés matematikai modellje 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az alakfelismerés matematikai modellje 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása PÉLDÁK KLASZTERANALÍZIS Milyen csoportok alakíthatók ki az employee állományban a fizetési adatok (salary, salbegin) alapján? Milyen csoportosulások keletkeznek az országok halmazában, ha az egészségügyi helyzetet jellemző változókat tekintjük: lifeexpf, lifeexpm, babymort, calories, aids_rt, b_to_d Milyen csoportosulások keletkeznek az országok halmazában, ha a gazdasági helyzetet jellemző változókat tekintjük: gdp_cap, cropgrow, urban 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása PÉLDÁK DISZKRIMINANCIAALÍZIS A fizetési adatok mennyire választható szét a jobcat, gender illetve minority kategóriaváltozók alapján? Mennyire válnak szét az országok a gazdasági tömörülés (region) alapján? OSZTÁLYOZÁS Orvosi diagnosztika: Beteg? Nem beteg? Betűfelismerés Műholdképpontok osztályozása Repülésirányítás: Felszálljon? Töröljék? Banki rizikóelemzés: kapjon hitelt? Ne kapjon? 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Betűfelismerés Beszkennelt szövegek digitalizálásánál merül fel, hogy a szöveg karaktereit, a betűket, a számokat számítógépes programmal azonosítani kell. Ez a probléma merül fel pl. az alábbi alkalmazásokban: Postai küldemények automatikus osztályozása; Rendszámok automatikus felismerése; Aláírás automatikus azonosítása banki biztonsági rendszerben; Nyomtatványok automatikus digitalizálása (RECOGNITA); Automatikus útlevél-ellenőrzés; 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Betűfelismerés A betűfelismerés folyamatának lépései: A karakterek leválasztása a szövegből A leválasztott karakter alakzatvektorának elkészítése A tananyag segítségével a karakter felismerése Mindegyikhez le kell gyártani az alakzatvektort a tananyagba 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Klaszterezés (clustering) Általában a klaszterezés célkitűzése az, hogy az „összetartozó” eseteket közös csoportba soroljuk. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Klaszterezés (clustering) 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Klaszterezés (clustering) Elvileg úgy is eljárhatnánk, hogy az összes lehetséges csoportosításból választjuk ki a legjobbat. Hányféleképpen lehet k csoportba sorolni N elemet? Ez túlságosan nagy szám, hogy így járjunk el! Olyan algoritmusok kellenek, amelyek eleve jó csoportosításokat képeznek, amiből egy optimum elv segítségével kiválasztható egy „nagyon jó”. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Klaszterezés (clustering) Az alkalmazásokban már sokszor problémát okoz a kialakítandó csoportok száma (k) is! Van olyan algoritmus, ami megköveteli az alkalmazásához, hogy megadjuk k-t! Másik alapprobléma, hogy milyen d metrikafüggvény írja le hitelesen az esetek távolságát. Ez különösen fontos, amikor az alakzatvektor koordinátái között diszkrét változók (esetleg nominális szintű) is vannak. A csoportosítás elvégzése után el kell tenni a klaszterek jellemzését. Ezt leíró statisztikákkal, vagy tipikus esetek felsorolásával tudjuk megtenni. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A k-közép módszer (K-Means Cluster Analysis) Olyan dinamikus klaszterező eljárás, amikor előre meg kell adni a klaszterek számát. A klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. Az esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. Nagy esetszámú adatmátrix feldolgozható vele. Egyszerű, gyors. Véges sok lépésben leáll, minimalizálja a tömörséget Előnye: A metrika beépített, körülményes a koordinátasúlyozás Előre meg kell adni a klaszterek számát Az eredmény függ a sorrendtől Hátránya: 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A k-közép módszer (K-Means Cluster Analysis) Az algoritmus lépései a következőek (MacQueen, 1967): Kiválasztja a klaszterek számát (k). Véletlenszerűen létrehoz k számú klasztert, és meghatározza minden klaszter közepét, vagy azonnal létrehoz k véletlenszerű klaszter középpontot. Minden egyes pontot abba a klaszterbe sorol, amelynek középpontjához a legközelebb helyezkedik el. Kiszámolja az új klaszter középpontokat. Addig ismétli az előző két lépést (iterál), amíg valamilyen konvergenia kritérium nem teljesül (általában az, hogy a besorolás nem változik). 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A k-közép módszer (K-Means Cluster Analysis) x1,…, xN a megfigyelések p-dimenziós vektorok Mindegyik megfigyelés (minden xi) egyértelműen egy klaszterhez fog sorolódni C(i) jelöli a klaszterazonosítóját a itdik megfigyelésnek A távolságfüggvény: Az Euclideszi metrika K-means minimalizálja a klaszteren belüli szóródást: ahol mk a kdik klaszter átlagvektora, Nk a kdik klaszter elemszáma 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A k-közép módszer (K-Means Cluster Analysis) Jelölje T az N adatpont teljes szóródását: Két pont távolsága T átírható: Ha d az Euclidesz metrika négyzete, akkor Ahol, Klasztereken belüli szóródás and Teljes átlag Klaszterek között szóródás W(C) minimalizálása azonos B(C) maximalizálásával 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A k-közép módszer (K-Means Cluster Analysis) Minden C klaszterhez kiszámoljuk az átlagokat mk : Minden megfigyelés vektort a legközelebbi átlagvektorhoz sorolunk: Ha egy iteráció befejeződött, újraszámoljuk az átlagokat, és új iterációt nyitunk, amíg az átsorolódó pontok száma egy adott küszöb alá nem esik 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása K-means klaszterezési példa 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása K-medoids klaszterezés K-means klaszterezés tökéletes Euklideszi-metrikánál; Így, a K-means klaszterezés csak numerikus, skálás prediktorváltozóknál alkalmazható; Az Euklideszi távolságot biztos nem alkalmazhatjuk az alábbi két esetben Néhány prediktorváltozó diszkrét Outlierek (szélsőséges esetek) vannak az adatállományban A K-means algoritmus általánosításátK-medoids klaszterezésnek nevezik, ami tetszőleges metrikával működik; K-medoids klaszterezés hatásosabb, jobb eredményt ad 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása K-medoids klaszterezés 1. lépés: Minden klaszterben keressük meg azt a pontot, amitől a többi, ugyanabba a klaszterbe eső pont a legkisebb szóródási mutatót produkálja: 2. lépés: Ezek lesznek a klaszter centrumok (medoidok): 3. lépés: Tekintve ezeket a centrumokat {m1, …, mK}, soroljuk a pontokat a legközelebbi centrumhoz tartozó klaszterbe: Iteráljuk az 1.-3. lépéseket! 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Hogyan válasszuk meg K-t? Hogyan lehet WK (C) -t, a klaszterek belső szóródását felhasználni K meghatározására? Megjegyezzük, hogy WK(C) monoton csökken K növekedtével. Azaz a belső klaszter-szóródás csökken a centrumszámok növekedtével. Ezért azt nézzük, mely növekedésnél csökkent legintenzívebben WK(C) értéke: 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Hogyan válasszuk meg K-t? Fent látható két szimulált kétdimenziós pontfelhő Log(WK) görbék Differencia görbe A döntést szubjektív érzeteink alapján hozhatjuk meg! 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A hierachikus klaszterezés (Hierarchical Cluster Analysis) Egyelemű klaszterekből kiindulva, minden lépésben a két legközelebb fekvő klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. A folyamatot regisztráló dendogrammot utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás erőltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. Előnye: Nem kell előre tudni a klaszterek számát Változtatható a távolság- és hasonlósági-mérték Hátránya: Kis dimenziószám esetén indítható el 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A hierachikus klaszterezés (Hierarchical Cluster Analysis) 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása K L A S Z T E R A N A L Í Z I S A d( x, y ) TÁVOLSÁGFÜGGVÉNY 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása H I E R A R C H I K U S K L A S Z T E R E Z É S KLASZTEREK d( C1, C2 ) TÁVOLSÁGA A legközelebbi-társ távolság A legtávolabbi-társ távolság Klasztercentrumok távolsága 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása K L A S Z T E R A N A L Í Z I S ESETEK d( x, y ) TÁVOLSÁGAI 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása K L A S Z T E R A N A L Í Z I S ESETEK d( x, y ) TÁVOLSÁGAI 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Klaszterezés felhasználása a tananyag ellenőrzésére A következő szimulációs példában bemutatjuk, hogyan lehet a klaszterezéssel ellenőrizni az osztályozásra szánt tananyag jóságát. Ha az osztályok jól szeparálódnak, akkor a különböző osztályok különböző klaszterbe kell, hogy kerüljenek 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis Adott: kiindulási esetek vagy objektumok – pl. személyek – két vagy több (k db) ismert csoportja, amelyeket meghatározott változók (p db) jellemeznek. Cél: az eseteket vagy objektumokat jellemző változók alkalmas lineáris kombinációi (az ún. diszkriminancia-függvények) segítségével az adott csoportok lehető legjobb elkülönítése, majd ennek alapján a később megjelenő újabb objektumok csoportokhoz tartozásának lehető legjobb előrejelzése. A kiindulási esetek csoportokhoz tartozása az eljárás kezdetén ismert, a később megjelenő újabb eseteké viszont ismeretlen: a módszer éppen ez utóbbira tesz előrejelzést. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis A csoportképző változónak természetes számokkal (k = 1, 2, 3, 4, stb) kódolt kisszámú értékei lehetnek, amelyek egymást kölcsönösen kizáró kategóriáknak felelnek meg. A prediktor (előrejelző, független) változóknak többdimenziós normális eloszlású kvantitatív (intervallum vagy arány-skálájú) adatokat kell tartalmazniuk minden csoportban közel azonos kovariancia mátrixokkal (legfeljebb 1:10 kovariancia-arány tolerálható). A csoportképző változók alkalmas módon meghatározott lineáris kombinációja az ún. diszkriminancia-függvény, amelynek alapján a csoporthoz tartozás megadható: D = B0 + B1X1 + B2X2 + … + BpXp 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis Legyen először adott k = 2 számú csoport (piros és kék), és p = 2 számú prediktor változó (X1 és X2) A diszkriminancia-függvényt ekkor D = B0 + B1X1 + B2X2 alakban keressük. 2019.04.27. Dr Ketskeméty László előadása

Diszkriminanciaanalízis Az X1 változó magában nem diszkriminál elég jól  X2 Az X2 változó sem diszkriminál önmagában elég jól X1  2019.04.27. Dr Ketskeméty László előadása

Diszkriminanciaanalízis Megkeressük a két ponthalmazt legjobban elválasztó egyenest Ez az egyenes már jól diszkriminál  X2 Erre az egyenesre merőlegest bocsátunk X1  2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Ennek a jól diszkrimináló egyenesnek felel meg a diszkriminancia-függvény: D = B0 + B1X1 + B2X2  X2 X1  2019.04.27. Dr Ketskeméty László előadása

D I S Z K R I M I N A N C I A A N A L Í Z I S 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis A D = B0 + B1X1 + B2X2 + … + BpXp diszkriminancia-függvény B konstansait úgy választjuk meg, hogy a értéke maximális legyen, mert ez adja a lehetséges legjobb diszkriminációt. Ez fordított logika az ANOVA-hoz képest, ahol a vizsgált változó adott és ugyanennek a törtnek az alapján azt nézzük, hogy van-e különbség a csoportok között. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis 1) A F próbával vizsgálható. 2) Egy másik használatos statisztikai mutató a 0 és 1 között változó Wilks-féle lambda, amelynek definíciója: Ennek értéke 1 akkor, ha valamennyi csoport átlaga azonos, nullához közeli értéket pedig akkor vesz fel, ha a csoportokon belüli variabilitás kicsi a teljes variabilitáshoz képest. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Diszkriminanciaanalízis Ha a csoportok száma kettőnél nagyobb, szemléletesen nem mutatható be diszkriminancia-függvény származtatása. Ilyen esetekben az ún. kanonikus változók segítségével történik az egyes csoportokba tartozó esetek megkülönböztetése. Az első kanonikus változó – az első főkomponenshez hasonlóan – a prediktoroknak egy olyan lineáris kombinációja, amely egy dimenzióban maximalizálja a k számú csoport közötti különbséget. A második kanonikus változó az elsőtől független lineáris kombináció, amely egy másik dimenzióban maximalizálja a csoportok közötti különbséget, és így tovább ... Láttuk hogy k = 2 esetben egyetlen diszkriminancia (vagy kanonikus) függvény elegendő volt. Az elemzéshez szükséges kanonikus változók száma általánosan megadva: k-1 és p közül a kisebb. 2019.04.27. Dr Ketskeméty László előadása

A legközelebbi társ módszer tanulópont halmaz tananyag az i-edik tanulópont az i-edik tanítás 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A legközelebbi társ módszer osztályozandó (query) pont ha olyan, hogy 2019.04.27. Dr Ketskeméty László előadása

ritkítás, tömörítés, gyors keresés metrikaskálázás, metrikakeverés A legközelebbi társ módszer előfeldolgozás A tananyagot előfeldolgozását egyszer kell elvégezni, az osztályozást nagyon sokszor. Az előfeldolgozás költsége megtérül, ha kisebb költséggel osztályzunk. ritkítás, tömörítés, gyors keresés Mindig véges elemszámú tananyaggal dolgozunk. Minél kisebb ennek elemszáma, annál kisebb az osztályozás költsége. átdefiniálás, szűrés Véges mintában a egy-egy mérési hiba nagy mértékben rontja az osztályozás pontosságát. metrikaskálázás, metrikakeverés A gyakorlati alkalmazásoknál az alakzattér speciális metrikus tér. Cél volt általános metrikus térben alkalmazható algoritmusok kidolgozása. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A tananyag előfeldolgozásának problémaköre Ritkítás Tömörítés Szűrés Átdefiniálás 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Gyors keresés 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Kizárási feltételek Jelölések: 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A K1 kizárás menete a query pont 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Erőkapcsolat a kizárási feltételek között 2019.04.27. Dr Ketskeméty László előadása

Példa klaszteranalízisre I. Klaszterezzük a dolgozókat az alábbi változók szerint: salary, salbegin, prevexp, jobtime, age A k-means klaszterezést indítjuk el. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Megpróbáljuk kereszttáblákkal jellemezni a klasztereket! Megnézzük a nem, beosztás, versenypozíció (minority) és kor szerinti eloszlást a klaszterekben. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Példa klaszteranalízisre II. Hogyan csoportosíthatók a gépkocsik a jellemzőik alapján? 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Quick Cluster 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Példa diszkriminancia analízisre I. Megvizsgáljuk, hogyan választható szét a gépkocsik halmaza az országok szerint a gépkocsijellemzők alapján. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Summary of Canonical Discriminant Functions 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása 2019.04.27. Dr Ketskeméty László előadása

Példa diszkriminancia analízisre II. Országok diszkriminálása gazdasági régiók alapján Diszkriminancia analízissel válasszuk szét az országokat a region változó szerint a populatn, density, urban, lifeexpf, lifeexpm, literacy, pop_incr, babymort, gdp_cap, calories, aids, birth_rt, death_rt, aids_rt, log_gdp, lg_aidsr, b_to_d, fertilty, log_pop, cropgrow, lit_male, lit_fema komponensű esetvektorok figyelembevételével! Tehát most a 22 dimenziós vektortérben tekintünk 109 elemet, és azokat szeretnénk megfelelő szeparáló felületekkel úgy szétválasztani, hogy az egyes térrészekbe lehetőleg egy gazdasági térséghez tartozó esetek kerüljenek. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A figyelembe vett 22 változó jelentése: COUNTRY (N) Az ország neve POPULATN (S) Népesség ezer főben DENSITY (S) Emberek száma / négyzetkilométer URBAN (S) Városi lakosság (%) LIFEEXPF (S) A nők várható élettartama LIFEEXPM (S) A férfiak várható élettartama LITERACY (S) Olvasni tudók százaléka POP_INCR (S) Népességnövekedés (évenkénti %) BABYMORT (S) Gyermekhalandóság (halálozás 1000 élve születésre) GDP_CAP (S) GDP / tőke CALORIES (S) Napi felvett kalória AIDS (S) AIDS esetek száma BIRTH_RT 1000 (S) emberre jutó születés DEATH_RT (S) 1000 emberre jutó halálozás AIDS_RT (S) 100000 emberre jutó AIDS esetek száma LOG_GDP (S) Tízes alapú logaritmusa a GDP-nek LG_AIDSR (S) Tízes alapú logaritmusa az AIDS-nek B_TO_D (S) Születés-halálozás ráta FERTILTY (S) Átlagos gyermekszám családonként LOG_POP (S) Tízes alapú logaritmusa a népességszámnak CROPGROW (S) Terméshozam gabonából LIT_MALE (S) Olvasni tudó férfiak (%) LIT_FEMA (S) Olvasni tudó nők (%) 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A csoport-képző változó, ami szerint a szeparálást végrehajtjuk: REGION (O) Gazdasági térség 1 OECD 2 East Europe 3 Pacific/Asia 4 Africa 5 Middle East 6 Latin America 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az egyes országok helyzete az első két diszkrimináló függvény által meghatározott síkon: 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása A kelet-európai országok — köztük a Magyarország — helyzete az első két diszkrimináló függvény által meghatározott síkon 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Azon országok listája, melyeket rosszul osztályozott a program 2019.04.27. Dr Ketskeméty László előadása

A legközelebbi társ módszer alkalmazása Alkalmazzuk a legközelebbi szomszéd osztályozást a gépkocsi állományra (cars). A célváltozó (target) az origin változó. A legközelebbi szomszédok száma k=9 legyen, Euklideszi metrika definiálja az esetek távolságát. A jellegzetesség változók az mpg, engine, horse, weight és accel legyenek. A tananyag pontjainak elhelyezkedése 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az osztályozás eredménye: Az osztályozás pontossága kb. 74% 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Alkalmazzuk most a módszert a fogyasztás értékének becslésére! A target változó most tehát a folytonos mpg legyen, a többi numerikus változó a jellegzetesség mezőben marad. A tényleges fogyasztás (mpg), a becsült fogyasztás (KNN_PredictedValue) eltérését százalékban fejezzük ki (elter). Az elter változó statisztikáiból kiolvasható, hogy átlagosan -3% és -4 % között van a becslés pontosság. 2019.04.27. Dr Ketskeméty László előadása

Dr Ketskeméty László előadása Az outlierek táblázatából láthatjuk, hogy néhány esetben nagy volt az eltérés. Különösen kiugró a hiba a 35. esetnél, ahol a felülbecslés több mint -221%-os volt. (Megtekintve ezt az esetet láthatjuk, hogy ez valószínűleg hibás rekord lehet. Hiányzik a származási hely, a hengerek száma és a gyártási év is. A meglévő adatok is hihetetlennek tűnnek…) 2019.04.27. Dr Ketskeméty László előadása