Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatredukciós módszerek

Hasonló előadás


Az előadások a következő témára: "Adatredukciós módszerek"— Előadás másolata:

1 Adatredukciós módszerek
Gazdaságinformatikai MSc

2 Dr Ketskeméty László előadása
Adatredukció Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. Klaszteranalízis, osztályozás Ritkítás véletlenszám generálással Faktoranalízis, főkomponens-analízis Diszkriminanciaanalízis Többdimenziós skálázás (MDS) Dr Ketskeméty László előadása

3 Dr Ketskeméty László előadása
KLASZTERANALÍZIS Az eseteket homogén csoportokba (ú.n. klaszterekbe) soroljuk. A csoportosítás alapja egy adott metrika szerinti közelség, illetve egy adott hasonlósági mérték szerinti hasonlóság. DISZKRIMINANCIAALÍZIS Az esetek egy kategóriaváltozó értékei alapján osztályokba vannak tagolva. A feladat az, hogy a többdimenziós térben az osztályokat szeparáló felületekkel elválasszuk. OSZTÁLYOZÁS Ismert kategóriájú esetek segítségével (tananyag) döntésfügg- vényt konstruálunk, amivel ismeretlen kategóriájú esetekhez is tudunk osztályokat rendelni. Dr Ketskeméty László előadása

4 Dr Ketskeméty László előadása
PÉLDÁK KLASZTERANALÍZIS Milyen csoportok alakíthatók ki az employee állományban a fizetési adatok (salary, salbegin) alapján? Milyen csoportosulások keletkeznek az országok halmazában, ha az egészségügyi helyzetet jellemző változókat tekintjük: lifeexpf, lifeexpm, babymort, calories, aids_rt, b_to_d Milyen csoportosulások keletkeznek az országok halmazában, ha a gazdasági helyzetet jellemző változókat tekintjük: gdp_cap, cropgrow, urban Dr Ketskeméty László előadása

5 Dr Ketskeméty László előadása
PÉLDÁK DISZKRIMINANCIAALÍZIS A fizetési adatok mennyire választható szét a jobcat, gender illetve minority kategóriaváltozók alapján? Mennyire válnak szét az országok a gazdasági tömörülés (region) alapján? OSZTÁLYOZÁS Orvosi diagnosztika: Beteg? Nem beteg? Betűfelismerés Műholdképpontok osztályozása Repülésirányítás: Felszálljon? Töröljék? Banki rizikóelemzés: kapjon hitelt? Ne kapjon? Dr Ketskeméty László előadása

6 Klaszterezés felhasználása a tananyag ellenőrzésére
A következő szimulációs példában bemutatjuk, hogyan lehet a klaszterezéssel ellenőrizni az osztályozásra szánt tananyag jóságát. Ha az osztályok jól szeparálódnak, akkor a különböző osztályok különböző klaszterbe kell, hogy kerüljenek Dr Ketskeméty László előadása

7 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

8 Dr Ketskeméty László előadása
A k-közép módszer (K-Means Cluster Analysis) Olyan dinamikus klaszterező eljárás, amikor előre meg kell adni a klaszterek számát. A klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. Az esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. Előnye: Nagy esetszámú adatmátrix feldolgozható vele. Hátránya: A metrika beépített, körülményes a koordinátasúlyozás Előre meg kell adni a klaszterek számát Dr Ketskeméty László előadása

9 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

10 Dr Ketskeméty László előadása
A hierachikus klaszterezés (Hierarchical Cluster Analysis) Egyelemű klaszterekből kiindulva, minden lépésben a két legközelebb fekvő klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. A folyamatot regisztráló dendogrammot utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás erőltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. Előnye: Nem kell előre tudni a klaszterek számát Változtatható a távolság- és hasonlósági-mérték Hátránya: Kis dimenziószám esetén indítható el Dr Ketskeméty László előadása

11 Dr Ketskeméty László előadása
K L A S Z T E R A N A L Í Z I S A d( x, y ) TÁVOLSÁGFÜGGVÉNY Dr Ketskeméty László előadása

12 Dr Ketskeméty László előadása
H I E R A R C H I K U S K L A S Z T E R E Z É S KLASZTEREK d( C1, C2 ) TÁVOLSÁGA A legközelebbi-társ távolság A legtávolabbi-társ távolság Klasztercentrumok távolsága Dr Ketskeméty László előadása

13 Dr Ketskeméty László előadása
K L A S Z T E R A N A L Í Z I S ESETEK d( x, y ) TÁVOLSÁGAI Dr Ketskeméty László előadása

14 Dr Ketskeméty László előadása
K L A S Z T E R A N A L Í Z I S ESETEK d( x, y ) TÁVOLSÁGAI Dr Ketskeméty László előadása

15 Diszkriminanciaanalízis
Adott: kiindulási esetek vagy objektumok – pl. személyek – két vagy több ismert csoportja, amelyeket meghatározott változók jellemeznek. Cél: az eseteket vagy objektumokat jellemző változók alkalmas lineáris kombinációi (az ún. diszkriminancia-függvények) segítségével az adott csoportok lehető legjobb elkülönítése, majd ennek alapján a később megjelenő újabb objektumok csoportokhoz tartozásának lehető legjobb előrejelzése. A kiindulási esetek csoportokhoz tartozása az eljárás kezdetén ismert, a később megjelenő újabb eseteké viszont ismeretlen: a módszer éppen ez utóbbira tesz előrejelzést. Dr Ketskeméty László előadása

16 Diszkriminanciaanalízis
A csoportképző változónak természetes számokkal (k = 1, 2, 3, 4, stb) kódolt kisszámú értékei lehetnek, amelyek egymást kölcsönösen kizáró kategóriáknak felelnek meg. A prediktor (előrejelző, független) változóknak többdimenziós normális eloszlású kvantitatív (intervallum vagy arány-skálájú) adatokat kell tartalmazniuk minden csoportban közel azonos kovariancia mátrixokkal (legfeljebb 1:10 kovariancia-arány tolerálható). A csoportképző változók alkalmas módon meghatározott lineáris kombinációja az ún. diszkriminancia-függvény, amelynek alapján a csoporthoz tartozás megadható: D = B0 + B1X1 + B2X2 + … + BpXp Dr Ketskeméty László előadása

17 Diszkriminanciaanalízis
Adott k számú csoport és p számú változó: minden eset a k számú csoport valamelyikébe tartozik és a p számú prediktor változóval jellemzett. Az eseteknek függetleneknek kell lenniük. Az eljárás akkor a leghatékonyabb, ha a csoportképző változó valódi kategoriális változó. Ha a csoportképző változó kvantitatív (pl. életkor, gyakorlati idő vagy bizonyos tesztpontszámok), az adatokban rejlő információ jobb hasznosítása érdekében célszerűbb lineáris regressziót alkalmazni. Dr Ketskeméty László előadása

18 Diszkriminanciaanalízis
Legyen először adott k = 2 számú csoport (piros és kék), és p = 2 számú prediktor változó (X1 és X2) A diszkriminancia-függvényt ekkor D = B0 + B1X1 + B2X2 alakban keressük. Dr Ketskeméty László előadása

19 Diszkriminanciaanalízis
Az X1 változó magában nem diszkriminál elég jól X2 Az X2 változó sem diszkriminál önmagában elég jól X  Dr Ketskeméty László előadása

20 Diszkriminanciaanalízis
Megkeressük a két ponthalmazt legjobban elválasztó egyenest Ez az egyenes már jól diszkriminál X2 Erre az egyenesre merőlegest bocsátunk X  Dr Ketskeméty László előadása

21 Dr Ketskeméty László előadása
Ennek a jól diszkrimináló egyenesnek felel meg a diszkriminancia-függvény: D = B0 + B1X1 + B2X2 X2 X  Dr Ketskeméty László előadása

22 D I S Z K R I M I N A N C I A A N A L Í Z I S
Dr Ketskeméty László előadása

23 Diszkriminanciaanalízis
A D = B0 + B1X1 + B2X2 + … + BpXp diszkriminancia-függvény B konstansait úgy választjuk meg, hogy a értéke maximális legyen, mert ez adja a lehetséges legjobb diszkriminációt. Ez fordított logika az ANOVA-hoz képest, ahol a vizsgált változó adott és ugyanennek a törtnek az alapján azt nézzük, hogy van-e különbség a csoportok között. Dr Ketskeméty László előadása

24 Diszkriminanciaanalízis
F próbával vizsgálható. 2) Egy másik használatos statisztikai mutató a 0 és 1 között változó Wilks-féle lambda, amelynek definíciója: Ennek értéke 1 akkor, ha valamennyi csoport átlaga azonos, nullához közeli értéket pedig akkor vesz fel, ha a csoportokon belüli variabilitás kicsi a teljes variabilitáshoz képest. Dr Ketskeméty László előadása

25 Diszkriminanciaanalízis
Ha a csoportok száma kettőnél nagyobb, szemléletesen nem mutatható be diszkriminancia-függvény származtatása. Ilyen esetekben az ún. kanonikus változók segítségével történik az egyes csoportokba tartozó esetek megkülönböztetése. Az első kanonikus változó – az első főkomponenshez hasonlóan – a prediktoroknak egy olyan lineáris kombinációja, amely egy dimenzióban maximalizálja a k számú csoport közötti különbséget. A második kanonikus változó az elsőtől független lineáris kombináció, amely egy másik dimenzióban maximalizálja a csoportok közötti különbséget, és így tovább ... Dr Ketskeméty László előadása

26 Diszkriminanciaanalízis
Láttuk hogy k = 2 esetben egyetlen diszkriminancia (vagy kanonikus) függvény elegendő volt. Az elemzéshez szükséges kanonikus változók száma általánosan megadva: k-1 és p közül a kisebb. Dr Ketskeméty László előadása

27 A legközelebbi társ módszer
tanulópont halmaz tananyag az i-edik tanulópont az i-edik tanítás Dr Ketskeméty László előadása

28 A legközelebbi társ módszer
osztályozandó (query) pont ha olyan, hogy Dr Ketskeméty László előadása

29 A legközelebbi társ módszer előfeldolgozás
A tananyagot előfeldolgozását egyszer kell elvégezni, az osztályozást nagyon sokszor. Az előfeldolgozás költsége megtérül, ha kisebb költséggel osztályzunk. ritkítás, tömörítés, gyors keresés Mindig véges elemszámú tananyaggal dolgozunk. Minél kisebb ennek elemszáma, annál kisebb az osztályozás költsége. átdefiniálás, szűrés Véges mintában a egy-egy mérési hiba nagy mértékben rontja az osztályozás pontosságát. metrikaskálázás, metrikakeverés A gyakorlati alkalmazásoknál az alakzattér speciális metrikus tér. Cél volt általános metrikus térben alkalmazható algoritmusok kidolgozása. Dr Ketskeméty László előadása

30 Dr Ketskeméty László előadása
A tananyag előfeldolgozásának problémaköre Ritkítás Tömörítés Szűrés Átdefiniálás Dr Ketskeméty László előadása

31 Dr Ketskeméty László előadása
Gyors keresés Dr Ketskeméty László előadása

32 Dr Ketskeméty László előadása
Kizárási feltételek Jelölések: Dr Ketskeméty László előadása

33 Dr Ketskeméty László előadása
A K1 kizárás menete a query pont Dr Ketskeméty László előadása

34 Erőkapcsolat a kizárási feltételek között
Dr Ketskeméty László előadása

35 Példa klaszteranalízisre I.
Klaszterezzük a dolgozókat az alábbi változók szerint: salary, salbegin, prevexp, jobtime, age A k-means klaszterezést indítjuk el. Dr Ketskeméty László előadása

36 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

37 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

38 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

39 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

40 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

41 Dr Ketskeméty László előadása
Megpróbáljuk kereszttáblákkal jellemezni a klasztereket! Megnézzük a nem, beosztás, versenypozíció (minority) és kor szerinti eloszlást a klaszterekben. Dr Ketskeméty László előadása

42 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

43 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

44 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

45 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

46 Példa klaszteranalízisre II.
Hogyan csoportosíthatók a gépkocsik a jellemzőik alapján? Dr Ketskeméty László előadása

47 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

48 Dr Ketskeméty László előadása
Quick Cluster Dr Ketskeméty László előadása

49 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

50 Példa diszkriminancia analízisre I.
Megvizsgáljuk, hogyan választható szét a gépkocsik halmaza az országok szerint a gépkocsijellemzők alapján. Dr Ketskeméty László előadása

51 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

52 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

53 Dr Ketskeméty László előadása
Summary of Canonical Discriminant Functions Dr Ketskeméty László előadása

54 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

55 Dr Ketskeméty László előadása
Dr Ketskeméty László előadása

56 Példa diszkriminancia analízisre II.
Országok diszkriminálása gazdasági régiók alapján Diszkriminancia analízissel válasszuk szét az országokat a region változó szerint a populatn, density, urban, lifeexpf, lifeexpm, literacy, pop_incr, babymort, gdp_cap, calories, aids, birth_rt, death_rt, aids_rt, log_gdp, lg_aidsr, b_to_d, fertilty, log_pop, cropgrow, lit_male, lit_fema komponensű esetvektorok figyelembevételével! Tehát most a 22 dimenziós vektortérben tekintünk 109 elemet, és azokat szeretnénk megfelelő szeparáló felületekkel úgy szétválasztani, hogy az egyes térrészekbe lehetőleg egy gazdasági térséghez tartozó esetek kerüljenek. Dr Ketskeméty László előadása

57 Dr Ketskeméty László előadása
A figyelembe vett 22 változó jelentése: COUNTRY (N) Az ország neve POPULATN (S) Népesség ezer főben DENSITY (S) Emberek száma / négyzetkilométer URBAN (S) Városi lakosság (%) LIFEEXPF (S) A nők várható élettartama LIFEEXPM (S) A férfiak várható élettartama LITERACY (S) Olvasni tudók százaléka POP_INCR (S) Népességnövekedés (évenkénti %) BABYMORT (S) Gyermekhalandóság (halálozás 1000 élve születésre) GDP_CAP (S) GDP / tőke CALORIES (S) Napi felvett kalória AIDS (S) AIDS esetek száma BIRTH_RT (S) emberre jutó születés DEATH_RT (S) emberre jutó halálozás AIDS_RT (S) emberre jutó AIDS esetek száma LOG_GDP (S) Tízes alapú logaritmusa a GDP-nek LG_AIDSR (S) Tízes alapú logaritmusa az AIDS-nek B_TO_D (S) Születés-halálozás ráta FERTILTY (S) Átlagos gyermekszám családonként LOG_POP (S) Tízes alapú logaritmusa a népességszámnak CROPGROW (S) Terméshozam gabonából LIT_MALE (S) Olvasni tudó férfiak (%) LIT_FEMA (S) Olvasni tudó nők (%) Dr Ketskeméty László előadása

58 Dr Ketskeméty László előadása
A csoport-képző változó, ami szerint a szeparálást végrehajtjuk: REGION (O) Gazdasági térség 1 OECD 2 East Europe 3 Pacific/Asia 4 Africa 5 Middle East 6 Latin America Dr Ketskeméty László előadása

59 Dr Ketskeméty László előadása
Az egyes országok helyzete az első két diszkrimináló függvény által meghatározott síkon: Dr Ketskeméty László előadása

60 Dr Ketskeméty László előadása
A kelet-európai országok — köztük a Magyarország — helyzete az első két diszkrimináló függvény által meghatározott síkon Dr Ketskeméty László előadása

61 Dr Ketskeméty László előadása
Azon országok listája, melyeket rosszul osztályozott a program Dr Ketskeméty László előadása

62 A legközelebbi társ módszer alkalmazása
Alkalmazzuk a legközelebbi szomszéd osztályozást a gépkocsi állományra (cars). A célváltozó (target) az origin változó. A legközelebbi szomszédok száma k=9 legyen, Euklideszi metrika definiálja az esetek távolságát. A jellegzetesség változók az mpg, engine, horse, weight és accel legyenek. A tananyag pontjainak elhelyezkedése Dr Ketskeméty László előadása

63 Dr Ketskeméty László előadása
Az osztályozás eredménye: Az osztályozás pontossága kb. 74% Dr Ketskeméty László előadása

64 Dr Ketskeméty László előadása
Alkalmazzuk most a módszert a fogyasztás értékének becslésére! A target változó most tehát a folytonos mpg legyen, a többi numerikus változó a jellegzetesség mezőben marad. A tényleges fogyasztás (mpg), a becsült fogyasztás (KNN_PredictedValue) eltérését százalékban fejezzük ki (elter). Az elter változó statisztikáiból kiolvasható, hogy átlagosan -3% és -4 % között van a becslés pontosság. Dr Ketskeméty László előadása

65 Dr Ketskeméty László előadása
Az outlierek táblázatából láthatjuk, hogy néhány esetben nagy volt az eltérés. Különösen kiugró a hiba a 35. esetnél, ahol a felülbecslés több mint -221%-os volt. (Megtekintve ezt az esetet láthatjuk, hogy ez valószínűleg hibás rekord lehet. Hiányzik a származási hely, a hengerek száma és a gyártási év is. A meglévő adatok is hihetetlennek tűnnek…) Dr Ketskeméty László előadása


Letölteni ppt "Adatredukciós módszerek"

Hasonló előadás


Google Hirdetések