Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

SAS Enterprise Miner 2. gyakorlat Sidló Csaba

Hasonló előadás


Az előadások a következő témára: "SAS Enterprise Miner 2. gyakorlat Sidló Csaba"— Előadás másolata:

1 SAS Enterprise Miner 2. gyakorlat Sidló Csaba

2 Osztályozás, előrejelzés … input célváltozó megfigyelések Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). Előrejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).

3 Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhető ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal stb.

4 Osztályozás folyamata tanítási halmazteszt halmaz Tanuló rendszer modell Ismert adatok Új adatok Előrejelzés

5 Modellépítés Adathalmaz partícionálás:  training set: modell építéséhez használt adathalmaz  validation set: modell hangolásához, finomításához használt adathalmaz  test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)

6 Döntési fa példa hitelbírálatra (forrás:

7 Döntési fa szabályok leírása fa formában; belső pontokhoz megfeleltetünk egy vágási feltételt, ami kettő vagy több osztályt határoz meg felépítéséhez eldönteni:  milyen feltétel, milyen attribútum szerint vágjunk,  mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy „nagy” fát, majd ezt „visszavágjuk” a megfelelő méretre döntési fa előnye: a felépített modell könnyen értelmezhető

8 Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. többszintű perceptron modell „universal approximator” tulajdonság: tetszőleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni forrás: Gregorics Tibor

9 Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve őket, hogy az előrejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya?

10 Feladat 1. Adathalmaz: Magyarország települései (http://ksh.hu)http://ksh.hu séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: építsünk modelleket a települések igazgatási rangjának előrejelzésére a terület, népesség és lakásszám adataik alapján, majd ezeket hasonlítsuk össze, értékeljük. (Az eredmény a gyakorlatban kevéssé hasznos egyébként.) Adatok:

11 Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülő elempárok lényegesen hasonlóbbak egymáshoz, mint különböző klaszterek elempárjai. ehhez: megfelelő hasonlósági függvény bevezetése, klaszterezés „jóságának” valamilyen mértéke MI megfelelője: felügyelet nélküli tanulás particionáló klaszterező algoritmusok: adott klaszterezés folyamatos finomításával haladunk előre, amíg az eredmény elég „jó” nem lesz

12 K-means algoritmus (forrás: Lukács András diái)

13 Feladat 2. Adathalmaz: Magyarország települései (http://ksh.hu)http://ksh.hu séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: klaszterezzük Magyarország településeit népesség és lakásszám alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok:

14 Egyéb, nem tárgyalt témák Dimenzió-csökkentés (főleg klaszterezésnél fontos) osztályozás: regresszió; „oversampling” probléma stb. outlier elemek szűrése; hiányzó értékek pótlása stb. modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei mintavételezés profit mátrix modellek egyesítése (ensemble) stb.

15 Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu)http://body.builder.hu séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: építsünk modelleket az ételek kategóriájának előrejelzésére a fehérje, szénhidrát, zsír és energiatartalmuk alapján, majd ezeket hasonlítsuk össze, értékeljük. Adatok:

16 Feladat 4. Adathalmaz: Energiatáblázat (http://body.builder.hu)http://body.builder.hu séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: klaszterezzük az étel-alapanyagokat fehérje, szénhidrát, zsír és energiatartalom alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok:


Letölteni ppt "SAS Enterprise Miner 2. gyakorlat Sidló Csaba"

Hasonló előadás


Google Hirdetések