Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
SAS Enterprise Miner 2. gyakorlat
Sidló Csaba
2
Osztályozás, előrejelzés
Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések … célváltozó input Előrejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).
3
Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhető ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal stb.
4
Osztályozás folyamata
Ismert adatok Új adatok tanítási halmaz teszt halmaz Előrejelzés Tanuló rendszer modell
5
Modellépítés Adathalmaz partícionálás:
training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)
6
Döntési fa példa hitelbírálatra (forrás: http://www. cs. bme
7
Döntési fa szabályok leírása fa formában; belső pontokhoz megfeleltetünk egy vágási feltételt, ami kettő vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy „nagy” fát, majd ezt „visszavágjuk” a megfelelő méretre döntési fa előnye: a felépített modell könnyen értelmezhető
8
Mesterséges neuronhálózatok ld. : Futó Iván (szerk
Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. forrás: Gregorics Tibor többszintű perceptron modell „universal approximator” tulajdonság: tetszőleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni
9
Modellek összehasonlítása
Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve őket, hogy az előrejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya?
10
Feladat 1. Adathalmaz: Magyarország települései (http://ksh.hu)
séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: építsünk modelleket a települések igazgatási rangjának előrejelzésére a terület, népesség és lakásszám adataik alapján, majd ezeket hasonlítsuk össze, értékeljük. (Az eredmény a gyakorlatban kevéssé hasznos egyébként.) Adatok:
11
Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülő elempárok lényegesen hasonlóbbak egymáshoz, mint különböző klaszterek elempárjai. ehhez: megfelelő hasonlósági függvény bevezetése, klaszterezés „jóságának” valamilyen mértéke MI megfelelője: felügyelet nélküli tanulás particionáló klaszterező algoritmusok: adott klaszterezés folyamatos finomításával haladunk előre, amíg az eredmény elég „jó” nem lesz
12
K-means algoritmus (forrás: Lukács András diái)
13
Feladat 2. Adathalmaz: Magyarország települései (http://ksh.hu)
séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: klaszterezzük Magyarország településeit népesség és lakásszám alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok:
14
Egyéb, nem tárgyalt témák
Dimenzió-csökkentés (főleg klaszterezésnél fontos) osztályozás: regresszió; „oversampling” probléma stb. outlier elemek szűrése; hiányzó értékek pótlása stb. modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei mintavételezés profit mátrix modellek egyesítése (ensemble) stb.
15
Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu)
séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: építsünk modelleket az ételek kategóriájának előrejelzésére a fehérje, szénhidrát, zsír és energiatartalmuk alapján, majd ezeket hasonlítsuk össze, értékeljük. Adatok:
16
Feladat 4. Adathalmaz: Energiatáblázat (http://body.builder.hu)
séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: klaszterezzük az étel-alapanyagokat fehérje, szénhidrát, zsír és energiatartalom alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok:
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.