SAS Enterprise Miner 2. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu
Osztályozás, előrejelzés Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések … célváltozó input Előrejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).
Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhető ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal stb.
Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Előrejelzés Tanuló rendszer modell
Modellépítés Adathalmaz partícionálás: training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)
Döntési fa példa hitelbírálatra (forrás: http://www. cs. bme
Döntési fa szabályok leírása fa formában; belső pontokhoz megfeleltetünk egy vágási feltételt, ami kettő vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy „nagy” fát, majd ezt „visszavágjuk” a megfelelő méretre döntési fa előnye: a felépített modell könnyen értelmezhető
Mesterséges neuronhálózatok ld. : Futó Iván (szerk Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. forrás: Gregorics Tibor http://people.inf.elte.hu/gt/mi/neuron/neuron.pdf többszintű perceptron modell „universal approximator” tulajdonság: tetszőleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni
Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve őket, hogy az előrejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya?
Feladat 1. Adathalmaz: Magyarország települései (http://ksh.hu) séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: építsünk modelleket a települések igazgatási rangjának előrejelzésére a terület, népesség és lakásszám adataik alapján, majd ezeket hasonlítsuk össze, értékeljük. (Az eredmény a gyakorlatban kevéssé hasznos egyébként.) Adatok: http://scs.web.elte.hu/em/datasets/
Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülő elempárok lényegesen hasonlóbbak egymáshoz, mint különböző klaszterek elempárjai. ehhez: megfelelő hasonlósági függvény bevezetése, klaszterezés „jóságának” valamilyen mértéke MI megfelelője: felügyelet nélküli tanulás particionáló klaszterező algoritmusok: adott klaszterezés folyamatos finomításával haladunk előre, amíg az eredmény elég „jó” nem lesz
K-means algoritmus (forrás: Lukács András diái)
Feladat 2. Adathalmaz: Magyarország települései (http://ksh.hu) séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: klaszterezzük Magyarország településeit népesség és lakásszám alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/
Egyéb, nem tárgyalt témák Dimenzió-csökkentés (főleg klaszterezésnél fontos) osztályozás: regresszió; „oversampling” probléma stb. outlier elemek szűrése; hiányzó értékek pótlása stb. modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei mintavételezés profit mátrix modellek egyesítése (ensemble) stb.
Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: építsünk modelleket az ételek kategóriájának előrejelzésére a fehérje, szénhidrát, zsír és energiatartalmuk alapján, majd ezeket hasonlítsuk össze, értékeljük. Adatok: http://scs.web.elte.hu/em/datasets/
Feladat 4. Adathalmaz: Energiatáblázat (http://body.builder.hu) séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: klaszterezzük az étel-alapanyagokat fehérje, szénhidrát, zsír és energiatartalom alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/