SAS Enterprise Miner 1. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu
SAS Enterprise Miner adatbányászati eszközkészlet, SAS keretrendszeren belül témák (két gyakorlatra): adatbányászat fogalma, feladatai Miner általános funkciói, felépítése adatbányászati eszközkészlet feltérképezése feladatmegoldás: asszociációs szabály keresés előrejelzés (osztályozás) klaszterezés
Adatbányászat SAS: „advanced methods for exploring and modelling relationships in large amounts of data” Jiawei Han: „a tudás nagy mennyiségű adatból történő kinyerése, kibányászása” Jeffrey D. Ullman: „discovery of useful summaries of data”
Adatbányászat 2. Irodalom: Jiawei Han, Micheline Kamber: Adatbányászat – Koncepciók és technikák (PANEM, 2004 – ld. jegyzetbolt) Bodon Ferenc magyar nyelvű jegyzete: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/ Ullman: http://www-db.stanford.edu/~ullman/cs345-notes.html Iványi Antal (szerk): Informatikai algoritmusok II. (ld. jegyzetbolt, de még megjelenés előtt áll): klaszterezés, gyakori termékhalmaz kereséss SAS help + weben elérhető anyagok (érdemes keresni)
Adatbányászat 3. „Multidiszciplinális” tudományág: Statics Pattern Recognition Neurocomputing Data Mining Machine Learning AI Databases KDD
Adatbányászat - feladatok gyakori minták kinyerése asszociációs szabályok keresése, gyakori elemhalmazok keresése, epizódkutatás, … előrejelzés és osztályozás ellenőrzött tanulás (supervised learning), predikció, klasszifikáció, … klaszterezés halmaz elemeinek csoportokba sorolása, valamely hasonlósági / távolsági függvény alapján; felügyelet nélküli tanulás (unsupervised learning) + egyéb speciális feladatok, eltérő megfogalmazások
Enterprise Miner vs. egyéb adatbányász eszközök forrás: http://www.metagroup.com/webhost/ONLINE/477658/60.1marketsummary.pdf Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1!) SPSS Clementine SAP (adattárház integráció!) stb.
Enterprise Miner vs. egyéb adatbányász eszközök
EM használata Project fogalma Diagram fogalma SAS Base – SAS Enterprise Miner kapcsolata input: SAS Datasets output: beszámolók, valamint modellek hordozható formában: C kód, SAS kód cél: az adott eszközök használatával diagramok építése, aminek segítségével a rejtett tudás kinyerhető ehhez szükséges: az adatok, a feladat, a szakterület és az eszközök ismerete nem feltétlenül szükséges: megoldó algoritmusok ismerete
SEMMA SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelően. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemző eszközök, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelőkészítés elemzéshez, outlier-ek, hiányzó értékek, klaszterezés, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók Továbbiakban a konkrét eszközök közül megnézzük a fontosabbakat.
Screenshot – EM
Asszociációs szabály keresés forrás: Lukács András adatbányászat órája (http://www.sztaki.hu/~alukacs/)
Asszociációs szabály keresés 2.
Feladat 1. Adathalmaz: FIMI workshop 2003. (http://fimi.cs.helsinki.fi/fimi03/) RETAIL: (TID, ITEM) séma: klasszikus vásárlói kosár elemzés Keressünk gyakori termékhalmazokat, illetve asszociációs szabályokat. Adatok: http://scs.web.elte.hu/em/datasets/retail_td.dat Közösen!
Feladat 1. - lépések library létrehozása adatfile importálása sas dataset EM project és diagram létrehozása input data source beállítása statisztikai elemzés: eloszlások (legalább) asszoc. szabályok keresése
Distribution Explorer Input Data Source egy library sas dataset megfelelője attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) Distribution Explorer vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához
Multiplot Insight másik vizualizációs, grafikus adatelemző eszköz automatikus bar chart / scatter plot generálás Insight SAS statisztikai elemző alkalmazása nagy funkcionalitás több ablakos, egymással együttműködő aktív elemekkel rendelkező elemző eszköz
Association asszociációs szabály kereső algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy „sequence” bemeneti változó
Feladat 2. Adathalmaz: [origo] fórumok hozzászólásai (http://www.origo.hu) séma: (USERID, TOPICNAME) jelentése: 2000-ben (egy egyedi id mögé rejtett) felhasználó mely topic-okhoz szólt hozzá. Melyek a gyakori topic-halmazok, illetve a topicok közti nagy bizonyosságú asszociációs szabályok? Adatok: http://scs.web.elte.hu/em/datasets/origo-user-topic-2000-distinct.xls Egyénileg megoldani, kérdezni, mindent kipróbálni!
Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Adathalmaz: Magyarország települései (http://ksh.hu) séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: importáld az adathalmazokat, majd állapítsd meg alapvető statisztikai jellemzőiket. Adatok: http://scs.web.elte.hu/em/datasets/
Következő gyakorlat Predikció: döntési fák, neurális hálók, regresszió, egyéb kapcsolódó eszközök Klaszterezés alkalmazott matematikusok: témák megbeszélése ZH: két hét múlva, addig gyakorolni!