Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
SAS Enterprise Miner 1. gyakorlat
Sidló Csaba
3
SAS Enterprise Miner adatbányászati eszközkészlet, SAS keretrendszeren belül témák (két gyakorlatra): adatbányászat fogalma, feladatai Miner általános funkciói, felépítése adatbányászati eszközkészlet feltérképezése feladatmegoldás: asszociációs szabály keresés előrejelzés (osztályozás) klaszterezés
4
Adatbányászat SAS: „advanced methods for exploring and modelling relationships in large amounts of data” Jiawei Han: „a tudás nagy mennyiségű adatból történő kinyerése, kibányászása” Jeffrey D. Ullman: „discovery of useful summaries of data”
5
Adatbányászat 2. Irodalom:
Jiawei Han, Micheline Kamber: Adatbányászat – Koncepciók és technikák (PANEM, 2004 – ld. jegyzetbolt) Bodon Ferenc magyar nyelvű jegyzete: Ullman: Iványi Antal (szerk): Informatikai algoritmusok II. (ld. jegyzetbolt, de még megjelenés előtt áll): klaszterezés, gyakori termékhalmaz kereséss SAS help + weben elérhető anyagok (érdemes keresni)
6
Adatbányászat 3. „Multidiszciplinális” tudományág: Statics
Pattern Recognition Neurocomputing Data Mining Machine Learning AI Databases KDD
7
Adatbányászat - feladatok
gyakori minták kinyerése asszociációs szabályok keresése, gyakori elemhalmazok keresése, epizódkutatás, … előrejelzés és osztályozás ellenőrzött tanulás (supervised learning), predikció, klasszifikáció, … klaszterezés halmaz elemeinek csoportokba sorolása, valamely hasonlósági / távolsági függvény alapján; felügyelet nélküli tanulás (unsupervised learning) + egyéb speciális feladatok, eltérő megfogalmazások
8
Enterprise Miner vs. egyéb adatbányász eszközök
forrás: Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1!) SPSS Clementine SAP (adattárház integráció!) stb.
9
Enterprise Miner vs. egyéb adatbányász eszközök
10
EM használata Project fogalma Diagram fogalma
SAS Base – SAS Enterprise Miner kapcsolata input: SAS Datasets output: beszámolók, valamint modellek hordozható formában: C kód, SAS kód cél: az adott eszközök használatával diagramok építése, aminek segítségével a rejtett tudás kinyerhető ehhez szükséges: az adatok, a feladat, a szakterület és az eszközök ismerete nem feltétlenül szükséges: megoldó algoritmusok ismerete
11
SEMMA SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelően. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemző eszközök, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelőkészítés elemzéshez, outlier-ek, hiányzó értékek, klaszterezés, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók Továbbiakban a konkrét eszközök közül megnézzük a fontosabbakat.
12
Screenshot – EM
13
Asszociációs szabály keresés
forrás: Lukács András adatbányászat órája (
14
Asszociációs szabály keresés 2.
15
Feladat 1. Adathalmaz: FIMI workshop ( RETAIL: (TID, ITEM) séma: klasszikus vásárlói kosár elemzés Keressünk gyakori termékhalmazokat, illetve asszociációs szabályokat. Adatok: Közösen!
16
Feladat 1. - lépések library létrehozása
adatfile importálása sas dataset EM project és diagram létrehozása input data source beállítása statisztikai elemzés: eloszlások (legalább) asszoc. szabályok keresése
17
Distribution Explorer
Input Data Source egy library sas dataset megfelelője attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) Distribution Explorer vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához
18
Multiplot Insight másik vizualizációs, grafikus adatelemző eszköz
automatikus bar chart / scatter plot generálás Insight SAS statisztikai elemző alkalmazása nagy funkcionalitás több ablakos, egymással együttműködő aktív elemekkel rendelkező elemző eszköz
19
Association asszociációs szabály kereső algoritmus implementáció
szekvencia elemzés szintén lehetséges, ehhez kell még egy „sequence” bemeneti változó
20
Feladat 2. Adathalmaz: [origo] fórumok hozzászólásai ( séma: (USERID, TOPICNAME) jelentése: 2000-ben (egy egyedi id mögé rejtett) felhasználó mely topic-okhoz szólt hozzá. Melyek a gyakori topic-halmazok, illetve a topicok közti nagy bizonyosságú asszociációs szabályok? Adatok: Egyénileg megoldani, kérdezni, mindent kipróbálni!
21
Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu)
séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Adathalmaz: Magyarország települései ( séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: importáld az adathalmazokat, majd állapítsd meg alapvető statisztikai jellemzőiket. Adatok:
22
Következő gyakorlat Predikció: döntési fák, neurális hálók, regresszió, egyéb kapcsolódó eszközök Klaszterezés alkalmazott matematikusok: témák megbeszélése ZH: két hét múlva, addig gyakorolni!
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.