Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

SAS Enterprise Miner 1. gyakorlat Sidló Csaba

Hasonló előadás


Az előadások a következő témára: "SAS Enterprise Miner 1. gyakorlat Sidló Csaba"— Előadás másolata:

1 SAS Enterprise Miner 1. gyakorlat Sidló Csaba

2

3 SAS Enterprise Miner adatbányászati eszközkészlet, SAS keretrendszeren belül témák (két gyakorlatra):  adatbányászat fogalma, feladatai  Miner általános funkciói, felépítése  adatbányászati eszközkészlet feltérképezése  feladatmegoldás: asszociációs szabály keresés előrejelzés (osztályozás) klaszterezés

4 Adatbányászat SAS: „advanced methods for exploring and modelling relationships in large amounts of data” Jiawei Han: „a tudás nagy mennyiségű adatból történő kinyerése, kibányászása” Jeffrey D. Ullman: „discovery of useful summaries of data”

5 Adatbányászat 2. Irodalom:  Jiawei Han, Micheline Kamber: Adatbányászat – Koncepciók és technikák (PANEM, 2004 – ld. jegyzetbolt)  Bodon Ferenc magyar nyelvű jegyzete:  Ullman:  Iványi Antal (szerk): Informatikai algoritmusok II. (ld. jegyzetbolt, de még megjelenés előtt áll): klaszterezés, gyakori termékhalmaz kereséss  SAS help + weben elérhető anyagok (érdemes keresni)

6 Adatbányászat 3. „Multidiszciplinális” tudományág: Data Mining KDD Statics Machine Learning AI Pattern Recognition Neurocomputing Databases

7 Adatbányászat - feladatok gyakori minták kinyerése asszociációs szabályok keresése, gyakori elemhalmazok keresése, epizódkutatás, … előrejelzés és osztályozás ellenőrzött tanulás (supervised learning), predikció, klasszifikáció, … klaszterezés halmaz elemeinek csoportokba sorolása, valamely hasonlósági / távolsági függvény alapján; felügyelet nélküli tanulás (unsupervised learning) + egyéb speciális feladatok, eltérő megfogalmazások

8 forrás: Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1!) SPSS Clementine SAP (adattárház integráció!) stb. Enterprise Miner vs. egyéb adatbányász eszközök

9

10 EM használata Project fogalma Diagram fogalma SAS Base – SAS Enterprise Miner kapcsolata input: SAS Datasets output: beszámolók, valamint modellek hordozható formában: C kód, SAS kód cél: az adott eszközök használatával diagramok építése, aminek segítségével a rejtett tudás kinyerhető ehhez szükséges: az adatok, a feladat, a szakterület és az eszközök ismerete nem feltétlenül szükséges: megoldó algoritmusok ismerete

11 SEMMA SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelően. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemző eszközök, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelőkészítés elemzéshez, outlier-ek, hiányzó értékek, klaszterezés, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók Továbbiakban a konkrét eszközök közül megnézzük a fontosabbakat.

12 Screenshot – EM

13 Asszociációs szabály keresés forrás: Lukács András adatbányászat órája (http://www.sztaki.hu/~alukacs/)http://www.sztaki.hu/~alukacs/

14 Asszociációs szabály keresés 2.

15 Feladat 1. Adathalmaz: FIMI workshop (http://fimi.cs.helsinki.fi/fimi03/)http://fimi.cs.helsinki.fi/fimi03/  RETAIL: (TID, ITEM) séma: klasszikus vásárlói kosár elemzés Keressünk gyakori termékhalmazokat, illetve asszociációs szabályokat. Adatok: Közösen!

16 Feladat 1. - lépések library létrehozása adatfile importálása  sas dataset EM project és diagram létrehozása input data source beállítása statisztikai elemzés: eloszlások (legalább) asszoc. szabályok keresése

17 Input Data Source egy library  sas dataset megfelelője attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához Distribution Explorer

18 Multiplot másik vizualizációs, grafikus adatelemző eszköz automatikus bar chart / scatter plot generálás SAS statisztikai elemző alkalmazása nagy funkcionalitás több ablakos, egymással együttműködő aktív elemekkel rendelkező elemző eszköz Insight

19 Association asszociációs szabály kereső algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy „sequence” bemeneti változó

20 Feladat 2. Adathalmaz: [origo] fórumok hozzászólásai (http://www.origo.hu)http://www.origo.hu séma: (USERID, TOPICNAME) jelentése: 2000-ben (egy egyedi id mögé rejtett) felhasználó mely topic-okhoz szólt hozzá. Melyek a gyakori topic-halmazok, illetve a topicok közti nagy bizonyosságú asszociációs szabályok? Adatok: distinct.xlshttp://scs.web.elte.hu/em/datasets/origo-user-topic distinct.xls Egyénileg megoldani, kérdezni, mindent kipróbálni!

21 Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu)http://body.builder.hu séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Adathalmaz: Magyarország települései (http://ksh.hu)http://ksh.hu séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: importáld az adathalmazokat, majd állapítsd meg alapvető statisztikai jellemzőiket. Adatok:

22 Következő gyakorlat Predikció: döntési fák, neurális hálók, regresszió, egyéb kapcsolódó eszközök Klaszterezés alkalmazott matematikusok: témák megbeszélése ZH: két hét múlva, addig gyakorolni!


Letölteni ppt "SAS Enterprise Miner 1. gyakorlat Sidló Csaba"

Hasonló előadás


Google Hirdetések