SAS Enterprise Miner 1. gyakorlat

Slides:



Advertisements
Hasonló előadás
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Advertisements

dr.Cseh Zoltán - Körmendi György SPSS Hungary
Meteorológiai Előrejelzés Adatbányászati Támogatással Putnoki Gyula GTK ISZAM II.évf. Társszerzők: az ISZAM-os Meteor-team TDK-konferencia 2007 Gödöllő.
Data Explorer Kft. Tóth Nándor Ügyvezető.
Szűcs Imre CRM elemző GE Consumer Finance Budapest Bank Rt.
SPSS újdonságok, oktatás, support
Adatbányászat a kontrollingban
SQL Server 2005 Reporting Services a gyakorlatban
2 Forrás: The Standish Group International, Extreme Chaos, The Standish Group International, Inc., 2000.
Digitális képanalízis
PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
SAS Enterprise Miner 2. gyakorlat
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Rangsorolás tanulása ápr. 24..
Adatbányászat. Miért kell menedzselni a tudást és az adatokat? Az adatok mennyisége folyamatosan nő Az elektronikus dokumentáltság növeli az átláthatatlan.
2006. július 11.SAS Felsőoktatási Fórum1 Adatbányászat oktatása a SAS rendszerrel a Debreceni Egyetemen Ispány Márton DE, Informatikai Kar.
Korszerű eszközök a vállalati információ- és tudásmenedzsmentben
Mesterséges neuronhálózatok
Entity framework Krizsán Zoltán
Üzleti intelligencia Kecskemét 2007 ősz. BI Business Intelligence Üzleti Intelligencia Bevételnövelő és költségcsökkentő lehetőségek feltárása, döntéstámogatás.
SQL Server 2005 Reporting Services Kószó Károly rendszermérnök Microsoft Magyarország.
Adatbányászati modellek aggregálása
Webbányászat (web mining) Mártonffy A: Kutakodom, tehát vagyok cikke nyomán.
SPSS bevezetés.
Vállalati pénzügyek Nemzetgazdasági információk, adatok gyűjtése.
Objektum Vezérelt Szoftverek Analízise Ferenc Rudolf és Beszédes Árpád Szegedi Tudományegyetem FrontEndART.
ISMERETALAPÚ RENDSZEREK SZAKÉRTŐ RENDSZEREK
Adattár alapú Vezetői Információs Rendszer (AVIR)
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Szaktanácsadás SQL Server UpgradeTeljesítményoptimalizálás Replikáció kialakítás Disaster Recovery tervezés.NET Framework alapú fejlesztések.
Szakértők és rendszerek
Statisztika a szociológiában
Az ASP.NET programozási modell Ez az előadó neve beosztása vállalata.
Adatbázisrendszerek jövője
 mesterséges intelligencián alapuló szoftver rendszer  a felhasználó által szolgáltatott adatok alapján képes viszonylag bonyolult problémákat megoldani,
Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Adatbányászat és üzleti intelligencia SPSS – MicroStrategy integráció
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Idősor karaktersorozatként való vizsgálata – SAX algoritmus Szabó Dániel Konzulens: dr. Dobrowiecki Tadeusz Önálló Labor előadás december 12.
1 Verseny 2000 gyakorlat ODBC Adatforrás létrehozása.
Fontos információk.
Adatbázis rendszerek I Relációs adatmodell strukturális része Általános Informatikai Tsz. Dr. Kovács László.
A Microsoft Üzleti Intelligencia megoldása és platformja
Iskola-egészségügyi Konferencia augusztus Informatikai lehetőségek az iskola/ifjúság-egészségügyi munkában Wenhard Andrea egészségügyi szakközgaszdász.
Adatbányászat Excel 2007-tel
Machine Learning, Hálózatelemzés
HTML ÉS PHP (Nagyon) rövid áttekintés. ADATBÁZISRENDSZEREK MŰKÖDÉSI SÉMÁJA Felh. interakció DB Connector MySQL ? A gyakorlaton:
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Adattár alapú Vezetői Információs Rendszer (AVIR) Fejérvári Bence március 26.
Oktatáskutató és Fejlesztő Intézet 1051 Budapest, Dorottya u Az ökoiskolák előtt álló jelenlegi kihívások és a lehetséges válaszlehetőségek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Haladó C++ Programozás SzJ/IV
Palotás Ádám és Fodor Gergely Oracle Data Integrator Bemutató és gyakorlat
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
Nagy Regina Az információkat tartalmazó interaktív eszközökre, mint félkész termékekre kell tekintenünk, amiből a felhasználó saját.
Mesterséges Neurális Hálózatok 3. előadás
BIRDIE Business Information Reporter and Datalyser Előadó: Schneidler József.
UML használata a fejlesztésben, illetve a Visual Studio 2010-ben
SAS Base bevezetés Csicsman József
„Big Data” elemzési módszerek
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Navigáció az Interneten:
Szűcs Imre - Dr. Pitlik László (OTKA T049013)
Előadás másolata:

SAS Enterprise Miner 1. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu

SAS Enterprise Miner adatbányászati eszközkészlet, SAS keretrendszeren belül témák (két gyakorlatra): adatbányászat fogalma, feladatai Miner általános funkciói, felépítése adatbányászati eszközkészlet feltérképezése feladatmegoldás: asszociációs szabály keresés előrejelzés (osztályozás) klaszterezés

Adatbányászat SAS: „advanced methods for exploring and modelling relationships in large amounts of data” Jiawei Han: „a tudás nagy mennyiségű adatból történő kinyerése, kibányászása” Jeffrey D. Ullman: „discovery of useful summaries of data”

Adatbányászat 2. Irodalom: Jiawei Han, Micheline Kamber: Adatbányászat – Koncepciók és technikák (PANEM, 2004 – ld. jegyzetbolt) Bodon Ferenc magyar nyelvű jegyzete: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/ Ullman: http://www-db.stanford.edu/~ullman/cs345-notes.html Iványi Antal (szerk): Informatikai algoritmusok II. (ld. jegyzetbolt, de még megjelenés előtt áll): klaszterezés, gyakori termékhalmaz kereséss SAS help + weben elérhető anyagok (érdemes keresni)

Adatbányászat 3. „Multidiszciplinális” tudományág: Statics Pattern Recognition Neurocomputing Data Mining Machine Learning AI Databases KDD

Adatbányászat - feladatok gyakori minták kinyerése asszociációs szabályok keresése, gyakori elemhalmazok keresése, epizódkutatás, … előrejelzés és osztályozás ellenőrzött tanulás (supervised learning), predikció, klasszifikáció, … klaszterezés halmaz elemeinek csoportokba sorolása, valamely hasonlósági / távolsági függvény alapján; felügyelet nélküli tanulás (unsupervised learning) + egyéb speciális feladatok, eltérő megfogalmazások

Enterprise Miner vs. egyéb adatbányász eszközök forrás: http://www.metagroup.com/webhost/ONLINE/477658/60.1marketsummary.pdf Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1!) SPSS Clementine SAP (adattárház integráció!) stb.

Enterprise Miner vs. egyéb adatbányász eszközök

EM használata Project fogalma Diagram fogalma SAS Base – SAS Enterprise Miner kapcsolata input: SAS Datasets output: beszámolók, valamint modellek hordozható formában: C kód, SAS kód cél: az adott eszközök használatával diagramok építése, aminek segítségével a rejtett tudás kinyerhető ehhez szükséges: az adatok, a feladat, a szakterület és az eszközök ismerete nem feltétlenül szükséges: megoldó algoritmusok ismerete

SEMMA SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelően. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemző eszközök, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelőkészítés elemzéshez, outlier-ek, hiányzó értékek, klaszterezés, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók Továbbiakban a konkrét eszközök közül megnézzük a fontosabbakat.

Screenshot – EM

Asszociációs szabály keresés forrás: Lukács András adatbányászat órája (http://www.sztaki.hu/~alukacs/)

Asszociációs szabály keresés 2.

Feladat 1. Adathalmaz: FIMI workshop 2003. (http://fimi.cs.helsinki.fi/fimi03/)  RETAIL: (TID, ITEM) séma: klasszikus vásárlói kosár elemzés Keressünk gyakori termékhalmazokat, illetve asszociációs szabályokat. Adatok: http://scs.web.elte.hu/em/datasets/retail_td.dat Közösen!

Feladat 1. - lépések library létrehozása adatfile importálása  sas dataset EM project és diagram létrehozása input data source beállítása statisztikai elemzés: eloszlások (legalább) asszoc. szabályok keresése

Distribution Explorer Input Data Source egy library  sas dataset megfelelője attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) Distribution Explorer vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához

Multiplot Insight másik vizualizációs, grafikus adatelemző eszköz automatikus bar chart / scatter plot generálás Insight SAS statisztikai elemző alkalmazása nagy funkcionalitás több ablakos, egymással együttműködő aktív elemekkel rendelkező elemző eszköz

Association asszociációs szabály kereső algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy „sequence” bemeneti változó

Feladat 2. Adathalmaz: [origo] fórumok hozzászólásai (http://www.origo.hu) séma: (USERID, TOPICNAME) jelentése: 2000-ben (egy egyedi id mögé rejtett) felhasználó mely topic-okhoz szólt hozzá. Melyek a gyakori topic-halmazok, illetve a topicok közti nagy bizonyosságú asszociációs szabályok? Adatok: http://scs.web.elte.hu/em/datasets/origo-user-topic-2000-distinct.xls Egyénileg megoldani, kérdezni, mindent kipróbálni!

Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Adathalmaz: Magyarország települései (http://ksh.hu) séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: importáld az adathalmazokat, majd állapítsd meg alapvető statisztikai jellemzőiket. Adatok: http://scs.web.elte.hu/em/datasets/

Következő gyakorlat Predikció: döntési fák, neurális hálók, regresszió, egyéb kapcsolódó eszközök Klaszterezés alkalmazott matematikusok: témák megbeszélése ZH: két hét múlva, addig gyakorolni!