2006. július 11.SAS Felsőoktatási Fórum1 Adatbányászat oktatása a SAS rendszerrel a Debreceni Egyetemen Ispány Márton DE, Informatikai Kar
2006. július 11.SAS Felsőoktatási Fórum2 Az előadás vázlata A Debreceni Egyetem és a SAS Rövid történeti áttekintés A SAS ma a Debreceni Egyetemen Mi és hogyan érhető el a SAS-ból? SAS az oktatásban Karok, tárgyak, hallgatók Az adatbányászat oktatása Mit, hogyan és főként miért SAS-sal oktassunk?
2006. július 11.SAS Felsőoktatási Fórum3 A kapcsolat főbb állomásai SAS 6.04, 1992: az első SAS (5.25” disk) Modulok: STAT,GRAPH,ETS,FSP,OR,AF,IML,QC Bécs, 1992: az első SEUGI SAS 6.08, 1994: +ACCESS, ASSIST, LAB (3.5” disk) SAS 6.11, 1996: új média - CD Egyetemi program: SAS 8, Analitikai és információtechnológiai modulok, Enterprise Miner, Risk Dimension, CFO Vision Konferencia és szakképzési támogatások
2006. július 11.SAS Felsőoktatási Fórum4 SAS a Debreceni Egyetemen, 2006 Egyetemi program: 1000 munkaállomás Modulok: BASE, GRAPH, ETS, FSP, AF, OR, IML, SHARE, QC, STAT, EM Server, EM Thin Client, CONNECT, OLE DB, EIS, Enterprise Miner for Text, PC File Formats, ODBC, SHARE*NET, IntrNet Compute Services, Enterprise Miner, MDDB Server common products, AppDev Studio, Integration Technologies Operációs rendszerek: WINDOWS, LINUX, AIX, SOLARIS Helyi képviselő Hallgatóknak Student-verzió
2006. július 11.SAS Felsőoktatási Fórum5 SAS az oktatásban Informatikai Kar Komputerstatisztika Adatbányászat Statisztika II. Közgazdaságtudományi Kar Döntéstámogatási rendszerek SAS üzleti intelligencia Többváltozós statisztika Agrártudományi Centrum Agrárinformatika
2006. július 11.SAS Felsőoktatási Fórum6 Enterprise Guide Első ismerkedés a SAS rendszerrel A SAS alapfogalmai Oktatható tárgyak: Statisztika, Gazdaságstatisztika, SAS Üzleti Intelligencia, Többváltozós statisztika Használat: előadás (projektoros bemutató) szeminárium (önálló gyakorlati munka) Tapasztalatok Pozitív: magyar nyelv, jó menü, HTML output Negatív: pár fontos, oktatandó próba hiánya
2006. július 11.SAS Felsőoktatási Fórum7 Adatbányászat Tárgya: nagyméretű adatállományok feldolgozása Célja: korábban nem ismert, nem triviális és potenciálisan hasznos információ Eszköze: haladott matematikai, statisztikai és mesterséges intelligencia modellek Módja: automatikus vagy félig automatikus
2006. július 11.SAS Felsőoktatási Fórum8 Miért aktuális? Piaci igény adatbázisrendszerek üzleti intelligencia Standardizálódás IBM, Microsoft, Oracle Corporation, SAP, SAS, Salford Systems, StatSoft Független szervezetek ACM SIGKDD, DMG Projektek és konzorciumok PMML, JDMAPI, XMLA Elérhető és használható szoftver (egyetemi program)
2006. július 11.SAS Felsőoktatási Fórum9 Az oktatás feltételei Kiknek oktassuk? Alkalmazott matematikus Közgazdász Programtervező informatikus Ki oktasson? matematikus, informatikus, közgazdász Hogyan oktassunk? Előfeltételek: informatika, matematika Technikai feltételek: jegyzet, labor, szoftver
2006. július 11.SAS Felsőoktatási Fórum10 Egy félév vázlata Bevezetés + példák Az adatbányászat definíciója Az 5 lépcsős folyamat (SEMMA) Adatbányászati feladatok. Felügyelt: osztályozás, becslés és előrejelzés Nemfelügyelt: társítás, csoportosítás és leírás Kiértékelés statisztikai mutatók: ASE, RMSE, AIC, BIC grafikus eszközök: lift-görbe, ROI-görbe
2006. július 11.SAS Felsőoktatási Fórum11 Adatbányászati modellek I. Lineáris és logisztikus regresszió (REG) Döntési fák (Tree) Neurális hálók (Neural Network) Vásárlói kosár elemzés (Association) Automatikus klaszterezés (Clustering) Legközelebbi társ módszer (Memory-Based Reasoning) Példák: SPAM, HP, Palo Alto, ftp.ics.uci.edu California Housing, STATLIB ftp.ics.uci.edu
2006. július 11.SAS Felsőoktatási Fórum12 Adatbányászati modellek II. Kohonen-féle leképezések (SOM-Kohonen) Genetikus algoritmusok (IML Workshop) Kapcsolat elemzés (link-analysis) Support Vector Machines (nem támogatott) Ensemble modellek (bagging, boosting) Szövegbányászat (Parsing, SVD, EM-Clustering) Web-bányászat (link-analysis, Webhound) Idősorok (Time Series)
2006. július 11.SAS Felsőoktatási Fórum13 Enterprise Miner Könnyen használható grafikus felület Jó alapbeállítások Teljes adatbányászati eszköztár Integráltság (külső SAS kódok) Nyitottság (pl. HTML output)
2006. július 11.SAS Felsőoktatási Fórum14 Általános tapasztalatok Népszerű tárgy, de a hallgatók nincsenek tisztában a tárgy összetettségével Következmény: lemorzsolódás Fontos a könnyen használható szoftver Gyakorlati példák, valós adatállományok Nincs királyi út!