SAS Enterprise Miner 2. gyakorlat

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Események formális leírása, műveletek
Ptolemaiosz tétel bizonyítása 1.
Másodfokú egyenlőtlenségek
Programozási feladatok
Szűcs Imre CRM elemző GE Consumer Finance Budapest Bank Rt.
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
Matematika és Tánc Felkészítő tanár: Komáromi Annamária
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Készítette: Zaletnyik Piroska
BME Filozófia és Tudománytörténet Tanszék 1111 Budapest, Egry J.. u. 1. E 610. Dr. Margitay Tihamér 2. nap.
Non-profit szervezetek bevételi szerkezetének elemzése.
Digitális képanalízis
SAS Enterprise Miner 1. gyakorlat
Bayes hálók október 20. Farkas Richárd
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Klaszterező algoritmusok smart city alkalmazásokhoz Gonda László Témavezető: Dr. Ispány Márton.
Halmazok, relációk, függvények
Mesterséges neuronhálózatok
Differenciál számítás
Adatbányászati modellek aggregálása
Regresszióanalízis 10. gyakorlat.
Hierarchikus klaszteranalízis
Új skála – új lehetőségek Egy kis ízelítő. Egységes skála (1)
Kvantitatív módszerek
Az Alakfelismerés és gépi tanulás ELEMEI
Statisztika a szociológiában
Fuzzy rendszerek dr. Szilágyi László.
Textúra elemzés szupport vektor géppel
Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Többváltozós adatelemzés
Alapsokaság (populáció)
A... TANTÁRGY OKTATÁSA KÍSÉRLETI/PROJEKT FORMÁBAN Projekt/kísérlet konkrét címe Név | Tanár neve | Iskola.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1.
Készítette: Hanics Anikó. Az algoritmus elve: Kezdetben legyen n db kék fa, azaz a gráf minden csúcsa egy-egy (egy pontból álló) kék fa, és legyen minden.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
1. MATEMATIKA ELŐADÁS Halmazok, Függvények.
Statisztikai alapfogalmak
Lineáris algebra.
Az informatika logikai alapjai
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
A folytonosság Digitális tananyag.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1. Egyetemi konzulens: dr. Dobrowiecki Tadeusz (BME MIT)
Bevezetés a méréskiértékelésbe (BMETE80ME19)
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Hibaszámítás Gräff József 2014 MechatrSzim.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Génexpressziós chipek mérési eredményeinek biklaszter analízise.
PÁRHUZAMOS ARCHITEKTÚRÁK – 13 INFORMÁCIÓFELDOLGOZÓ HÁLÓZATOK TUDÁS ALAPÚ MODELLEZÉSE Németh Gábor.
Gépi tanulási módszerek
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
Számítógépes Grafika 5. gyakorlat Programtervező informatikus (esti)‏ 2009/2010 őszi félév.
Mesterséges Neurális Hálózatok 3. előadás
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Új skála – új lehetőségek
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Bunkóczi László, Dr.Pitlik László, Pető István, Szűcs Imre
A mesterséges neuronhálók alapjai
Szűcs Imre - Dr. Pitlik László (OTKA T049013)
Előadás másolata:

SAS Enterprise Miner 2. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu

Osztályozás, előrejelzés Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések … célváltozó input Előrejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).

Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhető ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal stb.

Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Előrejelzés Tanuló rendszer modell

Modellépítés Adathalmaz partícionálás: training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)

Döntési fa példa hitelbírálatra (forrás: http://www. cs. bme

Döntési fa szabályok leírása fa formában; belső pontokhoz megfeleltetünk egy vágási feltételt, ami kettő vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy „nagy” fát, majd ezt „visszavágjuk” a megfelelő méretre döntési fa előnye: a felépített modell könnyen értelmezhető

Mesterséges neuronhálózatok ld. : Futó Iván (szerk Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. forrás: Gregorics Tibor http://people.inf.elte.hu/gt/mi/neuron/neuron.pdf többszintű perceptron modell „universal approximator” tulajdonság: tetszőleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni

Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve őket, hogy az előrejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya?

Feladat 1. Adathalmaz: Magyarország települései (http://ksh.hu) séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: építsünk modelleket a települések igazgatási rangjának előrejelzésére a terület, népesség és lakásszám adataik alapján, majd ezeket hasonlítsuk össze, értékeljük. (Az eredmény a gyakorlatban kevéssé hasznos egyébként.) Adatok: http://scs.web.elte.hu/em/datasets/

Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülő elempárok lényegesen hasonlóbbak egymáshoz, mint különböző klaszterek elempárjai. ehhez: megfelelő hasonlósági függvény bevezetése, klaszterezés „jóságának” valamilyen mértéke MI megfelelője: felügyelet nélküli tanulás particionáló klaszterező algoritmusok: adott klaszterezés folyamatos finomításával haladunk előre, amíg az eredmény elég „jó” nem lesz

K-means algoritmus (forrás: Lukács András diái)

Feladat 2. Adathalmaz: Magyarország települései (http://ksh.hu) séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) ksh_telep.xls / ksh_telep.csv Feladat: klaszterezzük Magyarország településeit népesség és lakásszám alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/

Egyéb, nem tárgyalt témák Dimenzió-csökkentés (főleg klaszterezésnél fontos) osztályozás: regresszió; „oversampling” probléma stb. outlier elemek szűrése; hiányzó értékek pótlása stb. modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei mintavételezés profit mátrix modellek egyesítése (ensemble) stb.

Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: építsünk modelleket az ételek kategóriájának előrejelzésére a fehérje, szénhidrát, zsír és energiatartalmuk alapján, majd ezeket hasonlítsuk össze, értékeljük. Adatok: http://scs.web.elte.hu/em/datasets/

Feladat 4. Adathalmaz: Energiatáblázat (http://body.builder.hu) séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) energiatáblázat.xls / energiatáblázat.csv Feladat: klaszterezzük az étel-alapanyagokat fehérje, szénhidrát, zsír és energiatartalom alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/