Többváltozós adatelemzés 12. előadás
Regresszió fák Regressziós fák elmélete nagyban hasonlít a klasszifikációs fák elméletéhez, itt azonban az eredményváltozó egy legalább intervallum szinten mért folytonos változó. A tisztasági mérték általában az átlagos négyzetes eltérés szokott lenni az algoritmusok esetében
CRT algoritmus A tisztasági mérték az átlagos négyzetes eltérés A fa növesztésére és a metszéshez is ezt használja
CRT algoritmus
CRT algoritmus
CHAID algoritmus CHAID algoritmus esetén nem függtelenséget tesztel, hanem ANOVA tesztet használ, mind a kategóriák egyesítésénél, mind pedig elágaztatáskor.
CHAID algoritmus
Egyéb algoritmusok Diszkriminancia elemzés Boosting Neurális hálók Kohonen hálók (Self Organizing Map, SOM) Neurális főkomponens elemzés Support Vector Machine (SVM)
Diszkriminancia elemzés Klasszikus statisztikai eljárás Szigorú előfeltevései vannak Eredményváltozó kategória változó Magyarázó változók legalább intervallum szinten mért változók Sajátérték feladat Lineáris modellt feltételez
Boosting Adott egy egyszerű osztályozó Hogyan lehetne feljavítani az osztályozó jóságát? Az egyszerű osztályozót egymás után alkalmazom többször. Az egyik modell végeredménye a következő bemenete. Azok a megfigyelések, amiket nem jól sorol be a modell nagyobb súlyt kapnak, amiket jól sorol be kisebbet
Boosting A végső osztályozás az összes addigi osztályozás lineáris kombinációja A boosting algoritmus segítségével egyszerű osztályozók segítségével is le lehet írni bonyolult összefüggéseket. A boosting algoritmus során az egyszerű osztályozó lehet pl. döntési fa is.
Boosting http://www.cse.ucsd.edu/~yfreund/adaboost/index.html
Neurális hálók Forrás:http://en.wikipedia.org/wiki/Image:Artificial_neural_network.svg
Neurális hálók ‘Fekete doboz’ eljárás Csak a végeredmény ismert, kevés mutatószám áll rendelkezésre Bonyolult, de determinisztikus kapcsolatok esetén jól teljesít (mérnöki tudományokban jól használható) Sztochasztikus kapcsolatok esetén a teljesítménye nem annyira vonzó Mostanában szövegfelismerési feladatokra szokták sikeresen alkalmazni
Kohonen hálók Neurális háló alapú klaszterező eljárás Nem kizárólag klaszterező eljárás Érdekesség, hogy nincs eredményváltozó K*N-es hálót hoz létre, aminek a csúcspontjai reprezentálják a klaszterközepeket
Kohonen hálók Minden megfigyelést hozzárendel a legközelebbi klaszterközéphez. Amennyiben nem pontos az illeszkedés a klaszterközepet elmozdítja a pont irányába. A Kohonen háló specialitása, hogy nem csak a legközelebbi klaszterközép értéket módosítja, hanem a szomszédságba tartozókét is.
Kohonen hálók http://www.sund.de/netze/applets/som/som1/index.htm
Neurális főkomponens elemzés Az ‘Input’ és ‘Output layer’ megegyezik, a közbülső réteg viszont kevesebb neuront tartalmaz, mint az első és utolsó Attól függően, hogy a középső réteg hány neuront tartalmaz lehet szabályozni a megőrzött információ nagyságát A neuronok esetén lehet nemlineáris transzformáció is.
Support Vector Machine (SVM) Az egyik legújabb ‘trónkövetelő’ A versenyeket általában valamilyen SVM algoritmussal szokták nyerni Az alapötlet az, hogy úgy különítsük el a csoportokat, hogy a köztük lévő ‘mezsgye’ a lehető legszélesebb legyen
Support Vector Machine (SVM) Forrás:http://en.wikipedia.org/wiki/Image:Svm_max_sep_hyperplane_with_margin.png
Support Vector Machine (SVM) http://tsubaki.csce.kyushu-u.ac.jp/~norikazu/research.ja.html