Többváltozós adatelemzés 11. előadás
Döntési fák Nem a klasszikus statisztikai módszertan terméke Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve
Döntési fák Meg szoktak különböztetni klasszifikációs és regressziós fákat: Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó
Döntési fák A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.
Döntési fák A döntési fák módszertana (alapesetben) két részből áll: Elágaztatás Metszés. Az elágaztatott fák visszametszése
Elágaztatás Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén Tisztasági mértékre több mutatószám lehetséges: Ún. Gini index Entrópia Khi-négyzet statisztika Stb …
Elágaztatás Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen
Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388
Elágaztatás Gini növekmény: 0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464
Elágaztatás Gini növekmény: 0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637
Elágaztatás Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.
CRT (CART) algoritmus Classification And Regresion Tree Az egyik ‘klasszikus’ eljárás Általában bineáris fákat hoz létre Általában a Gini index tisztasági mérték
CRT algoritmus
CRT algoritmus
CRT algoritmus
CRT algoritmus Tanuló állomány Teszt állomány
CRT algoritmus A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni
CRT algoritmus Meddig engedjük nőni a döntési fát? ‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).
CRT algoritmus Teszt állomány Tanuló állomány
CRT algoritmus
CRT algoritmus A fa növekedését nem engedjük bizonyos határon túl nőni: Meg lehet szabni a fa maximális mélységét Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is
CRT algoritmus A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).
CRT algoritmus Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).
CRT algoritmus
CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza
CRT algoritmus Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.
CRT algoritmus
CHAID algoritmus Chi-square Automatic Interaction Detector A CRT algoritmushoz képest sokkal inkább statisztikai alapú A tisztasági mérték itt a Chi négyzet statisztika Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)
CHAID algoritmus Folytonos változók: Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.
CHAID algoritmus Diszkrét változók: A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.
CHAID algoritmus Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.
CHAID algoritmus
Exhaustive CHAID algoritmus Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.
Vágások A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén
Vágások Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)
Döntési fák A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.