Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Többváltozós adatelemzés
11. előadás
2
Döntési fák Nem a klasszikus statisztikai módszertan terméke
Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve
3
Döntési fák Meg szoktak különböztetni klasszifikációs és regressziós fákat: Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó
4
Döntési fák A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.
5
Döntési fák A döntési fák módszertana (alapesetben) két részből áll:
Elágaztatás Metszés. Az elágaztatott fák visszametszése
6
Elágaztatás Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén Tisztasági mértékre több mutatószám lehetséges: Ún. Gini index Entrópia Khi-négyzet statisztika Stb …
7
Elágaztatás Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen
8
Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388
9
Elágaztatás Gini növekmény:
0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464
10
Elágaztatás Gini növekmény:
0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637
11
Elágaztatás Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.
12
CRT (CART) algoritmus Classification And Regresion Tree
Az egyik ‘klasszikus’ eljárás Általában bineáris fákat hoz létre Általában a Gini index tisztasági mérték
13
CRT algoritmus
14
CRT algoritmus
15
CRT algoritmus
16
CRT algoritmus Tanuló állomány Teszt állomány
17
CRT algoritmus A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni
18
CRT algoritmus Meddig engedjük nőni a döntési fát?
‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).
19
CRT algoritmus Teszt állomány Tanuló állomány
20
CRT algoritmus
21
CRT algoritmus A fa növekedését nem engedjük bizonyos határon túl nőni: Meg lehet szabni a fa maximális mélységét Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is
22
CRT algoritmus A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).
23
CRT algoritmus Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).
24
CRT algoritmus
25
CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza
26
CRT algoritmus Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.
27
CRT algoritmus
28
CHAID algoritmus Chi-square Automatic Interaction Detector
A CRT algoritmushoz képest sokkal inkább statisztikai alapú A tisztasági mérték itt a Chi négyzet statisztika Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)
29
CHAID algoritmus Folytonos változók:
Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.
30
CHAID algoritmus Diszkrét változók:
A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.
31
CHAID algoritmus Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.
32
CHAID algoritmus
33
Exhaustive CHAID algoritmus
Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.
34
Vágások A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén
35
Vágások Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)
36
Döntési fák A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.