Többváltozós adatelemzés

Többváltozós adatelemzés
11. előadás

Döntési fák Nem a klasszikus statisztikai módszertan terméke
Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve

Döntési fák Meg szoktak különböztetni klasszifikációs és regressziós fákat: Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó

Döntési fák A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.

Döntési fák A döntési fák módszertana (alapesetben) két részből áll:
Elágaztatás Metszés. Az elágaztatott fák visszametszése

Elágaztatás Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén Tisztasági mértékre több mutatószám lehetséges: Ún. Gini index Entrópia Khi-négyzet statisztika Stb …

Elágaztatás Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen

Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388

Elágaztatás Gini növekmény:
0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464

Elágaztatás Gini növekmény:
0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637

Elágaztatás Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.

CRT (CART) algoritmus Classification And Regresion Tree
Az egyik ‘klasszikus’ eljárás Általában bineáris fákat hoz létre Általában a Gini index tisztasági mérték

CRT algoritmus

CRT algoritmus Tanuló állomány Teszt állomány

CRT algoritmus A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni

CRT algoritmus Meddig engedjük nőni a döntési fát?
‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).

CRT algoritmus Teszt állomány Tanuló állomány

CRT algoritmus

CRT algoritmus A fa növekedését nem engedjük bizonyos határon túl nőni: Meg lehet szabni a fa maximális mélységét Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is

CRT algoritmus A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).

CRT algoritmus Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).

CRT algoritmus

CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza

CRT algoritmus Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.

CRT algoritmus

CHAID algoritmus Chi-square Automatic Interaction Detector
A CRT algoritmushoz képest sokkal inkább statisztikai alapú A tisztasági mérték itt a Chi négyzet statisztika Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)

CHAID algoritmus Folytonos változók:
Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.

CHAID algoritmus Diszkrét változók:
A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.

CHAID algoritmus Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.

CHAID algoritmus

Exhaustive CHAID algoritmus
Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.

Vágások A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén

Vágások Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)

Döntési fák A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés