Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Többváltozós adatelemzés

Hasonló előadás


Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

1 Többváltozós adatelemzés
11. előadás

2 Döntési fák Nem a klasszikus statisztikai módszertan terméke
Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve

3 Döntési fák Meg szoktak különböztetni klasszifikációs és regressziós fákat: Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó

4 Döntési fák A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.

5 Döntési fák A döntési fák módszertana (alapesetben) két részből áll:
Elágaztatás Metszés. Az elágaztatott fák visszametszése

6 Elágaztatás Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén Tisztasági mértékre több mutatószám lehetséges: Ún. Gini index Entrópia Khi-négyzet statisztika Stb …

7 Elágaztatás Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen

8 Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388

9 Elágaztatás Gini növekmény:
0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464

10 Elágaztatás Gini növekmény:
0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637

11 Elágaztatás Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.

12 CRT (CART) algoritmus Classification And Regresion Tree
Az egyik ‘klasszikus’ eljárás Általában bineáris fákat hoz létre Általában a Gini index tisztasági mérték

13 CRT algoritmus

14 CRT algoritmus

15 CRT algoritmus

16 CRT algoritmus Tanuló állomány Teszt állomány

17 CRT algoritmus A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni

18 CRT algoritmus Meddig engedjük nőni a döntési fát?
‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).

19 CRT algoritmus Teszt állomány Tanuló állomány

20 CRT algoritmus

21 CRT algoritmus A fa növekedését nem engedjük bizonyos határon túl nőni: Meg lehet szabni a fa maximális mélységét Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is

22 CRT algoritmus A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).

23 CRT algoritmus Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).

24 CRT algoritmus

25 CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza

26 CRT algoritmus Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.

27 CRT algoritmus

28 CHAID algoritmus Chi-square Automatic Interaction Detector
A CRT algoritmushoz képest sokkal inkább statisztikai alapú A tisztasági mérték itt a Chi négyzet statisztika Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)

29 CHAID algoritmus Folytonos változók:
Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.

30 CHAID algoritmus Diszkrét változók:
A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.

31 CHAID algoritmus Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.

32 CHAID algoritmus

33 Exhaustive CHAID algoritmus
Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.

34 Vágások A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén

35 Vágások Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)

36 Döntési fák A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.


Letölteni ppt "Többváltozós adatelemzés"

Hasonló előadás


Google Hirdetések