Többváltozós adatelemzés

Slides:



Advertisements
Hasonló előadás
Események formális leírása, műveletek
Advertisements

I. előadás.
14. Az infláció kezelésének lehetséges módjai
IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola.
Rangszám statisztikák
SAS Enterprise Miner 2. gyakorlat
Az összehasonlító rendezések
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Valószínűségszámítás és statisztika előadások Gépész-Villamosmérnök szak BSc MANB030, MALB030 Bevezető.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Az Alakfelismerés és gépi tanulás ELEMEI
Nemparaméteres próbák Statisztika II., 5. alkalom.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
STATISZTIKA II. 7. Előadás
Függvények.
Befektetési döntések Bevezetés
Kvantitatív Módszerek
Az elemzés és tervezés módszertana
Gazdaságstatisztika 11. előadás.
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
15. Az inflációs díjemelés és a többlethozam-visszatérítés számítása
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Adatleírás.
Diszkrét változók vizsgálata
HALLGATÓI ELÉGEDETTSÉGI VIZSGÁLATOK A WJLF-EN A es tanév eredményei.
Paleobiológiai módszerek és modellek 4. hét
Kis és nagy iskolák HÉTFA Kutatóintézet és Elemző Központ
Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) II. Hanyecz Lajos.
Statisztikai alapfogalmak
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
A HATÁROZOTT INTEGRÁL FOGALMA
Többdimenziós valószínűségi eloszlások
A számítógépes elemzés alapjai
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
A számítógépes elemzés alapjai
Mesterséges intelligencia
Adatelemzési gyakorlatok
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
Nemparaméteres próbák
Valószínűségi változók együttes eloszlása
Gazdaságinformatika MSc labor
Előadás másolata:

Többváltozós adatelemzés 11. előadás

Döntési fák Nem a klasszikus statisztikai módszertan terméke Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve

Döntési fák Meg szoktak különböztetni klasszifikációs és regressziós fákat: Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó

Döntési fák A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.

Döntési fák A döntési fák módszertana (alapesetben) két részből áll: Elágaztatás Metszés. Az elágaztatott fák visszametszése

Elágaztatás Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén Tisztasági mértékre több mutatószám lehetséges: Ún. Gini index Entrópia Khi-négyzet statisztika Stb …

Elágaztatás Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen

Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388

Elágaztatás Gini növekmény: 0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464

Elágaztatás Gini növekmény: 0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637

Elágaztatás Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.

CRT (CART) algoritmus Classification And Regresion Tree Az egyik ‘klasszikus’ eljárás Általában bineáris fákat hoz létre Általában a Gini index tisztasági mérték

CRT algoritmus

CRT algoritmus

CRT algoritmus

CRT algoritmus Tanuló állomány Teszt állomány

CRT algoritmus A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni

CRT algoritmus Meddig engedjük nőni a döntési fát? ‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).

CRT algoritmus Teszt állomány Tanuló állomány

CRT algoritmus

CRT algoritmus A fa növekedését nem engedjük bizonyos határon túl nőni: Meg lehet szabni a fa maximális mélységét Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is

CRT algoritmus A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).

CRT algoritmus Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).

CRT algoritmus

CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza

CRT algoritmus Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.

CRT algoritmus

CHAID algoritmus Chi-square Automatic Interaction Detector A CRT algoritmushoz képest sokkal inkább statisztikai alapú A tisztasági mérték itt a Chi négyzet statisztika Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)

CHAID algoritmus Folytonos változók: Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.

CHAID algoritmus Diszkrét változók: A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.

CHAID algoritmus Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.

CHAID algoritmus

Exhaustive CHAID algoritmus Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.

Vágások A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén

Vágások Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)

Döntési fák A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.