IBM SPSS Statistics Regressziós elemzések

Slides:



Advertisements
Hasonló előadás
IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola.
Advertisements

ADATSZERZÉS, INFORMÁCIÓ HASZNOSULÁS Biztonságtudatos vállalati kultúra Készítette: Jasenszky Nándor egyetemi szakoktató NKE NBI TEH tanszék.
Országos Kompetencia Mérés 2009 Bródy Imre Gimnázium, Szakközépiskola Készítette: Jákliné Tilhof Ágnes.
Lorem ipsum dolor sit amet, consectetur Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore Közlekedési.
Aktualitások és változások a pedagógiai szakszolgálati feladatellátásban 2016 őszén 1.
Történelmi bázisjogosultságok Szerletics Ákos Mezőgazdasági és Vidékfejlesztési Hivatal október 18.
Demográfiai, iskolázási folyamatok és munkaerő kínálat Opponáló gondolatok Hablicsek László és Kutas János zárótanulmányához Készítette: Dr.
Egységes, központi elektronikus nyilvántartás jön létre a korábbi széttagolt, és egymással nem kompatibilis, adathiányos korszerűtlen nyilvántartások.
A vállalatok marketingtevékenysége és a Magyar Marketing Szövetség megítélése Kutatási eredmények az MMSZ részére (2008. július)
Paraméteres próbák- konzultáció október 21..
1 Számvitel alapjai Gazdálkodás:a társadalmi újratermelési folyamat szakaszainak (termelés, forgalom, elosztás, fogyasztás) megszervezésére, az ahhoz rendelkezésre.
A székesfehérvári fiatalok helyzete
Import és Export a résztvevő 10 országban
Valószínűségi kísérletek
Merre tovább magyar mezőgazdaság?
1Transzplantációs Alapítvány
Leíró statisztika Becslés
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
Esélyek a munkaerőpiacon
Beck Róbert Fizikus PhD hallgató
Lineáris regresszió Adatelemzés.
A közigazgatással foglalkozó tudományok

videós team Team vezetője: Tariné Péter Judit Tagok:
Öröklési szerződés és Köteles rész
Egy üzemben sok gyártósoron gyártanak egy bizonyos elektronikai alkatrészt. Az alkatrészek ellenállását időnként ellenőrzik úgy, hogy egy munkás odamegy.
Bértárgyalási alternatívák 2010-re
Az aktív korúak ellátására való jogosultság megállapítása
Kockázat és megbízhatóság
Vörös-Gubicza Zsanett képzési referens MKIK
Korrelációszámítás.
Kockázat és megbízhatóság
Szervezetfejlesztés II. előadás
Kvantitatív módszerek
Környezeti teljesítményértékelés
Hipotézisvizsgálat.
Nemparaméteres próbák 2.
Piaci kockázat tőkekövetelménye
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Összefüggés vizsgálatok
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Kvantitatív módszerek
SZÁMVITEL Dr. Ormos Mihály egyetemi tanár
Kvantitatív módszerek
Business Mathematics
Regressziós modellek Regressziószámítás.
STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság
CONTROLLING ÉS TELJESÍTMÉNYMENEDZSMENT DEBRECENI EGYETEM
Sztochasztikus kapcsolatok I. Asszociáció
Nyíregyházi Egyetem, Műszaki és Agrártudományi Intézet Jármű- és mezőgazdasági Géptani tanszék A ventilátoros permetezőgép üzemeltetési jellemzőinek.
A villamos installáció problémái a tűzvédelem szempontjából
Dr. Varga Beatrix egy. docens
Új pályainformációs eszközök - filmek
Matematikai statisztika előadó: Ketskeméty László
Szabványok, normák, ami az ÉMI minősítési rendszerei mögött van
Tájékoztatás a évi Országos Statisztikai Adatfelvételi Program (OSAP) teljesüléséről az Országos Statisztikai Tanács és a Nemzeti Statisztikai Koordinációs.
Területi egyenlőtlenségek összetettebb mérése: Gini együttható
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
Dr. Varga Beatrix egyetemi docens
Foglalkoztatási és Szociális Hivatal
Binomiális fák elmélete
KRÉTA-ESL Bemutató.
Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus
Autós - Motoros Iskola, Kiskőrös, Martini u. 1
KOHÉZIÓS POLITIKA A POLGÁROK SZOLGÁLATÁBAN
Területi egyenlőtlenségek összetettebb mérése: Gini együttható
Az aktív korúak ellátására való jogosultság megállapítása
Üzlezi információelemző specializió
Előadás másolata:

IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola

Mintaelemzések Adott gépkocsik egy halmazának adatrendszere: Összesen 406 gépkocsi műszaki és egyéb paramétereit tartalmazza. A gépjárműveket USA-ban, Európában és Japánban gyártották a 70-es, 80-as években. A gépkocsik fogyasztásának, súlyának, gyorsulásának, lökettérfogatának, teljesítményének és hengerszámának adatait foglalja magában.

Az adatmátrix változói mpg hány mérföldet tesz meg egy gallonnal? engine lökettérfogat (köbinch-ben kifejezve) horse lóerő weight a gépjármű súlya (fontban) accel hány másodperc alatt gyorsul fel 60 mérföld/óra sebességre? year a gyártás éve: 19.. origin a származás helye cylinder hengerek száma

Keressünk kapcsolatokat a változók között! Lineáris kapcsolatot súly és a lökettérfogat között Többváltozós lineáris kapcsolatot a fogyasztás és az összes többi változó között Nemlineáris kapcsolatot a lóerő és a fogyasztás között

Regressziós kapcsolat keresése változók között

Szóródási grafikonok

Kapcsolat a súly és lökettérfogat között

Kapcsolat a súly és lökettérfogat között Gyártóhelyek szerint más-más lineáris kapcsolat van!

A kétváltozós regresszió eredményei Amerika

A kétváltozós regresszió eredményei Európa

A kétváltozós regresszió eredményei Japán

Futtassunk le egy többváltozós lineáris regressziós elemzést. Célváltozó a fogyasztás (mpg) legyen, míg a magyarázó változók: lökettérfogat (engine), gyorsulás (accel), teljesítmény (horse) és a súly (weight).

A többváltozós lineáris regresszió eredménye

A többváltozós lineáris regresszió eredménye

A többváltozós lineáris regresszió eredménye STEPWISE-modellépítéssel

A többváltozós lineáris regresszió eredménye

A többváltozós lineáris regresszió eredménye

A többváltozós lineáris regresszió eredménye

Mi hogyan befolyásolja a várható élettartamot? Országok adatait tartalmazó adatállományt (world95.sav) felhasználva keressünk kapcsolatot a férfiak várható élettartama és bizonyos a gazdasági/szociális állapotokat jelemző változók között! Y a célváltozó most a lifeexpm, azaz a férfiak várható élettartama A magyarázó változók: népsűrűség, városiasodás foka, kalória-felvétel, gdp, terméshozam, gyerekhalandóság, olvasottsági szint, születési ráta, halálozási ráta, népességnövekedés, egy családra eső gyerekszám.

A beállított automatikus modellépítés a FORWARD volt, ami a változók listájáról addig vesz be változókat, amíg tud javítani az illesztésen. Három változót vett be: gyerekhalandóság, halálozási ráta, kalóriafelvétel.

A három változó segítségével már 97%-os magyarázóerőt lehetett elérni

Mindhárom modell (tehát már az egyváltozós is) elfogadható lenne.

Az első két változónak negatív, a kalóriafelvételnek pozitív az együtthatója.

Keressünk nemlineáris kapcsolatot a cars.sav változói között!

Szóródási grafikonok

Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa többváltozós lineáris regresszióra Adjunk többváltozós lineáris elemzést a dolgozó fizetésére, a magyarázó változók a kezdőfizetés (salbegin), az alkalmazás ideje (jobtime) és a dolgozó kora (age) legyen!

Példa többváltozós lineáris regresszióra A dolgozó kora eredetileg nem szerepelt a változók listáján. Úgy képeztük, hogy a születési dátumból az év adatot levontuk az állomány keletkezésének évéből!

Példa többváltozós lineáris regresszióra

Példa többváltozós lineáris regresszióra Új változót hoztunk létre a dolgozó korával

Példa többváltozós lineáris regresszióra A konstans szerepe elhanyagolható a modellben.

Bináris logisztikus regresszió Egy bank kölcsönkihelyezésért felelős vezetője alkalmas bináris logisztikus regressziós modellel kívánja tanulmányozni a bank 700 jelenlegi ügyfelének rendelkezésre álló adatait abból a célból, hogy 150 új kölcsönért folyamodó potenciális ügyfél kérelmét minél megalapozottabban bírálhassa el. Az adatok a bankloan.sav adatmátrixban vannak.

Bináris logisztikus regresszió age (ügyfél életkora), ed (ügyfél iskolázottsága), employ (ügyfél hány éve van alkalmazásban jelenlegi munkaadójánál), address (ügyfél jelenlegi lakcíme), income (ügyfél háztartásának évi jövedelme ezer USD-ban), debtinc (ügyfél által felvett hitel aránya a jövedelméhez), creddebt (ügyfél hitelkártya tartozása ezer USD-ban), othdebt (ügyfél egyéb tartozása ezer USD-ban), default (ügyfél korábban megtagadta-e már a törlesztést).

Bináris logisztikus regresszió Az iskolai végzettség (ed) egy ötfokozatú ordinális változó, A bedőlés (default) egy bináris változó (ez a célváltozónk)

Az adatmátrix első 22 esete

Bináris logisztikus regresszió A default változónak csak az első 700 esetben vannak értékei, hiszen a bank számára csak a jelenlegi ügyfelek esetében ismert, hogy korábban megtagadták-e már valamikor az aktuális törlesztésüket. Az elemzés célja, hogy a 150 új kölcsönért folyamodó potenciális ügyfélhez megalapozottan hozzárendelhessük a default változó várható értékeit. A módszerünk az lesz, hogy a 700 jelenlegi ügyfélből veszünk egy kb. 70%-os véletlen tanító (Training) részmintát (kb. 490 főt) és – miután a modellt a maradék kb. 30%-os Holdout részminta alapján validáltuk (érvényesítettük) - az így kapott a bináris logisztikus regressziós modellt alkalmazzuk a 150 új kölcsönért folyamodó potenciális ügyfélre, megtippelve azt, hogy problémás vagy megbízható ügyfél lesz-e.

Bináris logisztikus regresszió Hozzunk létre egy olyan particionáló változót, amely a 700 jelenlegi ügyfél kb. 70%-ához 1 kódot rendel, a maradék kb. 30%-hoz pedig 0 kódot rendel , a 150 új kölcsönért folyamodó potenciális ügyfélhez pedig nem rendel értéket!

Bináris logisztikus regresszió A művelet eredménye: A régi ügyfelek 69.9%-a 1-es, 30.1%-a 0-ás kódot kapott! Az 1-esek lesznek a tanuló (training), a 0-ások lesznek a ellenőrző (holdout) részminta elemei. A 150 új ügyfél nem kapott kódot!

Bináris logisztikus regresszió

Bináris logisztikus regresszió

Bináris logisztikus regresszió

Bináris logisztikus regresszió Classification Table táblázat legalsó sora az iterációs eljárás 4. lépésének eredményét mutatja. A táblázatban az „Observed” értékek a ténylegesen megfigyelt No és Yes adatok, míg a „Predicted” értékek akkor kerülnek a Yes kategóriába, ha a modellből becsült rájuk vonatkozó nem-fizetési valószínűség nagyobb az alkalmazott vágási szintnél (most ez 0,5-ös). Ha a modellből becsült nem-fizetési valószínűség kisebb a vágási szintnél, a „Predicted” értékek értelemszerűen a No kategóriába kerülnek. A Selected Cases oszlop felel meg a Training részmintából felépített modellnek, míg az Unselected Cases oszlop a Holdout részminta alapján validált végső modellnek felel meg.

Bináris logisztikus regresszió Érdekesség, hogy a kor (age), jövedelem (income), iskolai végzettség (ed) és az egyéb hiteltartozás (othdebt) nem került be a magyarázó változók közé!

Bináris logisztikus regresszió A Hosmer-Lemeshow goodness-of-fit statistic bináris klasszifikációs modelleknek a mért adatokhoz történő illeszkedésének a vizsgálatára alkalmas robusztus statisztika. Mivel itt az a nullhipotézis, hogy a modell nem illeszkedik a mért adatokhoz, Sig. (p) 0,05 alatti értékei esetén lenne a modell elfogadhatatlan. Esetünkben azonban a szignifikancia szintje a negyedik lépésben .155, ami azt jelenti, hogy az illeszkedés még megfelelőnek tekinthető.

Bináris logisztikus regresszió A 0.5-ös vágási szinttel az új ügyfelekre becslést adunk a bedőlés változóra!

Bináris logisztikus regresszió Az új ügyfelek 16%-a tűnik rizikósnak!