IBM SPSS Statistics Regressziós elemzések

IBM SPSS Statistics Regressziós elemzések
Informatikai Tudományok Doktori Iskola

Mintaelemzések Adott gépkocsik egy halmazának adatrendszere:
Összesen 406 gépkocsi műszaki és egyéb paramétereit tartalmazza. A gépjárműveket USA-ban, Európában és Japánban gyártották a 70-es, 80-as években. A gépkocsik fogyasztásának, súlyának, gyorsulásának, lökettérfogatának, teljesítményének és hengerszámának adatait foglalja magában.

Az adatmátrix változói
mpg hány mérföldet tesz meg egy gallonnal? engine lökettérfogat (köbinch-ben kifejezve) horse lóerő weight a gépjármű súlya (fontban) accel hány másodperc alatt gyorsul fel mérföld/óra sebességre? year a gyártás éve: 19.. origin a származás helye cylinder hengerek száma

Keressünk kapcsolatokat a változók között!
Lineáris kapcsolatot súly és a lökettérfogat között Többváltozós lineáris kapcsolatot a fogyasztás és az összes többi változó között Nemlineáris kapcsolatot a lóerő és a fogyasztás között

Regressziós kapcsolat keresése változók között

Szóródási grafikonok

Kapcsolat a súly és lökettérfogat között

Kapcsolat a súly és lökettérfogat között
Gyártóhelyek szerint más-más lineáris kapcsolat van!

A kétváltozós regresszió eredményei
Amerika

Európa

Japán

Futtassunk le egy többváltozós lineáris regressziós elemzést.
Célváltozó a fogyasztás (mpg) legyen, míg a magyarázó változók: lökettérfogat (engine), gyorsulás (accel), teljesítmény (horse) és a súly (weight).

A többváltozós lineáris regresszió eredménye

STEPWISE-modellépítéssel

Mi hogyan befolyásolja a várható élettartamot?
Országok adatait tartalmazó adatállományt (world95.sav) felhasználva keressünk kapcsolatot a férfiak várható élettartama és bizonyos a gazdasági/szociális állapotokat jelemző változók között! Y a célváltozó most a lifeexpm, azaz a férfiak várható élettartama A magyarázó változók: népsűrűség, városiasodás foka, kalória-felvétel, gdp, terméshozam, gyerekhalandóság, olvasottsági szint, születési ráta, halálozási ráta, népességnövekedés, egy családra eső gyerekszám.

A beállított automatikus modellépítés a FORWARD volt, ami a változók listájáról addig vesz be változókat, amíg tud javítani az illesztésen. Három változót vett be: gyerekhalandóság, halálozási ráta, kalóriafelvétel.

A három változó segítségével már 97%-os magyarázóerőt lehetett elérni

Mindhárom modell (tehát már az egyváltozós is) elfogadható lenne.

Az első két változónak negatív, a kalóriafelvételnek pozitív az együtthatója.

Keressünk nemlineáris kapcsolatot a cars.sav változói között!

Szóródási grafikonok

Példa kétparaméteres nemlineáris regresszióra
Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

Példa kétparaméteres nemlineáris regresszióra

Példa többváltozós lineáris regresszióra
Adjunk többváltozós lineáris elemzést a dolgozó fizetésére, a magyarázó változók a kezdőfizetés (salbegin), az alkalmazás ideje (jobtime) és a dolgozó kora (age) legyen!

A dolgozó kora eredetileg nem szerepelt a változók listáján. Úgy képeztük, hogy a születési dátumból az év adatot levontuk az állomány keletkezésének évéből!

Új változót hoztunk létre a dolgozó korával

A konstans szerepe elhanyagolható a modellben.

Bináris logisztikus regresszió
Egy bank kölcsönkihelyezésért felelős vezetője alkalmas bináris logisztikus regressziós modellel kívánja tanulmányozni a bank 700 jelenlegi ügyfelének rendelkezésre álló adatait abból a célból, hogy 150 új kölcsönért folyamodó potenciális ügyfél kérelmét minél megalapozottabban bírálhassa el. Az adatok a bankloan.sav adatmátrixban vannak.

age (ügyfél életkora), ed (ügyfél iskolázottsága), employ (ügyfél hány éve van alkalmazásban jelenlegi munkaadójánál), address (ügyfél jelenlegi lakcíme), income (ügyfél háztartásának évi jövedelme ezer USD-ban), debtinc (ügyfél által felvett hitel aránya a jövedelméhez), creddebt (ügyfél hitelkártya tartozása ezer USD-ban), othdebt (ügyfél egyéb tartozása ezer USD-ban), default (ügyfél korábban megtagadta-e már a törlesztést).

Az iskolai végzettség (ed) egy ötfokozatú ordinális változó, A bedőlés (default) egy bináris változó (ez a célváltozónk)

Az adatmátrix első 22 esete

A default változónak csak az első 700 esetben vannak értékei, hiszen a bank számára csak a jelenlegi ügyfelek esetében ismert, hogy korábban megtagadták-e már valamikor az aktuális törlesztésüket. Az elemzés célja, hogy a 150 új kölcsönért folyamodó potenciális ügyfélhez megalapozottan hozzárendelhessük a default változó várható értékeit. A módszerünk az lesz, hogy a 700 jelenlegi ügyfélből veszünk egy kb. 70%-os véletlen tanító (Training) részmintát (kb. 490 főt) és – miután a modellt a maradék kb. 30%-os Holdout részminta alapján validáltuk (érvényesítettük) - az így kapott a bináris logisztikus regressziós modellt alkalmazzuk a 150 új kölcsönért folyamodó potenciális ügyfélre, megtippelve azt, hogy problémás vagy megbízható ügyfél lesz-e.

Hozzunk létre egy olyan particionáló változót, amely a 700 jelenlegi ügyfél kb. 70%-ához 1 kódot rendel, a maradék kb. 30%-hoz pedig 0 kódot rendel , a 150 új kölcsönért folyamodó potenciális ügyfélhez pedig nem rendel értéket!

A művelet eredménye: A régi ügyfelek 69.9%-a 1-es, 30.1%-a 0-ás kódot kapott! Az 1-esek lesznek a tanuló (training), a 0-ások lesznek a ellenőrző (holdout) részminta elemei. A 150 új ügyfél nem kapott kódot!

Classification Table táblázat legalsó sora az iterációs eljárás 4. lépésének eredményét mutatja. A táblázatban az „Observed” értékek a ténylegesen megfigyelt No és Yes adatok, míg a „Predicted” értékek akkor kerülnek a Yes kategóriába, ha a modellből becsült rájuk vonatkozó nem-fizetési valószínűség nagyobb az alkalmazott vágási szintnél (most ez 0,5-ös). Ha a modellből becsült nem-fizetési valószínűség kisebb a vágási szintnél, a „Predicted” értékek értelemszerűen a No kategóriába kerülnek. A Selected Cases oszlop felel meg a Training részmintából felépített modellnek, míg az Unselected Cases oszlop a Holdout részminta alapján validált végső modellnek felel meg.

Érdekesség, hogy a kor (age), jövedelem (income), iskolai végzettség (ed) és az egyéb hiteltartozás (othdebt) nem került be a magyarázó változók közé!

A Hosmer-Lemeshow goodness-of-fit statistic bináris klasszifikációs modelleknek a mért adatokhoz történő illeszkedésének a vizsgálatára alkalmas robusztus statisztika. Mivel itt az a nullhipotézis, hogy a modell nem illeszkedik a mért adatokhoz, Sig. (p) 0,05 alatti értékei esetén lenne a modell elfogadhatatlan. Esetünkben azonban a szignifikancia szintje a negyedik lépésben .155, ami azt jelenti, hogy az illeszkedés még megfelelőnek tekinthető.

A 0.5-ös vágási szinttel az új ügyfelekre becslést adunk a bedőlés változóra!

Az új ügyfelek 16%-a tűnik rizikósnak!

IBM SPSS Statistics Regressziós elemzések

Hasonló előadás

Az előadások a következő témára: "IBM SPSS Statistics Regressziós elemzések"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

IBM SPSS Statistics Regressziós elemzések

Hasonló előadás

Az előadások a következő témára: "IBM SPSS Statistics Regressziós elemzések"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés