IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Az Országos Kompetenciamérés FIT-jelentéseinek új elemei
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Informatikai Tudományok Doktori Iskola
Grafikonok Statisztika labor.
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Földrajzi összefüggések elemzése
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Ábramagyarázat az Országos Kompetenciamérés iskolajelentéséhez
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. II. Országos Sportinformatikai Szimpózium A sportinformatikai szimpózium előadásai kimondva.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
INNOCSEKK 156/2006 Hasonlóságelemzés-alapú vizsgálat a COCO módszer használatával Készítette: Péter Gábor
Regresszióanalízis 10. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
III. Sz. Belgyógyászati Klinika
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
SPSS többváltozós (lineáris) regresszió (4. fejezet)
Diszkriminancia analízis
SPSS többváltozós regresszió
Többdimenziós skálázás (7. fejezet). Alapgondolat Feltáró elemzés A skálázással az adatok közötti különbségeket vizsgáljuk, illetve vetítjük le őket kevesebb.
Diszkriminancia analízis
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
SQL, Relációs adatmodell
Egytényezős variancia-analízis
STATISZTIKA II. 7. Előadás
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Lineáris regresszió.
Idő előtt lezáró szerződések - az elemzés technikai részletei Cseh Zoltán, PhD konzultációs igazgató SPSS Hungary.
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Adatbázis alapfogalmak
Ábramagyarázat az Országos Kompetenciamérés iskolajelentéséhez
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Informatikai Tudományok Doktori Iskola
Korreláció-számítás.
Magyarázatok a forintra váltott gyűjtőszámlahiteles jelzáloghitel elszámoló leveléhez Budapest, május 18.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
IBM SPSS Statistics Regressziós elemzések
Lineáris regressziós modellek
Kiváltott agyi jelek informatikai feldolgozása 2016
Többváltozós lineáris regresszió
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
Az IBM SPSS Statistics programrendszer
A évi kompetenciamérés FIT-jelentéseinek új elemei
Matematikai statisztika előadó: Ketskeméty László
Gazdaságinformatika MSc labor
A Box-Jenkins féle modellek
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola

Mintaelemzések Adott gépkocsik egy halmazának adatrendszere: Összesen 406 gépkocsi műszaki és egyéb paramétereit tartalmazza. A gépjárműveket USA- ban, Európában és Japánban gyártották a 70-es, 80-as években. A gépkocsik fogyasztásának, súlyának, gyorsulásának, lökettérfogatának, teljesítményének és hengerszámának adatait foglalja magában.

mpghány mérföldet tesz meg egy gallonnal? enginelökettérfogat (köbinch-ben kifejezve) horselóerő weighta gépjármű súlya (fontban) accelhány másodperc alatt gyorsul fel 60 mérföld/óra sebességre? yeara gyártás éve: 19.. origina származás helye cylinderhengerek száma Az adatmátrix változói

Keressünk kapcsolatokat a változók között! Lineáris kapcsolatot súly és a lökettérfogat között Többváltozós lineáris kapcsolatot a fogyasztás és az összes többi változó között Nemlineáris kapcsolatot a lóerő és a fogyasztás között

Regressziós kapcsolat keresése változók között

Szóródási grafikonok

Kapcsolat a súly és lökettérfogat között

Gyártóhelyek szerint más-más lineáris kapcsolat van!

A kétváltozós regresszió eredményei Amerika

A kétváltozós regresszió eredményei Európa

A kétváltozós regresszió eredményei Japán

A többváltozós lineáris regresszió eredménye

STEPWISE-modellépítéssel

A többváltozós lineáris regresszió eredménye

Szóródási grafikonok

Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

Példa kétparaméteres nemlineáris regresszióra

Példa többváltozós lineáris regresszióra Adjunk többváltozós lineáris elemzést a dolgozó fizetésére, a magyarázó változók a kezdőfizetés (salbegin), az alkalmazás ideje (jobtime) és a dolgozó kora (age) legyen!

A dolgozó kora eredetileg nem szerepelt a változók listáján. Úgy képeztük, hogy a születési dátumból az év adatot levontuk az állomány keletkezésének évéből! Példa többváltozós lineáris regresszióra

Új változót hoztunk létre a dolgozó korával

Példa többváltozós lineáris regresszióra A konstans szerepe elhanyagolható a modellben.

Bináris logisztikus regresszió Egy bank kölcsönkihelyezésért felelős vezetője alkalmas bináris logisztikus regressziós modellel kívánja tanulmányozni a bank 700 jelenlegi ügyfelének rendelkezésre álló adatait abból a célból, hogy 150 új kölcsönért folyamodó potenciális ügyfél kérelmét minél megalapozottabban bírálhassa el. Az adatok a bankloan.sav adatmátrixban vannak.

Bináris logisztikus regresszió age (ügyfél életkora), ed (ügyfél iskolázottsága), employ (ügyfél hány éve van alkalmazásban jelenlegi munkaadójánál), address (ügyfél jelenlegi lakcíme), income (ügyfél háztartásának évi jövedelme ezer USD-ban), debtinc (ügyfél által felvett hitel aránya a jövedelméhez), creddebt (ügyfél hitelkártya tartozása ezer USD- ban), othdebt (ügyfél egyéb tartozása ezer USD-ban), default (ügyfél korábban megtagadta-e már a törlesztést).

Bináris logisztikus regresszió Az iskolai végzettség (ed) egy ötfokozatú ordinális változó, A bedőlés (default) egy bináris változó (ez a célváltozónk)

Az adatmátrix első 22 esete

A default változónak csak az első 700 esetben vannak értékei, hiszen a bank számára csak a jelenlegi ügyfelek esetében ismert, hogy korábban megtagadták-e már valamikor az aktuális törlesztésüket. Az elemzés célja, hogy a 150 új kölcsönért folyamodó potenciális ügyfélhez megalapozottan hozzárendelhessük a default változó várható értékeit. A módszerünk az lesz, hogy a 700 jelenlegi ügyfélből veszünk egy kb. 70%-os véletlen tanító (Training) részmintát (kb. 490 főt) és – miután a modellt a maradék kb. 30%-os Holdout részminta alapján validáltuk (érvényesítettük) - az így kapott a bináris logisztikus regressziós modellt alkalmazzuk a 150 új kölcsönért folyamodó potenciális ügyfélre, megtippelve azt, hogy problémás vagy megbízható ügyfél lesz-e. Bináris logisztikus regresszió

Hozzunk létre egy olyan particionáló változót, amely a 700 jelenlegi ügyfél kb. 70%-ához 1 kódot rendel, a maradék kb. 30%-hoz pedig 0 kódot rendel, a 150 új kölcsönért folyamodó potenciális ügyfélhez pedig nem rendel értéket!

Bináris logisztikus regresszió A művelet eredménye: A 150 új ügyfél nem kapott kódot! A régi ügyfelek 69.9%-a 1- es, 30.1%-a 0-ás kódot kapott! Az 1-esek lesznek a tanuló (training), a 0-ások lesznek a ellenőrző (holdout) részminta elemei.

Bináris logisztikus regresszió

Classification Table táblázat legalsó sora az iterációs eljárás 4. lépésének eredményét mutatja. A táblázatban az „Observed” értékek a ténylegesen megfigyelt No és Yes adatok, míg a „Predicted” értékek akkor kerülnek a Yes kategóriába, ha a modellből becsült rájuk vonatkozó nem-fizetési valószínűség nagyobb az alkalmazott vágási szintnél (most ez 0,5-ös). Ha a modellből becsült nem-fizetési valószínűség kisebb a vágási szintnél, a „Predicted” értékek értelemszerűen a No kategóriába kerülnek. A Selected Cases oszlop felel meg a Training részmintából felépített modellnek, míg az Unselected Cases oszlop a Holdout részminta alapján validált végső modellnek felel meg.

Bináris logisztikus regresszió Érdekesség, hogy a kor (age), jövedelem (income), iskolai végzettség (ed) és az egyéb hiteltartozás (othdebt) nem került be a magyarázó változók közé!

Bináris logisztikus regresszió A Hosmer-Lemeshow goodness-of-fit statistic bináris klasszifikációs modelleknek a mért adatokhoz történő illeszkedésének a vizsgálatára alkalmas robusztus statisztika. Mivel itt az a nullhipotézis, hogy a modell nem illeszkedik a mért adatokhoz, Sig. (p) 0,05 alatti értékei esetén lenne a modell elfogadhatatlan. Esetünkben azonban a szignifikancia szintje a negyedik lépésben.155, ami azt jelenti, hogy az illeszkedés még megfelelőnek tekinthető.

Bináris logisztikus regresszió A 0.5-ös vágási szinttel az új ügyfelekre becslést adunk a bedőlés változóra!

Bináris logisztikus regresszió Az új ügyfelek 16%-a tűnik rizikósnak!