SPSS labor gyakorlatok

Slides:



Advertisements
Hasonló előadás
Hipotézis-ellenőrzés (Statisztikai próbák)
Advertisements

I. előadás.
Kvantitatív Módszerek
IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola.
Kvantitatív módszerek
A statisztika alapjai - Bevezetés az SPSS-be -
3. Két független minta összehasonlítása
Grafikonok Statisztika labor.
Exponenciális szűrések Statisztika II. VEGTGAM22S.
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Csoportosítás megadása: Δx – csoport szélesség
Mérés és adatgyűjtés 4. Óra Adatok importálása és exportálása, adatok elemzése szeptember 24., 27. Kincses Zoltán, Mingesz Róbert, Vadai Gergely.
Virtuális méréstechnika
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Potenciális feladattípusok
A megoldás főbb lépései:
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
ADATBÁZISOK
III. előadás.
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Valószínűségszámítás és statisztika előadások Gépész-Villamosmérnök szak BSc MANB030, MALB030 Bevezető.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
SPSS bevezetés.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
SPSS többváltozós regresszió
Matematikai alapok és valószínűségszámítás
Nemparaméteres próbák Statisztika II., 5. alkalom.
Készítette: Horváth Zoltán (2012)
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Statisztikai módszerek a pedagógiai kutatásban
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Következtető statisztika 9.
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Lineáris regresszió.
Diszkrét változók vizsgálata
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 4. hét
SPSS 16 Ez a dia sorozat a gyakorlatok anyagának felidézését segíti.
I. előadás.
TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.
Sztochasztikus kapcsolatok
Valószínűségszámítás - Statisztika. P Két kockával dobunk, összeadjuk az értékeket Mindegyik.
Vargha András KRE és ELTE, Pszichológiai Intézet
Valószínűségszámítás II.
A számítógépes elemzés alapjai
Az SPSS programrendszer.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Becsléselmélet - Konzultáció
Adatelemzési gyakorlatok
Nemparaméteres próbák
I. Előadás bgk. uni-obuda
Trendelemzés előadó: Ketskeméty László
Az IBM SPSS Statistics programrendszer
Matematikai statisztika előadó: Ketskeméty László
Nemparaméteres próbák
Gazdaságinformatikus MSc
Valószínűségi változók együttes eloszlása
Gazdaságinformatika MSc labor
Statisztika segédlet a Statistica programhoz Új verzióknál érdemes a View menüsor alatt a Classic menu-s verziót választani – ehhez készült a segédlet.
A Box-Jenkins féle modellek
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
A normális eloszlásból származó eloszlások
Előadás másolata:

SPSS labor gyakorlatok Gazdaságinformatikus MSc

Sorszám-változó létrehozása 1. feladat Sorszám-változó létrehozása Készítsen el egy olyan eset nevű változót, amelynek esetei 1-től 200-ig tartalmazzák a természetes számokat! (Ennek a változónak a jelenléte akkor igen hasznos, amikor később át akarjuk rendezni az állományt valamelyik változó szerint. Az eset változóra kért rendezéssel ugyanis bármikor visszaállítható lesz az eredeti sorrend.)

1. feladat megoldása 1) Definiáljuk az eset nevű változót a Variable View ablakban úgy, hogy a Name mezőbe beírjuk: eset. Váltsunk át a Data View ablakba és a Data / Goto Case 200 paranccsal ugorjunk a 200. esetre, majd oda írjunk be 200-at. A Transform / Compute választással megjelenő Numeric Expression mezőbe írjuk be a $CASENUM kifejezést írjuk, a Target Variable mezőbe pedig azt, hogy eset, majd nyomjuk le az OK-t. (Change existing variable? OK). 2) Definiáljuk az eset nevű változót a Variable View ablakban úgy, hogy a Name mezőbe beírjuk: eset. Váltsunk át a Data View ablakba és írjunk be 1-et a klaviatúráról az első esethez. Ezután a Data / Goto Case 200 paranccsal ugorjunk a 200. esetre, és oda írjunk be 200-at. Ezek után futtassuk le a következő parancsot: Transform / Compute eset =LAG(eset)+1 If Missing(eset). (Change existing variable? OK). 3) Olvassuk be http://www.szit.bme.hu/~kela/Peldafaljok.zip címről az esetszám.sav állományt, ami 1-től 100 000-ig tartalmazza az egész számokat. Jelöljük ki az 1-200 tartományt, és másoljuk át a copy/paste parancsokkal az adatmátrixunkba.

Adott eloszlású véletlenszámok generálása 2. feladat Adott eloszlású véletlenszámok generálása a.) Generáljunk 200 darab véletlenszámokat tartalmazó változót a standard normális, a lambda=1 paraméterű exponenciális és a [0,1] intervallumon egyenletes eloszláshoz! A változók nevei rendre norm, exp és uni legyenek! Jelenítsük meg mindhárom változó hisztogramját és ellenőrizzük a megfelelő eloszláshoz való illeszkedést grafikusan a Graphs / P-P paranccsal! Ellenőrizzük a megfelelő eloszláshoz való illeszkedést egymintás Kolmogorov-Szmirnov próbával is! b.) Generáljunk kétdimenziós normális eloszlású vektorokat adott kovarianciamátrixhoz és adott várhatóértékekhez! Készítsük el a pontfelhő ábrát, a komponensek hisztogramját, P-P-grafikonját! Számoltassuk ki a lineáris regressziót a komponensek között, és hasonlítsuk össze a regressziós együtthatókat generálás paramétereivel! Legyen a megadott korrelációs együttható -0.75, a két várhatóérték -1 és +2, a szórások pedig 1 és .

2. feladat megoldása a.) Transform / Compute norm=RV.NORMAL(0,1) exp=RV.EXP(1) uni=RV.UNIFORM(0,1) b.) Transform / Compute x=RV.NORMAL(0,1) y=RV.NORMAL(0,1) u=-1+X v=2 –1.5*X+sqrt(7)/2*Y   Analyze / Regression / Linear Dependent: v Independent: u

Kockadobás-sorozat szimulálása 3. feladat Kockadobás-sorozat szimulálása Szimuláljunk a számítógéppel egy ezer dobásból álló kockadobás-sorozatot! Számoltassuk ki az alapstatisztikákat, készítsük el a keletkező változó oszlopdiagramját! Chi-négyzet próbával ellenőrizzük a diszkrét egyenletes eloszláshoz illeszkedést!

3. feladat megoldása Útmutatás: Először töltsünk fel hiányzó adatokkal egy – célszerűen kocka névvel definiált - változót (a változó 1000. mezőjébe a Data / Goto Case parancs segítségével írjunk be egy tetszőleges számot), majd Transform / Compute kocka =RND(RV.UNIFORM(0,1)*6-0.5)+1 Analyze / Descriptives / Variables kocka Graphs / Bar / Simple  Summaries for groups of cases: kocka Analyze / Nonparametric Tests / Chi-square kocka  All categories equal

4. feladat Hisztogram-készítés a) Olvassuk be az employee data.sav állományt! Készítsük el a salary és salbegin változók hisztogramjait, hasonlítsuk össze a várható értékeiket és értelmezzük azok eltérését! b) Grafikusan ellenőrizzük a salary változó illeszkedését az összes beépített eloszláshoz! Ellenőrizzük a salary változó illeszkedését a normális, exponenciális és egyenletes eloszláshoz az egymintás Kolmogorov-Szmirnov próbával is!

4. feladat megoldása a.) Graphs / Histogram / Variable   a.) Graphs / Histogram / Variable  Display Normal Curve b.) Graphs / P-P Variables: salary Test Distribution: Normal (Exponential, Uniform, stb.) Analyze / Nonparametric tests / 1-sample K-S Test Variable List: norm, exp, uni Test Distribution:  Normal  Exponential  Uniform

Empirikus eloszlásfüggvény (gyakorisági eloszlás) kirajzoltatása 5. feladat Empirikus eloszlásfüggvény (gyakorisági eloszlás) kirajzoltatása Generáljunk háromezer standard normális eloszlású véletlen-számot! Számoljuk ki az empirikus eloszlásfüggvényt és rajzoltassuk ki! Tabelláztassuk ki a megfelelő elméleti eloszlásfüggvényt is!

5. feladat megoldása Definiáljunk először egy NORMAL nevű változót, és azt töltsünk fel hiányzó adatokkal (a változó 3000. mezőjébe a Data / Goto Case parancs segítségével írjunk be egy tetszőleges számot), majd Transform / Compute normal=RV.NORMAL(0,1) Transform / Rank Cases normal Transform / Compute empir=rnormal/3000 Data / Sort Cases normal (Ascending) Transform / Compute theor=CDF.NORMAL(normal,0,1) Graph / Scatter / Overlay: empir-normal, theor-normal

A 2-eloszlás kvantilistáblázata 6. feladat A 2-eloszlás kvantilistáblázata Készítsük el a 2-próba táblázatát, amely az n=1, 2, ..., 30 szabadsági fokok esetén tartalmazza a kritikus értékeket az = 0.99, 0.98, 0.95, 0.90, 0.80, 0.70, 0.50, 0.30, 0.20, 0.10, 0.05, 0.01, 0.001 szignifikancia-szintekhez. A táblázat (n, ) kereszteződésében az a kritikus érték álljon, melyre teljesül, ahol n a szabadságfoka!

6. feladat megoldása Variable View: Name: szfok Type: numeric 2.0 Label: Az eloszlás szabadságfoka Data View: Írjuk be a szabadsági fokokat egyenként 1-től 30-ig. Transform / Compute...: Target: sz_0_99=IDF.CHISQ(1-0.99, szfok) sz_0_98=IDF.CHISQ(1-0.98, szfok) . sz_0_001=IDF.CHISQ(1-0.001, szfok)

7. feladat Pontdiagram készítése  a.)      A 2. feladatban elkészített norm, exp, uni változókhoz készítsünk két- és háromdimenziós pontdiagramokat (pontfelhő-grafikonokat)! A háromdimenziós grafikont forgassuk el a három tengely körül! b.)     Olvassuk be az employee data.sav állományt, majd készítsük el a salary és salbegin változók pontfelhő-grafikonját is! Szinezzük ki más színnel a férfi és a női dolgozókat reprezentáló pontokat! Ismételjük meg a feladatot úgy is, hogy most a pontokat a munkaköri beosztás (JOBCAT) kategóriái szerint színezzük ki!

7. feladat megoldása a.) Graphs / Scatter / Matrix   a.) Graphs / Scatter / Matrix Matrix Variables: norm, exp, uni Graphs / Scatter / 3-D Y-axis: norm X-axis: exp Z-axis: uni (Forgatás: dupla kattintás a grafikonra, majd kattintás a forgatásnak megfelelő ikonokra) b.) Graphs / Scatter / Simple Y-axis: salary X-axis: salbegin Set markers by: gender (jobcat)

8. feladat Olvassa be az Employee data állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel: Számolja ki a dolgozók fizetésének (salary) átlagát (mean), sztandard szórását (standard deviation), maximumát, minimumát és terjedelmét (range) a munkaköri besorolás (jobcat) kategóriái szerint. Ezek alapján írja be az üres helyre a kapott eredményeket! a.) A tisztviselők (clerical) átlagfizetése: _____ b.) A biztonságiak (costudial) fizetésének terjedelme: _____ c.) A menedzserek (manager) fizetésének maximuma: _____ d.) Az alábbi munkakörben a legnagyobb a szórás: _____

9. feladat Készítse el a fizetések (salary) dobozdiagramjait (boxplot) férfi-nő (male-female), tisztviselő-biztonsági-menedzser (clerical-costudial-maneger) kissebségi státus: igen-nem (minority: yes-no) féle bontásokban.

kor=1992-xdate.year(bdate) fiznov=salary-salbegin 10. feladat Számolja ki a dolgozók korát a születési dátumból: kor=1992-xdate.year(bdate) Számolja ki a fizetésnövekedés változót (fiznov): fiznov=salary-salbegin Ezek után adja meg az alábbi adatokat: a.) A legidősebb férfi kora: b.) A legnagyobb fizetésnövekedés a nők körében: c.) A legfiatalabb menedzser fizetésnövekedése:

11. feladat Hozzon létre egy fizetési kategória változót (fizkat), aminek értéke 1 - ha a dolgozó fizetése az alsó qvartilis alá esik; 2 - ha a fizetés az alsó kvartilis és a medián közé esik; 3 - ha a fizetés a medián és a felső kvartilis között van; 4 - ha nagyobb a fizetés, mint a felső kvartilis.

12. feladat Készítse el az alábbi kereszt-táblázatokat (cross table): a dolgozó neme (gender) - beosztás (jobcat) kisebbségi státusz (minority) – fizetéskategória (fizkat) Ezek után adja meg az alábbi adatokat: a.) Hány nő dolgozik menedzserként?: ______ b.) Hány százaléka az állománynak tartozik a minority=yes, fizkat=1 kategóriába?: ______ c.) A dolgozók hány százaléka biztonsági férfi? ______ d.) A menedzser férfiak hány százaléka esik a minority=yes kategóriába? ______

13. feladat A független mintás t-próba segítségével válaszoljon az alábbi kérdésekre: a.) Elfogadható-e az a nullhipotézis, hogy a fizetések (salary) azonosnak tekinthetők a férfiak és a nők esetében? b.) Elfogadható-e az a nullhipotézis, hogy a fizetések (salary) azonosnak tekinthetők a minority kategóriák között, azaz a kisebbségi (minority=yes) és többségi csoportok (minority=no) esetében? c.) Elfogadható-e az a nullhipotézis, hogy a kezdőfizetések (salbegin) azonosnak tekinthetők a férfiak és a nők esetében? d.) Elfogadható-e az a nullhipotézis, hogy a kezdőfizetések (salbegin) azonosnak tekinthetők a minority kategóriák között, azaz a kisebbségi (minority=yes) és többségi csoportok (minority=no) esetében? e.) Számolja ki a dolgozók korát a születési dátumból: Transfer/Compute Variable kor=1992-xdate.year(bdate). Elfogadható-e az a nullhipotézis, hogy a 40 év alatti dolgozók fizetése megegyezik a 40 év feletti dolgozók fizetésével? f.) Elfogadható-e az a nullhipotézis, hogy a kisebbségi dolgozók korátlaga azonosnak tekinthető a többségi korátlaggal?

14. feladat A párosított mintás t-próba segítségével döntse el, azonosnak tekinthető-e a.) a fizetés (salary) és a kezdőfizetés (salbegin). b.) előzetes begyakorlási idő (prevexp) és képzési szint (educ)? Egyszerű csoportosítással (One Way ANOVA) megvizsgálva, azonosnak tekinthető-e a fizetés (salary) az egyes beosztásoknál (jobcat)? Mi a helyzet a kezdőfizetéssel (salbegin)? Azonos korúaknak tekinthetők-e az egyes beosztáshoz (jobcat) tartozó dolgozói csoportok? Minden esetben végezze el az utólagos páronkénti hipotézisvizsgálatot is (posthoc)!

15. feladat Számolja ki minden dolgozó esetében átlagosan havonta mekkora fizetésnövekedést ért el: Transform/Compute Variable fizgrad=(salary-salbegin)/jobtime. Ezután válaszoljon az alábbi kérdésekre: a.) Férfiak és nők esetében azonosnak tekinthető-e az átlagos havi fizetésnövekedés (fizgrad)? b.) A kisebbségi és többségi csoportoknál a fizgrad azonosnak tekinthető? c.) A fizgrad azonos-e a különböző beosztásoknál (jobcat)? d.) Azonos-e a fizgrad a 40 év alatti és feletti dolgozók esetében? e.) Az educ változó tartalmazza, hány évet tanult munkába állás előtt a dolgozó. A fizgrad változó azonos-e a legfeljebb 12 évet iskolában eltöltő és a 12-nél több évet iskolában eltöltő dolgozók csoportjai között?

16. feladat 1. Olvassa be az employee data állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel: a.) Először grafikusan ellenőrizze, hogy a salary és salbegin változók jól illeszkednek-e a normális eloszláshoz. Készítsen a változókra hisztogrammot a normális sűrűségfüggvénnyel, valamint P-P és Q-Q grafikonokat. b.) Egymintás Kolmogorov-Szmirnov (1-Sample K-S) próbával is ellenőrizze a két változó normalitását! - Elfogadható e a normálishoz való illeszkedés 0,1 szignifikancia-szinten a salary változó esetén? - Elfogadható e a normálishoz való illeszkedés 0,01 szignifikancia-szinten a salbegin változó esetén?

17. feladat Olvassa be az World95 állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel: a.) Vizsgálja meg, hogy a nők várható élettartama (lifeexpf) és a férfiak várható élettartama (lifeexpm) azonos eloszlást követ-e! A tesztelést a Wilcoxon próbával végezze el! b.) Vizsgálja meg, hogy a nők olvasottsága (lit_fema) és a férfiak olvasottsága (lit_male) azonos eloszlást követ-e! A tesztelést a Marginal homogeneity próbával végezze el! c.) Tesztelje, hogy az OECD és Latin-Amerika országaiban a gyermekhalandóság (babymort) azonos eloszlást követ-e. A tesztelést a Mann-Whitney U próbával végezze el! d.) Tesztelje, hogy az aids arányszám (aids_rt) azonos eloszlást követ a különböző gazdasági régiókban (region)! A teszhez a Kruskal-Wallis H próbát alkalmazza!

18. feladat Olvassa be az Cars állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel: a.) Számolja ki az összes numerikus változó (mpg, engine, horse, weight, accel) korrelációs mátrixát! Melyik változók tekinthetők korrelálatlanoknak 0,01 szignifikancia szinten? b.) Vizsgálja meg Chi-négyzet próbával, hogy a különböző hengerszámú autók egyenletesen oszlanak-e meg az állományban! Vizsgálja meg azt is, hogy az évek szerint egyenletes-e az autók megoszlása! c.) Melyik változó illeszkedik legjobban (legnagyobb szignifikancia szinten) a normális eloszláshoz? Melyik változó illeszkedik legjobban (legnagyobb szignifikancia szinten) az exponenciális eloszláshoz? d.) A fogyasztás (mpg) azonos eloszlást követ-e a különböző évjáratú gépkocsik között? A próbát Median teszttel hajtsa végre!

19. feladat Ellenőrizze a Cars állomány mpg változójának az illeszkedését a lognormális eloszláshoz! a.) Először készítse el a hisztogrammot és a P-P, Q-Q grafikonokat a lognormális eloszláshoz! b.) A Transform\Compute Variable paranccsal hajtsa végre a uni=PDF.LNORMAL(mpg,22.23,0.34) Transzformációt! Ellenőrizze az UNI illeszkedését az egyenletes eloszláshoz! (Amennyiben UNI jól illeszkedik az egyenletes eloszláshoz, akkor igazoltuk, hogy MPG jól illeszkedik a lognormális eloszláshoz az adott paraméterekkel.)

20. feladat Grafikus regressziós vizsgálat Olvassa be az World95 állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel: a.) Készítse el az olvasni tudó férfiak változó (lit_male) és az olvasni tudó nők változó (lit_fema) pontfelhő-diagramját (scatter)! b.) Kattintson a keletkezett grafikonra, és illesszen egyenest, másod- és harmadrendű polinomot a pontokra! c.) Most illesszen a pontokra egyeneseket a gazdasági régió (region) kategóriái szerint! d.) Az Analyze/Regression/Curve Estimation… paranccsal illesszen logaritmikus, majd exponenciális görbét a pontokra! A független (independent) változó a lit_male, a függő (dependent) pedig a lit_fema legyen.

Lineáris regresszió számítása két változó között 21. feladat Lineáris regresszió számítása két változó között a.) Számítsa ki az olvasni tudó férfiak változó (lit_male) és az olvasni tudó nők változó (lit_fema) között fennálló lineáris regressziós összefüggést! A független (independent) változó a lit_male legyen! (A parancsot az Analyze/Regression/Linear menüpontban találja.) b.) Listáztassa ki azokat az országokat, ahol a (lit_male, lit_fema) adatpont kívül esik a regressziós egyeneshez tartozó 90%-os konfidencia határon! Ezeknél az országoknál nem teljesül a többi országban tapasztalható tendencia.

Többváltozós lineáris regresszió 22. feladat Többváltozós lineáris regresszió a.) Számítsa ki a olvasni tudók százalékos aránya (literacy), mint függő változó és a density, urban, pop_incr, gdp_cap, calories, cropgrow változók, mint kifejező (független) változók között fennálló lineáris regressziós összefüggést! (Az Analyze/Regression/Linear parancsot indítsa el, és először az enter modellépítéssel futtassa le a beállítást!) b.) Ismételje meg a futtatást, de most stepwise legyen a modellépítés beállítása. c.) Listáztassa ki azokat az országokat, amelyek nem férnek bele a tendenciába 90%-os szinten! Ezeknél az országoknál a többségtől eltérő tendencia érvényesül.

Grafikus nemlineáris regressziós vizsgálat I. 23. feladat Grafikus nemlineáris regressziós vizsgálat I. Olvassa be az Cars állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel: Készítsük el az összes numerikus változó (mpg, horse, weight, accel, engine) mátrix szóródás grafikonját, ami az egyes párok összefüggését szemlélteti. (GRAPH /SCATTERPLOT(MATRIX)=mpg engine horse weight accel /MISSING=LISTWISE .) Milyen változó-párok esetében tapasztalunk lineáris kapcsolatot? Milyen változók esetén nemlineáris az összefüggés? Milyen változóknál nem tapasztalunk semmilyen összefüggést?

Grafikus nemlineáris regressziós vizsgálat II. 24. feladat Grafikus nemlineáris regressziós vizsgálat II. Az mpg (függő, azaz dependent) és a horse (független, azaz independent) változó esetében keressük meg a legjobb nemlineáris regressziós görbét, az analyze/regression/curve estimation paranccsal! Melyik esetében kapjuk a legjobb illeszkedést? Hogyan adható meg képlettel ez az összefüggés?

25. feladat Nemlineáris regresszió számítása két változó között I. a.) Az mpg (függő, dependent, y) és a weight (független, independent, x) változók között keressük meg a legjobb y=(a x+b)/(x2+c x+d) függvénnyel leírható regressziós kapcsolatot az analyze/regression/nonlinear paranccsal! Mentsük is el új változóba a regressziós becslést (predicted values)! Milyen értékek adódnak az a, b, c és d együtthatókra? Elfogadható-e az illeszkedés a meghatározottsági mérőszám (R Square) alapján? b.) Ábrázoljuk is a (weight, mpg) pontokkal együtt a kapott regressziós görbét!

Nemlineáris regresszió számítása két változó között II. 26. feladat Nemlineáris regresszió számítása két változó között II. c.) Ismételjük meg az előző vizsgálatot a két változó között, de most az illesztett összefüggés az y=(ax+b)/(x3+c x2+d x) legyen. Jobb illeszkedést kaptunk-e, mint az előbb? Milyen értékek adódtak az a, b, c és d együtthatókra? Ábrázoljuk is a (weight, mpg) pontokkal együtt a másodjára kapott regressziós görbét!

Főkomponens analízis a változók számának csökkentésére 27. feladat … Főkomponens analízis a változók számának csökkentésére a.) Olvassa be az Cars állományt, és hajtsa végre az alábbi műveleteket az SPSS-sel. Az mpg, engine, horse, weight és accel változókat a vizsgálatba bevonva, hajtson végre főkomponens analízist varimax-forgatással. A megtartott változók (faktorok) száma 3 legyen, amiket mentsen is el az adatmátrixba. • Mekkora a KMO statisztika? • Elfogadható a változók függetlenségére vonatkozó Bartlett-próba? • Melyik változó esetében a legkisebb a kummunalitás? • A 3 faktor hány százalékban tudja magyarázni az eredeti változók totális szórását? • A rotáció utáni korrdinátákat megszemlélve, hogyan csoportosíthatjuk a változóinkat? …

27. feladat (folytatás) b.) A 3 faktor változó alapján készítse el a gépkocsik 3 dimenziós szóródás-grafikonját, ahol a pontokat különböző szempontok szerint színezze ki: • Először a gyártási hely szerint (origin); • Majd a hengerek száma szerint (cylinder) • A gyártási év szerint. (1-es a címke, ha a gépkocsit 70 és 75 között gyártották, és 2-es a címke, ha 76 után.) Talál-e valamilyen jellegzetességet valamelyik grafikonon?

Faktoranalízis maximum likelihood módszerrel 28. feladat … Faktoranalízis maximum likelihood módszerrel a.) Olvassa be a World95 állományt. A maximum likelihood módszerrel végezze el a faktoranalízist. A faktorok száma legyen kettő, mentse el a faktorokat az adatmátrixba. Hajtsa végre a varimax-forgatást is. A bevont változók: lifeexpf, lifeexpm, babymort, pop_incr, birth_rt, death_rt, aids, aids_rt és b_to_d legyenek. (Kérje az Anti-image statisztikát is, hogy az MSA statisztikákat is el lehessen olvasni.) Mekkora a változónkénti MSA statisztika? Melyik változót célszerű kivenni a vizsgálatból? Melyik változónál legkisebb a kummunalitás? …

28. feladat (folytatás) b.) A két faktor segítségével ábrázolja az országok pontfelhő grafikonját, különböző színezések mellett (region, climate). Tapasztal valamilyen jellegzetességet? c.) Ismételje meg a vizsgálatot, de most a bevont változók a következők legyenek: populatn, density, urban, gdp_cap, calories, cropgrow. A módszert is változtassa meg a (principal components) főkomponens-analízis módszerre • Az MSA statisztikák szerint, mely változókat kell elhagyni? Elhagyva a „nemkívánatos” változókat, ismételje meg a futtatást. Az első két faktor segítségével, különböző színezéssel készítsen pontfelhő diagrammokat az országokról.

29. feladat Klaszteranalízis  a.)      Olvassuk be a World95.sav állományt és az összes változó figyelembevételével (kivéve a religion, country és climate változókat) végezzünk klaszteranalízist az állományon! Tíz csoportba soroltassuk az eseteket! (Mentsük el a klasztersorszámokat tartalmazó QCL_1 változót!) Listáztassuk ki a country, climate, religion változókat a keletkezett qcl_1 változó csoportosításában, hogy a keletkezett klasztereket jellemezhessük! b.) Végezzük el a klaszterezést újból ugyanolyan beállításokkal mint az előbb, de most a feldolgozandó változók a faktoranalízissel kapott faktor-változók legyenek! Készítsünk kereszt-táblázatot a két klaszterezés eredményének összevetéséhez!

29. feladat megoldása a.) Analyze / Classify / k-means cluster Variables: mind, kivéve religion, country és climate Number of Clusters: 10 Save: ţ Cluster Membership Iterate: ţ Use Running Means Analyze / Reports / Case Summaries Variables: country, religion, climate Grouping Variable: qcl_1 b.) Analyze / Descriptive Statistics / Crosstabs Row: qcl_1 Cloumn: qcl_2 Statistics: Nominal: ţ Contingency Coefficient

Diszkriminanciaanalízis 30. feladat Diszkriminanciaanalízis  a.) Olvassuk be a World95.sav állományt és konvertáljuk a religion változót egy relnum nevű numerikus változóvá a Transform / Recode / Into different variable paranccsal! Ezután a relnum változó segítségével válasszuk szét az állományt! Listáztassuk ki a country, religion, dis_1 változókat együtt annak szemrevételezésére, mennyire sikerült a szeparálás! b.) Ismételjük meg a szeparálást, de most csak a faktor-változók alapján! Hasonlítsuk össze a két szétválasztás eredményét a dis_1, dis_2 kereszt-táblázat elemzésével!

30. feladat megoldása Transform / Recode / Into different variable religion  relnum Old and New Values: 'Muslim '1, 'Catholic'2 stb. Analyze / Classify / Discriminant Grouping Variable: relnum (1,10) Independents: (mindegyik numerikus változót) Classify: Prior Probabilities:  Compute from group sizes Save:  Predicted group membership

Diszkriminanciaanalízis 31. feladat Diszkriminanciaanalízis a.) Olvassuk be a World95.sav állományt és konvertáljuk a religion változót egy relnum nevű numerikus változóvá a Transform / Recode / Into different variable paranccsal! Ezután a relnum változó segítségével válasszuk szét az állományt! Listáztassuk ki a country, religion, dis_1 változókat együtt annak szemrevételezésére, mennyire sikerült a szeparálás! b.) Ismételjük meg a szeparálást, de most csak a faktor-változók alapján! Hasonlítsuk össze a két szétválasztás eredményét a dis_1, dis_2 kereszt-táblázat elemzésével!

31. feladat megoldása Transform / Recode / Into different variable religionrelnum Old and New Values: 'Muslim '  1, 'Catholic'  2 stb. Analyze / Classify / Discriminant Grouping Variable: relnum (1,10) Independents: (mindegyik numerikus változót) Classify: Prior Probabilities:  Compute from group sizes Save:  Predicted group membership

Többdimenziós skálázás 32. feladat Többdimenziós skálázás Tekintsük az alábbi magyarországi pártokat: MSZP, LMP, FIDESZ, JOBBIK, KDNP. Készítsen el egy szubjektív távolságmátrixot az alábbiak alapján: Ha az X és Y pártot egymáshoz viszonylag közelállónak érzi, 0 közeli értéket adjon, pl. dist(X, Y)=10-et. Ha viszont a két párt között nagy különbséget érez, adjon meg az (X, Y) relációba 100-hoz közeli értéket! Közbenső különbségek esetén használja értelemszerűen a skála közbenső értékeit. Az így összeállított háromszög alakú távolságmátrixot gépelje be a klaviatúráról olyan formátumban. Reprezentálja a pártokat a síkon vagy egyenesen szétszóródó pontok segítségével!

32. feladat megoldása I. Variable View: Name: part, Type: string 8 Name: mszp, Type: numeric 3.0 Name: fidesz, Type: numeric 3.0 Name: lmp, Type: numeric 3.0 stb. Data View: Part: Begépelni sorba: MSZP, LMP,..., KDNP mszp: Begépelni a távolságokat: 0, dist(MSZP, LMP), dist(MSZP, FIDESZ),..., dist(MSZP, KDNP) szdsz: Begépelni a távolságokat: 0, dist(SZDSZ, MSZP),..., dist(LMP, FIDESZ),...,dist(LMP, KDNP) fidesz: Begépelni a távolságokat: 0, dist(FIDESZ, MSZP),… dist(FIDESZ, LMP),...,dist(FIDESZ, KDNP)

32. feladat megoldása II. Analyze / Scale / Multimensional scaling (PROXSCAL) Data Format:  Create proximities from data Number of Sources:  One matrix source (Define) Variables: mszp, lmp,..., kdnp Plots: Common Space Output: Display: Common space Coordinates Model: Proximity transformation:  ordinal Model: Dimensions: Minimum: 1 Maximum: 2

Lineáris trendfüggvény keresése 33. feladat Lineáris trendfüggvény keresése A táblázat a személygépkocsi állomány alakulását mutatja Magyarországon 1977 és 1994 között. Az adatmátrixon lineáris trendet feltételezve becsüljük előre a 2003. évi gépkocsiállomány nagyságát!

33. Feladat megoldása Analyze / Regression / Curve Estimation: Models: linear, Dependent(s): gkszam, Independent:  Time, Save: / Saved Variables:  Predicted Values, Save... / Predict cases:  Predict through observation: 27.

Nemlineáris trendfüggvény keresése 34. feladat Nemlineáris trendfüggvény keresése A táblázat az 1975 és 1994 közötti fogyasztói árindexeket tartalmazza az 1950 bázisévhez viszonyítva (1950=100%). Vizsgáljuk meg, milyen trend jellemzi az árindexet! Becsüljük meg a modell alapján a 2004-ben várható fogyasztói árindexet!

34. feladat megoldása Graphs... / Sequence...: Variables: arindex, Time Axis Labels: ev. Analyze / Regression / Curve Estimation: Dependent: arindex, Independent:  Time, Models: Cubic Save...: Save variables:  Predicted Values,  Residuals, Save...: Predict Cases: Predict through observations: 31 Graphs... / Sequence...: Variables: arindex, fit_1, time axis labels: ev.

Exponenciális trendfüggvény keresése 35. feladat Exponenciális trendfüggvény keresése A 21 éves idősor 1974 és 1994 között a lakossági takarékbetét állomány alakulását mutatja milliárd Ft-okban Magyarországon. Adjuk be az adatokat az SPSS-be! Az évek változóneve ev, a takarékbetété pedig takarek legyen. Illesszünk exponenciális trendfüggvényt a takarek idősorra, és adjunk előrejelzést a 2003 évre!

35. feladat megoldása Graphs... / Sequence...: Variables: takarek, Time Axis Labels: EV. Analyze / Regression / Curve Estimation: Dependent: takarek, Independent:  Time, Models: Exponential Save...: Save variables:  Predicted Values,  Residuals, Save...: Predict Cases: Predict through observations: 32 Graphs... / Sequence...: Variables: takarek, fit_1, Time Axis Labels: ev.

A szezonális komponens figyelembevétele 36. feladat A szezonális komponens figyelembevétele Gépeljük be az alábbi adatokat az SPSS-be! A Magyarországra látogató osztrák turisták számát tartalmazza 1988-1994 között negyedéves bontásban! Adjuk meg a dekompozíciós felbontást számolva a nyilvánvalóan meglévő szezonális komponenssel is!

36. feladat megoldása Data / Define Dates...: Cases Are: Years, quaters, First Case Is: Year: 1988, Quarter: 1 (OK). Analyze / Time Series / Seasonal Decomposition: Variables: turista  Additive (OK) Graphs / Sequences: Variables: turista, stc_1, saf_1, err_1

37. feladat Dekompozíciós modell mozgó átlagolással A táblázat a forint dollárárfolyamának havi adatait tartalmazza 1991 január és 1995 július között. Keressük meg a szezonális és a trendkomponenst mozgó átlagolással!

37. feladat megoldása Data / Define Dates...: Cases Are: Years, months, First Case Is: Year: 1991, Month: 1 Analyze / Time Series / Seasonal Decomposition: Variables: arfolyam  Multiplicative Graphs / Sequences: Variables: huf_usd, sas_1, stc_1, saf_1, err_1  One chart per variable

Dekompozíció nemlineáris trenddel és szezonális hatással 38. feladat Dekompozíció nemlineáris trenddel és szezonális hatással A táblázat a magyarországi sörtermelés alakulását mutatja 1950-1994 között (millió liter). Készítsen dekompozíciós modellt a magyarországi sörtermelés (sor) idősorára! Csak az 1950-1989 időszakot vegye figyelembe a modellezésnél, és a kapott illesztés alapján prognosztizálja a termelés alakulását az 1990-1994 időszakra! Jelenítse meg együtt a becslést és a valódi idősort!

38. feladat megoldása Data / Define Dates: Cases Are: Years, First Case Is: Year: 1950 Data / Select cases:  Based on time or case range year 1950 thru year 1989 Analyze / Regression / Curve Estimation: Dependents: sor, Independent:  Time Models:  Linear (Quadratic, Cubic...), Save: Save variables:  Predicted Values, Save: Predict Cases:  Predict through year: 1994 (OK) Data / Select Cases:  All Cases Graphs / Sequence...: Variables: sor, fit_1 (OK)