Gazdasági informatika 2001/2002. tanév II. félév Gazdálkodási szak Nappali tagozat
1. BECSLÉS Intervallumbecslés Pontbecslés Adott valószínűség mellett megadjuk, hogy az adott értéknek mekkora az alsó-felső határa Pontbecslés Egyetlen érték
Számtani átlag becslése Pontbecslés Intervallumbecslés Egyetlen érték: xa Egyszerű számtani átlga Súlyozott számtani átlag [xa ± Δ] Δ: Hibahatár = z * : Becslés standard hibája Z: standard normális valószínűségi változó Függvények: = ÁTLAG() = ÁTLAG () = MEGBÍZHATÓSÁG() – hibahatár kiszámítása
Példa Egy főiskola hallgatóinak köréből egyszerű véletlen mintát vettünk. (n:=105 fő).Célunk a hallgatók szorgalmi időszakon belüli teljesítmény- szintjének vizsgálata. Ehhez egy véletlenszerűen kiválasztott tantárgy zárthelyi dolgozatainak teljesítmény % -át jegyeztük fel. Mekkora becsült átlag! Mekkora 95%-os valószínűség mellett a becsült átlag intervalluma?
Megoldás [65,19-3,23; 65,19 + 3,23] = [61,96; 68,42 ] Hibahatár: = MEGBÍZHATÓSÁG(Megbízhatósági szint;szórás;elemszám) = = MEGBÍZHATÓSÁG(0,05,19; 16,9;105)
MEGBÍZHATÓSÁG() Egy statisztikai sokaság várható értékének megbízhatósági intervallumát adja eredményül megbízhatósági intervallum a középérték mindkét oldalán azonos méretű. Paraméterei: Alfa: A megbízhatósági szint kiszámításához használt pontossági szint. A megbízhatósági szint egyenlő 100*(1 - alfa), másképpen kifejezve, 0,05 alfaérték 95%-os megbízhatósági szintet takar. Szórás A sokaságnak az adattartományon vett szórása; feltételezzük, hogy ismert. Elemszám A minta mérete
Szórás becslése = SZÓRÁS() függvénnyel
2. HIPOTÉZISELLENŐRZÉS Statisztikai próbák
Próbák Próba Alkalmazása Z-próba T-próba (egymintás) (kétmintás) Mintából számított átlag összevetése egy a mintától független értékhez (norma, szabvány, korábbi érték….) és a szórás is kivülről származik nem a mintából! T-próba (egymintás) Mintából számított átlag összevetése egy a mintától független értékhez (norma, szabvány, korábbi érték….) és a szórás a mintából származik! (kétmintás) Két egymástól független mintavétel eredményét akarjuk hasonlítani. (pl. Két főiskola átlagos tanulmányi eredményeinek összehasonlítása) F-próba Két minta szórásának összehasonlítása vagy kettőnél több minta átlagának összehasonlítása – Variancia analízis 2 (khi)-próba Illeszkedésvizsgálat – sokaságok eloszlásának vizsgálata; ismérvek függetlenségének bizonyítása; mintabeli szórások és a teljes sokaságra vonatkozó szórások összehasonlítása
Fogalmak – Ismétlés! Hipotézis: Előzetes feltevés Konfidencia intervallum: elfogadási tartomány Hipotézisellenőrzés: a mintából számított statisztikai jellemzőket egy korábbi teljes körű felvétel eredményeihez vagy egy másik mintavételhez hasonlítjuk. Eredmények közötti számszerű eltérés lényeges: - szignifikáns Nullhipotézis: Feltételezzük a két vizsgált érték egyenlőségét Ellenhipotézis (alternatív hipotézis) – nullhipotézis ellentéte Egyoldalú - < vagy > Kétoldalú - nem egyenlő reláció!
Kétoldali alternatív hipotézis
1. Példa Egy felsőoktatási intézményben a hallgatók közül egyszerű véletlen módszerrel kiválasztunk 105 főt. Egy ugyancsak véletlenszerűen kiválasztott tantárgyra vonatkozóan kiszámítottuk teljesítményszázalékuk átlagát: 65.19%. Egy korábbi teljes körű adatgyűjtésből tudjuk, hogy a hallgatók teljesítmény-százalékának átlaga 67,5% 18,1%-os szórás mellett! Feladat: 5%-os szignifikancia szint mellett vizsgáljuk meg, hogy változott-e a teljes körű felvétel óta a vizsgált felsőfokú intézményhallgatóinak átlagos teljesítmény – százaléka! Megoldás: Z- próba
Minta adatokat tartalmazó munkafüzet Megoldás =z.próba(adatok;megadott átlag;megadott szórás) = 0,99, Azaz már 1% -os szignifikancia szinten állíthatjuk, hogy nem változott az átlag! Minta adatokat tartalmazó munkafüzet Megjegyzés: Z táblabeli érték külön nincs az Excelben, mivel azon értékek majdnem megegyeznek a T táblabeli értékekkel!
z.próba A kétszélű z-próbával kapott P-értéket (az aggregált elsőfajú hiba nagyságát) számítja ki. A függvénnyel egy adott statisztikai sokaságból egy meghatározott esemény bekövetkezésének valószínűségét számíthatjuk ki. Paraméterei:(tömb;x;szigma) Tömb: Az x-szel összevetendő adatokat tartalmazó tömb vagy tartomány. X: Vizsgálandó érték Szigma: A sokaság (ismert) szórása. Ha nem adjuk meg, akkor a minta szórását használja a függvény. Elsőfajú hiba, ha nullhipotézis igaz, és ennek ellenére elvetjük! (Értéke: Alfa) – Hogy elfogadjuk, annak a valószínűsége 1-Alfa
Megoldás: kétmintás t-próba 2. Példa Egy minta jellemzői: elemszám:105; szórás: 16,9; átlag:65,19 Másik minta jellemzői: elemszám:50; szórás: 17,5; átlag:62,8 Feladat: Azonosnak tekinthető-e a két minta átlaga? Megoldás: kétmintás t-próba
Megoldás =t.próba()
t.próba A Student-féle t-próbához tartozó valószínűséget számítja ki. A T.PRÓBA például annak eldöntésére használható, hogy két minta valószínűleg azonos középértékkel rendelkező ugyanazon két statisztikai sokaságból származik-e. Paraméterei: (tömb1;tömb2;szél;típus) Tömb1: első adathalmaz Tömb2:második adathalmaz Szél:értékei 1 – egyszélű; 2 - kétszélű Típus:t próba fajtája: 1: Párosított 2: Kétmintás egyenlő variancia 3: Kétmintás nem egyenlő variancia
Inverz.t A függvény a megadott szabadságfok mellett a Student-féle t-eloszlás inverzét számítja ki. Paraméterei:(valószínűség;szabadságfok) Valószínűség:A Student-féle t-eloszláshoz tartozó valószínűség Szabadságfok:Az eloszlás szabadságfokának száma. Egyszélű t-értéket kapunk eredményül, ha a valószínűség helyett a 2*valószínűség értéket használjuk. Ha a valószínűség 0,05, a szabadságfokok száma 10, a kétszélű értéket az INVERZ.T(0,05;10) kifejezés adja, amelynek értéke 2,28139. Az egyszélű érték ugyanennél a valószínűségnél és szabadságfoknál INVERZ.T(2*0,05;10) alakban számítható, amelynek eredménye 1,812462.
Minta adatokat tartalmazó munkafüzet 3.Példa Két minta áll rendelkezésünkre. Hasonlítsuk össze ezek szórását! - 5 %-os szignifikancia – szint mellett vizsgáljuk meg, hogy azonosnak tekinthető-e a két minta szórása! Minta adatokat tartalmazó munkafüzet Minták Elemszám Szórás % 1. 105 16,9 2. 50 17,5 Megoldás: F - próba
Megoldás Próbafüggvény értéke: Kétoldalú hipotézishez F táblabeli érték Számított (1,07)< Táblabeli (1,53), ezért 5%-os szignifikancia szinten állíthatjuk, hogy a két minta szórása azonos – nincs a szórások között szignifikáns különbség
Megoldás – Excellel! =F.próba(tömb1;tömb2) = 0,95 Ennyi a valószínűsége, hogy a két minta nem különbözik egymástól! , azaz 5%-os szignifikancia szinten állíthatjuk, hogy a két minta szórása azonos. F táblabeli érték: =inverz.f()
f.próba Az F-próba értékét adja eredményül. Az F-próba az egyszélű valószínűségét adja meg annak, hogy a tömb1 és a tömb2 szórásnégyzete nem különbözik egymástól szignifikánsan. Ezzel a függvénnyel azt állapíthatjuk meg, hogy két minta szórásnégyzete különbözik-e egymástól. Segítségével például megállapíthatjuk, hogy az állami és a magániskolák tanulóinak tanulmányi eredményei szignifikánsan különböznek-e egymástól. Paraméterei: (tömb1;tömb2)
Inverz.f Az F-eloszlás inverzének értékét számítja ki. F táblabeli érték Paraméterei: (valószínűség;szabadságfok1;szabadságfok2) Szabadságfok1: számláló szabadságfoka Szabadságfok2: nevező szabadságfoka
Khi.próba Függetlenségvizsgálatot hajt végre. A KHI.PRÓBA függvény a khi-négyzet (γ2) eloszláshoz rendelt értéket adja vissza a statisztika és a szabadságfokok érvényes száma szerint. A γ2 próba összehasonlítja a várható értéket a megfigyelt adatokkal. Paraméterei:(tényleges_tartomány;várható_tartomány)
Megjegyzés Táblabeli értékeket az inverz.X (x: próba neve – t;khi;F) függvényekkel számoltathatjuk ki!
3. ANALYSIS TOOLPAK VBA
Eszközök menü - Bővítménykezelő
Eszközök - Adatelemzés
Leíró statisztikák
Példa: Adott egy osztály matematikából kapott eredménye. Számítsuk ki a jellemző középértékeket (átlag, medián, módusz) valamint a szórást!
Megoldás Eszközök menü AdatelemzésLeíró statisztika Leíró statisztika párbeszédpanel
Leíró statisztika párbeszédpanel beállításai Bemeneti tartomány Csoportosítási alap Feliratok az első sorban/oszlopban Várható értékek konfidenciaszintje K-adik legnagyobb K-adik legkisebb Kimeneti tartomány Összesítő statisztika
Végeredmény Várható érték = ÁTLAG(tartomány) Medián= MEDIÁN(tartomány) Módusz= MÓDUSZ (tartomány) Szórás = SZÓRÁS(tartomány) Variancia = VAR(tartomány) Csúcsosság= CSÚCSOSSÁG (tartomány) Ferdeség = FERDESÉG(tartomány) Tartomány = MAX() – MIN() Minimum = MIN(tartomány) Maximum = MAX(tartomány) Összeg = SZUM(tartomány) Darabszám = DARAB(tartomány) Legnagyobb(k)=NAGY(tratomány;k) Legkisebb(k) = KICSI(tartomány;k)
Gyakoriság
Feladat Az előző feladatban közölt adatokkal dolgozva állapítsuk meg a gyakoriságokat – hány hallgató kapott 1,2,3,4,5 osztályzatot matematikából? Készítsünk diagramot is!
Megoldás EszközökAdatelemzés Hisztogram menüpont Ha a példában látható módon adjuk meg a rekesztartományt, akkor ügyeljünk arra, hogy a Feliratok négyzet legyen bejlölve, ezzel jelezve, hogy az első cella nem számadatot, hanem feliratot tartalmaz – ennek eredményeként a megjelenített táblázat fejlécében nem a Rekesz alapértelmezett szöveg jelenik meg, hanem az, amit mi az első sorban megadtunk!
Hisztogram párbeszédablak pontjai Bementi tartomány - adatok Rekesztartomány – csoportosítási szempont (nem kötelező megadni) Feliratok – ekkor a megadott tartományok első sorát feliratként kezeli! Kimeneti beállítások Eredmény megjelenítésének helye Tartomány - adatokat tartalmazó munkalapon belül Új munkalap Új munkafüzet Paraeto – Rendezett oszlopdiagram felrajzolása – csökkenő sorrendben megjelenítve, kezdve a leggyakoribb adattal Halmozott százalék – kummulált relatív gyakoriság kiszámolása Diagram kimenet – adatok oszlopdiagramban ábrázolása
Paraeto
Mozgóátlag Alkalmazása: azon idősoroknál, melyek az adatokat rövidebb időszakokra bontva tartalmazzák
Példa Adatokat egy oszlopban vagy egy sorban kell elhelyezni!
Megoldás
Több minta átlagának összehasonlítása Varianciaanalízis Több minta átlagának összehasonlítása
Példa Minták Elemszám Átlag % Szórás % 1. 105 65,19 16,9 2. 50 62,8 Összehasonlítandó minták adatai: Kérdés: Azonosak-e a minták átlagai? Minták Elemszám Átlag % Szórás % 1. 105 65,19 16,9 2. 50 62,8 17,5 3. 65 68,1 18,2 4. 30 66,2 15,4 VARIANCIAANALÍZIS
Megoldás A példában szereplő táblázatban nem a minta adatai találhatók, hanem az azokból számított adatok! A varianciaanalízis elvégzéséhez pedig a minta adatokra van szükségünk! Mit tehetünk! Válasz: Előállíthatunk olyan mintaadatokat, melyekből számított értékek a megadott értékeknek felelnek meg ez az első lépés
Mintaadatok előállítása a példabeli értékeknek megfelelően EszközökAdatelemzésVéletlenszám - generátor
Véletlenszám-generátor párbeszédablak Változók száma Véletlenszámok száma – azaz a minta elemszáma Eloszlás – mi csak a Normális eloszlással foglalkoztunk! Paraméterek – a kiválasztott eloszlástípusnak megfelelően jelennek meg a mezők (pl. Normális eloszlásnál: Várható érték és szórás) Kimeneti beállítások
Megoldás Véletlenszám-generátorral 4 minta előállítása egymás mletti oszlopokba! EszközökAdatelemzésEgytényezős varianciaanalízis
Egytényezős varianciaanalízis eredménye Kérdésre a választ az F oszlop és az F krit. Oszlop értékeinek összehasonlításával nyerjük! F krit.: F táblabeli érték 5%-os szignifikancia szinten. F: kiszámított F érték - véletlenszám-generálás miatt ez mindenkinél más lehet! Megjegyzés: A véletlenszám-generálás miatt az F érték más lehet! Nullhipotézis: Az átlagok azonosak. Ha F < F krit., akkor a nullhipotézist elfogadjuk, ellenben elvetjük! 2,03 < 2,6, ezért a nullhipotézist elfogadjuk, azaz 5%-os szignifikancia szinten állíthatjuk, hogy a minták átlagai között számottevő különbség nincs!
Variaancianalízis értékei SS Külső szórás Belső szórás df Szabadságfok (minták dbszáma-1; összes minta együttes elemszáma – mintákdbszáma; Összes minta db száma -1 ) MS F próba számlálója MS = SS\df F próba nevezője F F kiszámított érték = MS \MS F krit. F táblabeli érték
Összefoglalás Függvény Angol Magyar MEGBÍZHATÓSÁG CONFIDENCE SZÓRÁS STDEV Z.PRÓBA ZTEST T.PRÓBA TTEST F.PRÓBA FTEST KHI.PRÓBA CHITEST INVERZ.T TINV INVERZ.F FINV INVERZ.KHI CHIINV