Gazdasági informatika II. 2006/2007. tanév II. félév Gazdálkodási szak Nappali tagozat
Statisztikai számítások Excellel Minta vizsgálata – LEÍRÓ STATISZTIKA Megjegyzés: a statisztikai függvények zömének paramétere az adathalmaz, ezért nem részletezzük az egyes függvények paraméterezését!
EMLÉKEZTETŐ - Alapfogalmak Statisztika tárgya: SOKASÁG – meghatározott tulajdonságok szerint egyformák, más tulajdonságok szerint viszont különbözőek Ismérv: sokaság egységeire vonatkozó jellemzők Közös ismérvek – egységek ez alapján egyformák Megkülönböztető ismérvek – ezek alapján különböznek egymástól az egységek
Sokaság típusok Álló sokaság – valamely időpontra vonatkozik Mozgó sokaság – valamely időtartamra vonatkozik
Ismérvek típusai Területi – földrajzi jellegű Időbeli – valamilyen időpontra vagy időtartamra utalnak Minőségi – nem számszerűsíthető - kvalitatív Mennyiségi – számmal kifejezhető – kvantitatív Az ismérv lehetséges kimenetei az ismérvértékek!
Statisztikai adatok Mérhető adatok (Kvantitatív): olyan adatok, melyek mérésből származnak. Megállapítható adat: Nem számadat, kategória – „kategorizált adat” (Kvalitatív): Pl. nem(férfi, nő); igen-nem válaszlehetőségek; 2 gyereke van – ebben az esetben az a fontos, hogy a kétgyermekes kategóriába tartozik.
Adattípusok fajtái Adattípusok fajtái a rendezhetőség és a köztük értelmezhető távolságfüggvény alapján: Nominális Ordinális Intervallum típusú Numerikus
Nominális adatok A mérés legalacsonyabb szintjét jelöli, amikor minden megfigyelt egyedet olyan adattal írunk le, melyek egymással nagyság szerint nem összehasonlíthatók Példa: dolgozó neve, születési helye, neme…stb. akkor is nominális, ha számban kódolt: pl. a dolgozó törzsszáma.
Ordinális adatok Bármely két adat összehasonlítható Példa: dolgozók iskolai végzettsége. Jellemző: Nincs távolság értelmezve az adatok között. (Pl. Nem lehet megmondani, hogy mennyivel értékesebb az érettségi a 8 általánosnál. ) Egyetlen művelet: adatok rendezése – olyan rangstatisztika alkalmazható, amely csak az adatok egymáshoz képesti rendezettségét használják. (Pl. átlagnak nincs értelme, de mediánnak és módusznak igen – ezekről a későbbiekben lesz szó).
Intervallum típusú adatok Sorba rendezhetőség mellett az egymástól való távolság is megadható. Példa: hőmérsékleti adatok Értelmetlen az egymáshoz viszonyított arányról beszélni: 20 C° kétszer olyan meleg, mint a 10C°.(A hőmérséklet a Kelvin skálán nem intervallum típusú!)
Numerikus adatok Valós számokkal jellemezhető adatok. Minden olyan műveletet végrehajthatunk ezekkel, amelyeket a valós számokkal.
Középértékek
Számított középértékek Matematikai összefüggés alapján számíthatók ki: Számtani (Aritmetikai) átlag Egyszerű Súlyozott Harmonikus átlag Mértani (Geometriai) átlag Négyzetes (Kvadratikus) átlag
Számtani átlag Számítsuk ki az adott osztály átlagát matematikából a megadott eredmények alapján! =ÁTLAG( ) - AVERAGE()
Mértani átlag Egy vállalat nyereségét tartalmazza az alábbi táblázat az 1982 – 92 években: =MÉRTANI.KÖZÉP – GEOMEAN() Feladat: Határozzuk meg az adott időszakra a nyereség növekedésének átlagos ütemét!
További átlagok megfelelő függvényei Harmonikus átlag – HARM.KÖZÉP() – HARMEAN()
Helyzeti középértékek A sokaságban elfoglalt helyzetüknél fogva jellemzik a sokaságot Valamilyen szabály szerint rendezni kell az adatokat Rangsor Előnye: Függetlenek a sokaság más tagjainak értékeitől – Heterogén sokaságok esetén jellemzőbbek, mint az átlagok
Helyzeti középértékek Kvantilis értékek – A sokaság mennyiségi ismérv szerinti eloszlásának tömör leírását adják meg k egyenlő rész neve Függvény 2 MEDIÁN =medián() = kvartilis() 3 TERICLIS 4 KVARTILIS 5 KVINTILIS 10 DECILIS 100 PERCENTILIS =Percentilis()
Feladat Tegyük fel, hogy egy üzem dolgozóinak elmúlt havi teljesítményszázalékai az alábbiak: - Határozzuk meg a mediánt! MEDIÁN X db Mediánnál kisebb Y db Mediánnál nagyobb X=Y
Excel függvényei MEDIÁN() – MEDIAN() KVARTILIS() – QUARTILE() PERCENTILIS() – PERCENTILE(): k-dik percentilis SZÁZALÉKRANG() – PERCENTRANK(): egy értéknek egy adathalmazon vett százalékos rangját adja MAX MIN KICSI() – SMALL():Egy adathalmaz k-dik legkisebb elemét adja értékül! NAGY() – LARGE(): Egy adathalmaz k-dik legnagyobb elemét adja értékül! SORSZÁM()- RANK(): Egy szám sorszámát adja, meg ha az adatokat sorba rendezzük
Próbálja ki! Rendezze át az adatokat! Módusz Leggyakrabban előforduló ismérvérték =MÓDUSZ() – MODE() Figyelem! Több azonos gyakoriságú adat esetén a sorrendben az elsőt adja móduszként! – Próbálja ki! Rendezze át az adatokat!
Képlet beírás befejezése: Feladat Készítsen kimutatást, hogy hány db 1;2;3;4 és 5 lett matematikából! ={GYAKORISÁG(tartomány; csoportosítási tömb)} TÖMBKÉPLET! Képlet beírás befejezése: [CTRL + SHIFT + ENTER]
Gyakoriság =Gyakoriság() – FREQUENCY() Adott adathalmazban melyik érték hányszor szerepel
Összefoglalás - Középértékek Az egyes adatfajtáknál milyen középértékeket alkalmazunk? Nominális Módusz Ordinális Medián Kvantitatív Átlag
Szóródás és mérése
Mérőszámok Terjedelem Interkvartilis félterjedelem Átlagos abszolút eltérés Szórás – Szórásnégyzet (Variancia) Relatív szórás (Variációs koefficiens)
Függvények az Excelben = SQ()- átlagtól való eltérések négyzetének összegét adja eredményül =SZÓRÁSP() –STDEVP()- szórás =VARP() – variancia (szórásnégyzet) =ÁTL.ELTÉRÉS – átlagos abszolút eltérés – AVEDEV()
Asszimmetria mérése
Ferdeség mérése =FERDESÉG() – SKEW() =CSÚCSOSSÁG() – KURT() A ferdeség az eloszlás középérték körüli aszimmetriájának mértékét jelzi. A pozitív ferdeség a pozitív értékek irányába nyúló aszimmetrikus eloszlást jelez, míg a negatív ferdeség a negatív értékek irányában torzított. =CSÚCSOSSÁG() – KURT() Egy adathalmaz csúcsosságát számítja ki. A függvény a normális eloszláshoz viszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A pozitív értékek viszonylag csúcsos, a negatív értékek viszonylag lapos eloszlást jelentenek. A FERDESÉG fv kimenete #ZÉRUOSZTÓ, ha az adatok száma 3-nál kisebb, illetve ha a minta szórása 0. A CSÚCSOSSÁG fv kimenete #ZÉRUOSZTÓ, ha az adatok száma 4-nél kisebb, illetve ha a minta normális eloszlása 0-val egyenlő.
Számláló - keresőfüggvények Adatok kezelése Számláló - keresőfüggvények
Függvények DARAB () - COUNT() DARAB2() – COUNTA() a megadott tartomány számmal kitöltött celláinak a számát adja DARAB2() – COUNTA() a megadott tartomány értékkel kitöltött celláinak (nem üres) a számát adja DARABTELI () – COUNTIF () a megadott tartományban megszámolja, hogy hány darab cella felel meg a megadott kritériumnak DARABÜRES () – COUNTBLANK () A megadott tartományban megszámolja hány db cella üres
Feladat A megadott adathalmaz egy osztály matematika eredményeit tartalmazza. Határozzuk meg, hogy hány db elégtelen lett! Vizsgáljuk meg, hogy van-e olyan tanuló, akinek nincs beírva az érdemjegy – még nem zárták le? =DARABTELI(tartomány; kritérium) =DARABÜRES(tartomány)
Feladat Készítsen kimutatást, hogy hány db 1;2;3;4 és 5 lett matematikából! Hány cellában van adat – azaz hány tanuló kapott már érdemjegyet? =DARABTELI(tartomány; kritérium) =DARAB(tartomány)
Idősorok elemzése
Trendszámítás - elmélet Trend: Az időben változó jelenségek alakulásában mindig megfigyelhetünk alapvető tendenciákat (növekedés, csökkenés…stb) Szezonális ingadozás: Rendszeresen visszatérő hullámzás Ciklushatás: fel-le mozgás hatása (konjunktúra - dekonjunktúra) Véletlen hatás: előre nem látható események befolyása
Trendszámítás formái Analitikus trendszámítás Mozgóátlagolású trendszámítás
Analitikus trendszámítás Megfigyelt jelenségek tapasztalatai alapján felírunk egy olyan függvényt, mely az időbeli változás alapirányzatát fejezi ki. Függvénytípusok: Lineáris Exponenciális Parabola Logisztikus (S-alakú)
Lineáris függvény felírása Egy vállalat dolgozóinak létszámváltozását tükröző lineáris függvény felírása, ábrázolása! Függvény egyenlete: Y:létszám – függő változó! X:év – független változó! Y=20,4*x+198,3 LIN.ILL függvényről ={LIN.ILL(létszám;évek;;;)}
LIN.ILL függvény Paraméterei: Y értékek X értékek Konstans: Igaz (b számítása normál módon történik) vagy Hamis (b értéke 0 lesz – ez az alapértelmezett érték) Nulla: IGAZ (kiegészítő elemzések készülnek) vagy HAMIS (nem készülnek kiegészítő elemzések – alapértelmezett érték)
LIN.ILL függvény használata Tömbképletként – Ha csak két adathalmazról van szó X és Y, akkor kettő cellát kijelölve a képlet beírása után CTRL+SHIFT+ENTER leütéssel képezzük a tömbképletet – LÁSD: példa! Ha nem alkalmazunk tömbképletet, akkor a kapott érték az egyenes meredeksége lesz – következő dia! 2 adatsor esetén alkalmazhatjuk a következőképpen is: Meredekség meghatározása: =INDEX(LIN.ILL(y;x);1); Y metszéspont meghatározása: =INDEX(LIN.ILL(y;x);2); Lásd! Következő dia!
Példák a LIN.ILL függvény alkalmazására
LIN.ILL alkalmazása, ha a nulla értéke IGAZ Kiegészítő statisztikákat számol ki az EXCEl, ha a nulla értékét IGAZ-ra állítjuk A statisztikákat tömbként adja meg a következő elrendezésben lásd! Következő dia! Ha a tömb elemeinek nagyobb tartományt jelölünk ki a statisztikák számán kívül, akkor a felesleges cellákban a #HIÁNYZIK üzenetet kapjuk!
LIN.ILL kiegészítő statisztikái együtthatók Együtthatók standard hibái Determináns együttható – összehasonlítja a becsült értékeket a tényleges értékekkel – értéke 0 és 1 közötti. Ha 1 akkor jó a becsült érték – azaz jó a lin. Egyenes ha 0, akkor nem jó! shy: az y becslés standard hibája F próba eredményeként kapott érték Df: Szabadságfok Ssreg: regressziós négyzetösszeg (y érték és az y értékek átlaga közötti eltérés négyzete) ssmarad:maradék négyzetösszeg (y becsült érték és a tényleges érték közötti eltérés négyzete) ∑℮2 =∑ (yi-yi^)2 mn mn-1…m1 b shn shn-1 shb r2 shy F Df ssreg ssmarad Az egyenes egyenlete: Y=m1x1+m2x2+…+b vagy y=mx+b
LIN.ILL kiegészítő statisztikái ∑℮2 = 43.9 Megjegyzés: ezen érték alapján lehet például eldönteni, hogy az exponenciális vagy a lineáris függvény a jobb! R2=1, azaz a lineáris függvény jól leírja az adatok tendenciáját! Szabadságfok: 5
Grafikon rajzolása – trendegyenesek Rajzoltassunk ki egy grafikont a közölt adatokból! (BeszúrásDiagram) Jelöljük ki a grafikont DiagramTrendvonal felvétele Típus lap: Tetszőleges függvény kiválasztása Egyebek lap: Beállíthatjuk, hogy az egyenlet látszódjon R négyzet értékét is megjeleníthetjük
Példa – Trendegyenes kirajzoltatása
Lineáris egyenes meredekségének és y tengelymetszetének meghatározása Külön függvényekkel (természetesen a LIN.ILL is ugyanezt adja eredményül) Meredekség: MEREDEKSÉG(y;x) = m Y tengelymetszet: METSZ(y;x) = b
Exponenciális függvény felírása Egy vállalat dolgozóinak létszámváltozását tükröző exponenciális függvény felírása, ábrázolása! LOG.ILL függvényről ={LOG.ILL(létszám;évek;;;)}
LOG. ILL függvény Ugyanazok az alkalmazások igazak erre a függvényre, mint a LIN.ILL-re! Paraméterezésük is azonos
Előrejelzés a trendegyenlet alapján Határozzuk meg a lineáris és exponenciális trend alapján, hogy mennyi lesz a létszám 2001-ben és 2002-ben! TREND(y;x;új_x;konstans) függvénnyel – lineáris NÖV(y;x;új_x;konstans) - exponenciális
Melyik egyenlet jellemzi jobban az adatok trendjét? A trend() alapján kapott érték kevésbé tér el a 220-tól (1994-es érték), mint a növ() alapján kapott érték, ezért azt mondhatjuk, hogy ezt az adatsort a lineáris egyenlet jellemzi jobban! Ugyanaezt a LIN.ill és a LOG.ILL kiegészítő statisztikáival is megállapíthatjuk! Eldönthető a NÖV(y;x) és TREND(y;x) függvényekkel, ha nem adjuk meg a 3. paramétert!
3. ANALYSIS TOOLPAK VBA
Eszközök menü - Bővítménykezelő
Eszközök - Adatelemzés
Leíró statisztikák
Példa: Adott egy osztály matematikából kapott eredménye. Számítsuk ki a jellemző középértékeket (átlag, medián, módusz) valamint a szórást!
Megoldás Eszközök menü AdatelemzésLeíró statisztika Leíró statisztika párbeszédpanel
Leíró statisztika párbeszédpanel beállításai Bemeneti tartomány Csoportosítási alap Feliratok az első sorban/oszlopban Várható értékek konfidenciaszintje K-adik legnagyobb K-adik legkisebb Kimeneti tartomány Összesítő statisztika
Végeredmény Várható érték = ÁTLAG(tartomány) Medián= MEDIÁN(tartomány) Módusz= MÓDUSZ (tartomány) Szórás = SZÓRÁS(tartomány) Variancia = VAR(tartomány) Csúcsosság= CSÚCSOSSÁG (tartomány) Ferdeség = FERDESÉG(tartomány) Tartomány = MAX() – MIN() Minimum = MIN(tartomány) Maximum = MAX(tartomány) Összeg = SZUM(tartomány) Darabszám = DARAB(tartomány) Legnagyobb(k)=NAGY(tratomány;k) Legkisebb(k) = KICSI(tartomány;k)
Gyakoriság
Feladat Az előző feladatban közölt adatokkal dolgozva állapítsuk meg a gyakoriságokat – hány hallgató kapott 1,2,3,4,5 osztályzatot matematikából? Készítsünk diagramot is!
Megoldás EszközökAdatelemzés Hisztogram menüpont Ha a példában látható módon adjuk meg a rekesztartományt, akkor ügyeljünk arra, hogy a Feliratok négyzet legyen bejlölve, ezzel jelezve, hogy az első cella nem számadatot, hanem feliratot tartalmaz – ennek eredményeként a megjelenített táblázat fejlécében nem a Rekesz alapértelmezett szöveg jelenik meg, hanem az, amit mi az első sorban megadtunk!
Hisztogram párbeszédablak pontjai Bementi tartomány - adatok Rekesztartomány – csoportosítási szempont (nem kötelező megadni) Feliratok – ekkor a megadott tartományok első sorát feliratként kezeli! Kimeneti beállítások Eredmény megjelenítésének helye Tartomány - adatokat tartalmazó munkalapon belül Új munkalap Új munkafüzet Paraeto – Rendezett oszlopdiagram felrajzolása – csökkenő sorrendben megjelenítve, kezdve a leggyakoribb adattal Halmozott százalék – kummulált relatív gyakoriság kiszámolása Diagram kimenet – adatok oszlopdiagramban ábrázolása
Paraeto
Mozgóátlag Alkalmazása: azon idősoroknál, melyek az adatokat rövidebb időszakokra bontva tartalmazzák
Példa Adatokat egy oszlopban vagy egy sorban kell elhelyezni!
Megoldás