Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Szekunder adatok & Alkalmazott statisztikai alapok

Hasonló előadás


Az előadások a következő témára: "Szekunder adatok & Alkalmazott statisztikai alapok"— Előadás másolata:

1 Szekunder adatok & Alkalmazott statisztikai alapok

2 A szekunder adatok típusai
Nyers adatok (raw data) Összegyűjtött adatok (compiled data): válogatás vagy összegzés eredményei. Gyakran több adatbázis egyesítéséből. Big data: óriási, komplex adatmennyiség, hagyományos módszerekkel nem/nehezen elemezhető

3 A szekunder adatok típusai
Dokumentum: Szöveg Nem szöveg (hang,kép, video stb.) Felmérés (survey): Népszámlálás (cenzus) Folyamatos vagy rendszeres felmérések Ad hoc felmérések Több forrásból származó: Pillanatfelvétel (snap shot) Idősoros (longitudinal)

4 Szekunder források előnyei
Erőforrás-kímélő: idő, pénz, munkaerő Nem sért érdekeket (mert már eleve létezik, valamennyire publikus) Lehetővé teszi az idősoros elemzést (visszafelé) A primer adatok összehasonlítási, kontextusba helyezési alapot adhat Nem vár eredményeket rejthetnek Elérhető, ellenőrizhető mások által (megbízható)

5 Hátrányai Más célra optimalizálták a gyűjtését Elérési nehézségek, ár
Az aggregáció szintje, a definíciók sokszor nem megfelelőek Nincs kontroll a minősége felett

6 Értékelésük Mérési validitás (measurement validity):
A kívánt információt (változó) mérték-e meg? Lefedettség (coverage): a kívánt populációra vonatkozik-e? Nem kívánt adatok kiszűrhetőek-e… …miközben a kívánatosak megtarthatóak Precizitás (reliabilitás, validitás) Mérési torzítás. Okai lehetnek: Szándékos Megváltozott az adatgyűjtési mód Nem a kívánt témára vonatkozik a mérés

7 Statisztikai módszerek és adatelemzés
Skálák Elfogadott módszerek: szekunder elemzésből A minta használhatósága: A nem használható elemszámú csoportokat kihagyni, amikor a csoportok vannak terítéken, de visszatenni, ha az egyes csoportfüggetlen esetek, vagy más szempontú csoportok A legegyszerűbb: Gyakoriságok: célszerű ábrázolni (sorrend, ábratípus) Relatív gyakoriság: százalék, ha „illik” Primitív kereszttáblák: mutatók nélkül

8 Statisztikai módszerek és adatelemzés
Két csoport összehasonlítása: Nominális vagy ordinális függő változó: kereszttábla Intervallum vagy arányskála: t-próba Regresszió-analízis (lineáris vagy binomiális) Több csoport összehasonlítása: Intervallum vagy arányskála: ANOVA (post-hoc tesztekkel) vagy páronként elvégzett t-próba, de leginkább mindkettő Dummyzás után regresszió-analízis (lineáris vagy binomiális)

9 Statisztikai módszerek és adatelemzés
Változók közti együttjárás: Lineáris (Pearson) vagy nem-parametrikus (pl. Spearman) korreláció Lineáris regresszió (vagy más típusú regresszió) Ha a magyarázó változó intervallum vagy arányskálás és a függő alacsonyabb: Megfordítjuk a kérdést Diszkriminancia-analízis Binomiális vagy multinomiális regresszió Ha sok a változónk: előkészítés után valamilyen regresszió Interpretálás: Helyes kódolás és jelölés (pl. 0-1) Label-ök használata

10 folyamatos változók (pl. életkor, se Na)
folyamatos változók (pl. életkor, se Na) normál eloszlású nem normál eloszlású 2 független csoport összehasonlítása két mintás t-próba Mann-Whitney teszt Szignifikánsan különbözik-e a súlyos és nem súlyos betegek vércukor értéke? 2 kapcsolt csoport összehasonlítása (pl. érték kezelés előtt és kezelés után) páros t próba Wilcoxon teszt Megváltozik-e a betegek fehérvérsejt száma a kezelés hatására? Változik-e a betegek koleszterinszintje 10 év követés alatt? 3 vagy több független csoport összehasonlítása egy szempontos ANOVA Kruskal-Wallis teszt Van-e különbség a különböző Dukes stadiumú betegek hemoglobin szintjében? 3 vagy több kapcsolt csoport összehasonlítása ismételt méréses ANOVA Friedman próba Az ismételt mérések során változik-e a betegek BMI-je? Forrás: Gombos Tímea előadása: Paraméteres és nem paraméteres próbák alkalmazása több csoport összehasonlítására folytonos változók esetén.

11 Adatközlés statisztikai elemzés után
Elfogadhatóság: Praktikus szempontok Szignifikancia-szintek Jóságmutatók (pl. R-négyzet) Egymást kiegészítő információk: pl. átlag és szórás Az elégséges és szokásos minimum Melléklet: nagy adattáblák Outputokat, grafikonokat mindig átszerkeszteni, fordítani Értelmezést segítő ábrák, szöveges magyarázatok Néha az adatbázist is elérhetővé kell tenni Bizonyíthatóság, feltevések explicitté tétele!

12 A szoftverek Számolni mind tud, de kérdés közöl-e mindent!
Excel – a minimumot tudja, de sokszor nem közöl szignifikanciát SPSS – kényelmes, közismert de fizetős Gretl, R-nyelv, PSPP és célprogramok Amit nem közölnek, „gyalog” sokszor kiszámolható


Letölteni ppt "Szekunder adatok & Alkalmazott statisztikai alapok"

Hasonló előadás


Google Hirdetések