Szekunder adatok & Alkalmazott statisztikai alapok
A szekunder adatok típusai Nyers adatok (raw data) Összegyűjtött adatok (compiled data): válogatás vagy összegzés eredményei. Gyakran több adatbázis egyesítéséből. Big data: óriási, komplex adatmennyiség, hagyományos módszerekkel nem/nehezen elemezhető
A szekunder adatok típusai Dokumentum: Szöveg Nem szöveg (hang,kép, video stb.) Felmérés (survey): Népszámlálás (cenzus) Folyamatos vagy rendszeres felmérések Ad hoc felmérések Több forrásból származó: Pillanatfelvétel (snap shot) Idősoros (longitudinal)
Szekunder források előnyei Erőforrás-kímélő: idő, pénz, munkaerő Nem sért érdekeket (mert már eleve létezik, valamennyire publikus) Lehetővé teszi az idősoros elemzést (visszafelé) A primer adatok összehasonlítási, kontextusba helyezési alapot adhat Nem vár eredményeket rejthetnek Elérhető, ellenőrizhető mások által (megbízható)
Hátrányai Más célra optimalizálták a gyűjtését Elérési nehézségek, ár Az aggregáció szintje, a definíciók sokszor nem megfelelőek Nincs kontroll a minősége felett
Értékelésük Mérési validitás (measurement validity): A kívánt információt (változó) mérték-e meg? Lefedettség (coverage): a kívánt populációra vonatkozik-e? Nem kívánt adatok kiszűrhetőek-e… …miközben a kívánatosak megtarthatóak Precizitás (reliabilitás, validitás) Mérési torzítás. Okai lehetnek: Szándékos Megváltozott az adatgyűjtési mód Nem a kívánt témára vonatkozik a mérés
Statisztikai módszerek és adatelemzés Skálák Elfogadott módszerek: szekunder elemzésből A minta használhatósága: A nem használható elemszámú csoportokat kihagyni, amikor a csoportok vannak terítéken, de visszatenni, ha az egyes csoportfüggetlen esetek, vagy más szempontú csoportok A legegyszerűbb: Gyakoriságok: célszerű ábrázolni (sorrend, ábratípus) Relatív gyakoriság: százalék, ha „illik” Primitív kereszttáblák: mutatók nélkül
Statisztikai módszerek és adatelemzés Két csoport összehasonlítása: Nominális vagy ordinális függő változó: kereszttábla Intervallum vagy arányskála: t-próba Regresszió-analízis (lineáris vagy binomiális) Több csoport összehasonlítása: Intervallum vagy arányskála: ANOVA (post-hoc tesztekkel) vagy páronként elvégzett t-próba, de leginkább mindkettő Dummyzás után regresszió-analízis (lineáris vagy binomiális)
Statisztikai módszerek és adatelemzés Változók közti együttjárás: Lineáris (Pearson) vagy nem-parametrikus (pl. Spearman) korreláció Lineáris regresszió (vagy más típusú regresszió) Ha a magyarázó változó intervallum vagy arányskálás és a függő alacsonyabb: Megfordítjuk a kérdést Diszkriminancia-analízis Binomiális vagy multinomiális regresszió Ha sok a változónk: előkészítés után valamilyen regresszió Interpretálás: Helyes kódolás és jelölés (pl. 0-1) Label-ök használata
folyamatos változók (pl. életkor, se Na) folyamatos változók (pl. életkor, se Na) normál eloszlású nem normál eloszlású 2 független csoport összehasonlítása két mintás t-próba Mann-Whitney teszt Szignifikánsan különbözik-e a súlyos és nem súlyos betegek vércukor értéke? 2 kapcsolt csoport összehasonlítása (pl. érték kezelés előtt és kezelés után) páros t próba Wilcoxon teszt Megváltozik-e a betegek fehérvérsejt száma a kezelés hatására? Változik-e a betegek koleszterinszintje 10 év követés alatt? 3 vagy több független csoport összehasonlítása egy szempontos ANOVA Kruskal-Wallis teszt Van-e különbség a különböző Dukes stadiumú betegek hemoglobin szintjében? 3 vagy több kapcsolt csoport összehasonlítása ismételt méréses ANOVA Friedman próba Az ismételt mérések során változik-e a betegek BMI-je? Forrás: Gombos Tímea előadása: Paraméteres és nem paraméteres próbák alkalmazása több csoport összehasonlítására folytonos változók esetén.
Adatközlés statisztikai elemzés után Elfogadhatóság: Praktikus szempontok Szignifikancia-szintek Jóságmutatók (pl. R-négyzet) Egymást kiegészítő információk: pl. átlag és szórás Az elégséges és szokásos minimum Melléklet: nagy adattáblák Outputokat, grafikonokat mindig átszerkeszteni, fordítani Értelmezést segítő ábrák, szöveges magyarázatok Néha az adatbázist is elérhetővé kell tenni Bizonyíthatóság, feltevések explicitté tétele!
A szoftverek Számolni mind tud, de kérdés közöl-e mindent! Excel – a minimumot tudja, de sokszor nem közöl szignifikanciát SPSS – kényelmes, közismert de fizetős Gretl, R-nyelv, PSPP és célprogramok Amit nem közölnek, „gyalog” sokszor kiszámolható