Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter

Hasonló előadás


Az előadások a következő témára: "Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter"— Előadás másolata:

1 Minőségi adatok biztosítása az adattárházakban Készítette: Fehér Péter

2 Az adattárházban lévő adatok minősége alapvetően a forrásrendszerekben lévő adatok minőségétől függ. Az adatok egy ún. „előfeldolgozási metóduson” esnek át, mielőtt az adattárházba kerülnének. Az előfeldolgozás 4 területe:  Adattisztítás  Adatok integrálása  Adatok transzformálása  Adatok redukálása Készítette: Fehér Péter

3 Készítette: Fehér Péter

4 A való életben az adatok legtöbbször igen hiányosak, zajosak, inkonzisztensek. Különböző eljárásokat használunk ezek kiküszöbölésére Készítette: Fehér Péter

5 Hogyan töltsük ki a hiányzó értékeket?  Figyelmen kívül hagyjuk az adott rekordot  Manuális kitöltés  Globális konstans  Átlagérték  Csoportosított átlagérték  Legvalószínűbb érték Készítette: Fehér Péter Torzítják az adatokat!

6 Zaj: véletlenszerű hiba vagy ingadozás Hogyan simítsuk a zajokat?  Kosarazás  Klaszterezés  Számítógépes/emberi vizsgálat  Regresszió Készítette: Fehér Péter

7 Nyers adatok: 21, 8, 15, 24, 21, 25, 4, 34, 28 Rendezett adatok: 4, 8, 15, 21, 21, 24, 25, 28, Készítette: Fehér Péter Simítás átlagok szerint: 1. kosár: 9, 9, 9 2. kosár: 22, 22, kosár: 29,29, 29 Simítás határok szerint: 1. kosár: 4, 4, kosár: 21, 21, kosár: 25, 25, 34 Eredeti kosarak: 1. kosár: 4, 8, kosár: 21, 21, kosár: 25, 28, 34

8 A hasonló értékeket klasztereknek nevezett csoportokba osztják fel. Azok az értékek lesznek szélsőségesek, amelyek nem tartoznak egy klaszterhez sem Készítette: Fehér Péter

9 A számítógép átvizsgálja az adatokat, majd azokat, amiknél a várttól való eltérés átlép egy bizonyos küszöbértéket, felcímkézi. Ezt követően egy ember átvizsgálja az így kigyűjtött adatokat, hogy ellenőrizze a számítógép munkáját. Gyorsabb, mint a teljes adatállomány manuális átvizsgálása Készítette: Fehér Péter

10 Az adatainkat egy függvényre illesztjük. Lineáris regresszió esetén az adatok egy egyenesre való illeszkedését, többdimenziós lineáris regresszió esetén pedig egy síkra való illeszkedését vizsgáljuk Készítette: Fehér Péter

11 Az adatok integrálása alatt a több forrásból származó adatok egy koherens adatbázisba történő egyesítését értjük. Az integrálás során számos probléma felmerülhet: egyedazonosítási anomália, redundancia, ellentmondó értékek Készítette: Fehér Péter

12 Hogyan feleltethetőek meg egymásnak a különböző forrásból érkező, eltérő nevű, ám mégis ekvivalens értékű attribútumok? A válasz: metaadatok. (erre még később visszatérünk ) Készítette: Fehér Péter

13 Egy attribútum akkor redundáns, ha a többi rendelkezésre álló attribútumból kiszámítható. Megoldás: korrelációanalízis Redundancia nem csak attribútumok között szerepelhet, hanem a sorok között is, természetesen ezt is szűrni kell Készítette: Fehér Péter

14 Ellentmondó értékeket okozhat az, ha a különböző rendszerekben különböző reprezentációval tárolják az adatokat. (pl.: angolszász és metrikus rendszer közötti eltérések) Készítette: Fehér Péter

15 A transzformálás során a forrásadatokat a célnak megfelelő formába hozzuk. Módszerek:  Simítás  Összevonás  Adatok általánosítása  Normalizálás  Attribútumok konstrukciója Készítette: Fehér Péter

16 Az adatokon összevonási, összegzési műveleteket hajtunk végre. Akkor alkalmazzuk, amikor kevésbé részletes adatokra van szükségünk. (pl.: napi adatokból havi összegzés) Készítette: Fehér Péter

17 Az alacsony szintű fogalmakat egy fogalmi hierarchia segítségével magasabb szintű fogalomra cseréljük. (pl.: pontos cím helyett csak a várost tároljuk) Készítette: Fehér Péter

18 Az attribútumok értékeit átskálázzuk, hogy azok egy bizonyos értéktartományba essenek (pl.: [0,1]). Típusai:  Min-max normalizálás  Standardizálás  Decimális skálázás Készítette: Fehér Péter

19 A meglévő attribútumokból újakat hozunk létre. Például:  vezetéknév + keresztnév = teljes_név  szélesség + magasság = terület (redundancia?) Készítette: Fehér Péter

20 Az adatok redukálása során az adathalmaz egy olyan reprezentációját kapjuk, amelyik méretben jelentősen kisebb az eredetihez képest, mégis jól megőrzi az adatok integritását Készítette: Fehér Péter

21 Készítette: Fehér Péter

22 A dimenziócsökkentés úgy redukálja az adathalmaz méretét, hogy az irreveláns attribútumokat és/vagy dimenziókat eltávolítja. Erre olyan módszereket alkalmaznak, amelyek az attribútumok egy részhalmazát választják ki:  Előrelépéses kiválasztás (üres halmazt bővíti)  Visszalépéses kiválasztás (teljes halmazt csökkenti)  Előző kettő kombinációja Készítette: Fehér Péter

23 Kódolási és transzformációs műveletek során egy tömörített reprezentációt állítunk elő. Ha az eredi adatok információveszteség nélkül visszaállítható, akkor veszteségmentes tömörítésről, ellenkező esetben veszteséges tömörítésről beszélünk. Két fő alkalmazott eljárás: wavelet transzformációk, főkomponens-analízis Készítette: Fehér Péter

24 Léteznek paraméteres és nem paraméteres eljárások. Paraméteres eljárások például a regressziós és loglineáris modellek. A loglineáris modellek segítségével minden cella értékének valószínűsége megbecsülhető a kockahálót alkotó kisebb részkockák alapján. Nem paraméteres eljárások: hisztogramok, klaszterezés, mintavételezés Készítette: Fehér Péter

25 Készítette: Fehér Péter Mintavételezési technikák

26 Diszkretizáció során az attribútumok által felvett értékek számát csökkentjük az értékkészlet intervallumokra osztásával. (fogalmi hierarchiákat generálunk) Készítette: Fehér Péter

27 Felhasznált irodalom: Jiawei Han, Micheline Kamber - Adatbányászat - Koncepciók és technikák David Marco – Building and Managing the Metadata Repository : A Full Lifecycle Guide Fon Silvers – Building and Maintaining a Data Warehouse Wikipedia Készítette: Fehér Péter


Letölteni ppt "Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter"

Hasonló előadás


Google Hirdetések