Minőségi adatok biztosítása az adattárházakban Készítette: Fehér Péter
Az adattárházban lévő adatok minősége alapvetően a forrásrendszerekben lévő adatok minőségétől függ. Az adatok egy ún. „előfeldolgozási metóduson” esnek át, mielőtt az adattárházba kerülnének. Az előfeldolgozás 4 területe: Adattisztítás Adatok integrálása Adatok transzformálása Adatok redukálása Készítette: Fehér Péter
Készítette: Fehér Péter
A való életben az adatok legtöbbször igen hiányosak, zajosak, inkonzisztensek. Különböző eljárásokat használunk ezek kiküszöbölésére Készítette: Fehér Péter
Hogyan töltsük ki a hiányzó értékeket? Figyelmen kívül hagyjuk az adott rekordot Manuális kitöltés Globális konstans Átlagérték Csoportosított átlagérték Legvalószínűbb érték Készítette: Fehér Péter Torzítják az adatokat!
Zaj: véletlenszerű hiba vagy ingadozás Hogyan simítsuk a zajokat? Kosarazás Klaszterezés Számítógépes/emberi vizsgálat Regresszió Készítette: Fehér Péter
Nyers adatok: 21, 8, 15, 24, 21, 25, 4, 34, 28 Rendezett adatok: 4, 8, 15, 21, 21, 24, 25, 28, Készítette: Fehér Péter Simítás átlagok szerint: 1. kosár: 9, 9, 9 2. kosár: 22, 22, kosár: 29,29, 29 Simítás határok szerint: 1. kosár: 4, 4, kosár: 21, 21, kosár: 25, 25, 34 Eredeti kosarak: 1. kosár: 4, 8, kosár: 21, 21, kosár: 25, 28, 34
A hasonló értékeket klasztereknek nevezett csoportokba osztják fel. Azok az értékek lesznek szélsőségesek, amelyek nem tartoznak egy klaszterhez sem Készítette: Fehér Péter
A számítógép átvizsgálja az adatokat, majd azokat, amiknél a várttól való eltérés átlép egy bizonyos küszöbértéket, felcímkézi. Ezt követően egy ember átvizsgálja az így kigyűjtött adatokat, hogy ellenőrizze a számítógép munkáját. Gyorsabb, mint a teljes adatállomány manuális átvizsgálása Készítette: Fehér Péter
Az adatainkat egy függvényre illesztjük. Lineáris regresszió esetén az adatok egy egyenesre való illeszkedését, többdimenziós lineáris regresszió esetén pedig egy síkra való illeszkedését vizsgáljuk Készítette: Fehér Péter
Az adatok integrálása alatt a több forrásból származó adatok egy koherens adatbázisba történő egyesítését értjük. Az integrálás során számos probléma felmerülhet: egyedazonosítási anomália, redundancia, ellentmondó értékek Készítette: Fehér Péter
Hogyan feleltethetőek meg egymásnak a különböző forrásból érkező, eltérő nevű, ám mégis ekvivalens értékű attribútumok? A válasz: metaadatok. (erre még később visszatérünk ) Készítette: Fehér Péter
Egy attribútum akkor redundáns, ha a többi rendelkezésre álló attribútumból kiszámítható. Megoldás: korrelációanalízis Redundancia nem csak attribútumok között szerepelhet, hanem a sorok között is, természetesen ezt is szűrni kell Készítette: Fehér Péter
Ellentmondó értékeket okozhat az, ha a különböző rendszerekben különböző reprezentációval tárolják az adatokat. (pl.: angolszász és metrikus rendszer közötti eltérések) Készítette: Fehér Péter
A transzformálás során a forrásadatokat a célnak megfelelő formába hozzuk. Módszerek: Simítás Összevonás Adatok általánosítása Normalizálás Attribútumok konstrukciója Készítette: Fehér Péter
Az adatokon összevonási, összegzési műveleteket hajtunk végre. Akkor alkalmazzuk, amikor kevésbé részletes adatokra van szükségünk. (pl.: napi adatokból havi összegzés) Készítette: Fehér Péter
Az alacsony szintű fogalmakat egy fogalmi hierarchia segítségével magasabb szintű fogalomra cseréljük. (pl.: pontos cím helyett csak a várost tároljuk) Készítette: Fehér Péter
Az attribútumok értékeit átskálázzuk, hogy azok egy bizonyos értéktartományba essenek (pl.: [0,1]). Típusai: Min-max normalizálás Standardizálás Decimális skálázás Készítette: Fehér Péter
A meglévő attribútumokból újakat hozunk létre. Például: vezetéknév + keresztnév = teljes_név szélesség + magasság = terület (redundancia?) Készítette: Fehér Péter
Az adatok redukálása során az adathalmaz egy olyan reprezentációját kapjuk, amelyik méretben jelentősen kisebb az eredetihez képest, mégis jól megőrzi az adatok integritását Készítette: Fehér Péter
Készítette: Fehér Péter
A dimenziócsökkentés úgy redukálja az adathalmaz méretét, hogy az irreveláns attribútumokat és/vagy dimenziókat eltávolítja. Erre olyan módszereket alkalmaznak, amelyek az attribútumok egy részhalmazát választják ki: Előrelépéses kiválasztás (üres halmazt bővíti) Visszalépéses kiválasztás (teljes halmazt csökkenti) Előző kettő kombinációja Készítette: Fehér Péter
Kódolási és transzformációs műveletek során egy tömörített reprezentációt állítunk elő. Ha az eredi adatok információveszteség nélkül visszaállítható, akkor veszteségmentes tömörítésről, ellenkező esetben veszteséges tömörítésről beszélünk. Két fő alkalmazott eljárás: wavelet transzformációk, főkomponens-analízis Készítette: Fehér Péter
Léteznek paraméteres és nem paraméteres eljárások. Paraméteres eljárások például a regressziós és loglineáris modellek. A loglineáris modellek segítségével minden cella értékének valószínűsége megbecsülhető a kockahálót alkotó kisebb részkockák alapján. Nem paraméteres eljárások: hisztogramok, klaszterezés, mintavételezés Készítette: Fehér Péter
Készítette: Fehér Péter Mintavételezési technikák
Diszkretizáció során az attribútumok által felvett értékek számát csökkentjük az értékkészlet intervallumokra osztásával. (fogalmi hierarchiákat generálunk) Készítette: Fehér Péter
Felhasznált irodalom: Jiawei Han, Micheline Kamber - Adatbányászat - Koncepciók és technikák David Marco – Building and Managing the Metadata Repository : A Full Lifecycle Guide Fon Silvers – Building and Maintaining a Data Warehouse Wikipedia Készítette: Fehér Péter