Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaZsuzsanna Kerekesné Megváltozta több, mint 10 éve
1
Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter (peter.fhr@gmail.com)
2
Az adattárházban lévő adatok minősége alapvetően a forrásrendszerekben lévő adatok minőségétől függ. Az adatok egy ún. „előfeldolgozási metóduson” esnek át, mielőtt az adattárházba kerülnének. Az előfeldolgozás 4 területe: Adattisztítás Adatok integrálása Adatok transzformálása Adatok redukálása 2010-02-262Készítette: Fehér Péter (peter.fhr@gmail.com)
3
2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)3
4
A való életben az adatok legtöbbször igen hiányosak, zajosak, inkonzisztensek. Különböző eljárásokat használunk ezek kiküszöbölésére. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)4
5
Hogyan töltsük ki a hiányzó értékeket? Figyelmen kívül hagyjuk az adott rekordot Manuális kitöltés Globális konstans Átlagérték Csoportosított átlagérték Legvalószínűbb érték 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)5 Torzítják az adatokat!
6
Zaj: véletlenszerű hiba vagy ingadozás Hogyan simítsuk a zajokat? Kosarazás Klaszterezés Számítógépes/emberi vizsgálat Regresszió 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)6
7
Nyers adatok: 21, 8, 15, 24, 21, 25, 4, 34, 28 Rendezett adatok: 4, 8, 15, 21, 21, 24, 25, 28, 34 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)7 Simítás átlagok szerint: 1. kosár: 9, 9, 9 2. kosár: 22, 22, 22 3. kosár: 29,29, 29 Simítás határok szerint: 1. kosár: 4, 4, 15 2. kosár: 21, 21, 24 3. kosár: 25, 25, 34 Eredeti kosarak: 1. kosár: 4, 8, 15 2. kosár: 21, 21, 24 3. kosár: 25, 28, 34
8
A hasonló értékeket klasztereknek nevezett csoportokba osztják fel. Azok az értékek lesznek szélsőségesek, amelyek nem tartoznak egy klaszterhez sem. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)8
9
A számítógép átvizsgálja az adatokat, majd azokat, amiknél a várttól való eltérés átlép egy bizonyos küszöbértéket, felcímkézi. Ezt követően egy ember átvizsgálja az így kigyűjtött adatokat, hogy ellenőrizze a számítógép munkáját. Gyorsabb, mint a teljes adatállomány manuális átvizsgálása. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)9
10
Az adatainkat egy függvényre illesztjük. Lineáris regresszió esetén az adatok egy egyenesre való illeszkedését, többdimenziós lineáris regresszió esetén pedig egy síkra való illeszkedését vizsgáljuk. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)10
11
Az adatok integrálása alatt a több forrásból származó adatok egy koherens adatbázisba történő egyesítését értjük. Az integrálás során számos probléma felmerülhet: egyedazonosítási anomália, redundancia, ellentmondó értékek. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)11
12
Hogyan feleltethetőek meg egymásnak a különböző forrásból érkező, eltérő nevű, ám mégis ekvivalens értékű attribútumok? A válasz: metaadatok. (erre még később visszatérünk ) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)12
13
Egy attribútum akkor redundáns, ha a többi rendelkezésre álló attribútumból kiszámítható. Megoldás: korrelációanalízis Redundancia nem csak attribútumok között szerepelhet, hanem a sorok között is, természetesen ezt is szűrni kell. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)13
14
Ellentmondó értékeket okozhat az, ha a különböző rendszerekben különböző reprezentációval tárolják az adatokat. (pl.: angolszász és metrikus rendszer közötti eltérések) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)14
15
A transzformálás során a forrásadatokat a célnak megfelelő formába hozzuk. Módszerek: Simítás Összevonás Adatok általánosítása Normalizálás Attribútumok konstrukciója 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)15
16
Az adatokon összevonási, összegzési műveleteket hajtunk végre. Akkor alkalmazzuk, amikor kevésbé részletes adatokra van szükségünk. (pl.: napi adatokból havi összegzés) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)16
17
Az alacsony szintű fogalmakat egy fogalmi hierarchia segítségével magasabb szintű fogalomra cseréljük. (pl.: pontos cím helyett csak a várost tároljuk) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)17
18
Az attribútumok értékeit átskálázzuk, hogy azok egy bizonyos értéktartományba essenek (pl.: [0,1]). Típusai: Min-max normalizálás Standardizálás Decimális skálázás 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)18
19
A meglévő attribútumokból újakat hozunk létre. Például: vezetéknév + keresztnév = teljes_név szélesség + magasság = terület (redundancia?) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)19
20
Az adatok redukálása során az adathalmaz egy olyan reprezentációját kapjuk, amelyik méretben jelentősen kisebb az eredetihez képest, mégis jól megőrzi az adatok integritását. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)20
21
2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)21
22
A dimenziócsökkentés úgy redukálja az adathalmaz méretét, hogy az irreveláns attribútumokat és/vagy dimenziókat eltávolítja. Erre olyan módszereket alkalmaznak, amelyek az attribútumok egy részhalmazát választják ki: Előrelépéses kiválasztás (üres halmazt bővíti) Visszalépéses kiválasztás (teljes halmazt csökkenti) Előző kettő kombinációja 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)22
23
Kódolási és transzformációs műveletek során egy tömörített reprezentációt állítunk elő. Ha az eredi adatok információveszteség nélkül visszaállítható, akkor veszteségmentes tömörítésről, ellenkező esetben veszteséges tömörítésről beszélünk. Két fő alkalmazott eljárás: wavelet transzformációk, főkomponens-analízis. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)23
24
Léteznek paraméteres és nem paraméteres eljárások. Paraméteres eljárások például a regressziós és loglineáris modellek. A loglineáris modellek segítségével minden cella értékének valószínűsége megbecsülhető a kockahálót alkotó kisebb részkockák alapján. Nem paraméteres eljárások: hisztogramok, klaszterezés, mintavételezés. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)24
25
2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)25 Mintavételezési technikák
26
Diszkretizáció során az attribútumok által felvett értékek számát csökkentjük az értékkészlet intervallumokra osztásával. (fogalmi hierarchiákat generálunk) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)26
27
Felhasznált irodalom: Jiawei Han, Micheline Kamber - Adatbányászat - Koncepciók és technikák David Marco – Building and Managing the Metadata Repository : A Full Lifecycle Guide Fon Silvers – Building and Maintaining a Data Warehouse Wikipedia 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)27
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.