Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter

Hasonló előadás


Az előadások a következő témára: "Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter"— Előadás másolata:

1 Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter (peter.fhr@gmail.com)

2 Az adattárházban lévő adatok minősége alapvetően a forrásrendszerekben lévő adatok minőségétől függ. Az adatok egy ún. „előfeldolgozási metóduson” esnek át, mielőtt az adattárházba kerülnének. Az előfeldolgozás 4 területe:  Adattisztítás  Adatok integrálása  Adatok transzformálása  Adatok redukálása 2010-02-262Készítette: Fehér Péter (peter.fhr@gmail.com)

3 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)3

4 A való életben az adatok legtöbbször igen hiányosak, zajosak, inkonzisztensek. Különböző eljárásokat használunk ezek kiküszöbölésére. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)4

5 Hogyan töltsük ki a hiányzó értékeket?  Figyelmen kívül hagyjuk az adott rekordot  Manuális kitöltés  Globális konstans  Átlagérték  Csoportosított átlagérték  Legvalószínűbb érték 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)5 Torzítják az adatokat!

6 Zaj: véletlenszerű hiba vagy ingadozás Hogyan simítsuk a zajokat?  Kosarazás  Klaszterezés  Számítógépes/emberi vizsgálat  Regresszió 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)6

7 Nyers adatok: 21, 8, 15, 24, 21, 25, 4, 34, 28 Rendezett adatok: 4, 8, 15, 21, 21, 24, 25, 28, 34 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)7 Simítás átlagok szerint: 1. kosár: 9, 9, 9 2. kosár: 22, 22, 22 3. kosár: 29,29, 29 Simítás határok szerint: 1. kosár: 4, 4, 15 2. kosár: 21, 21, 24 3. kosár: 25, 25, 34 Eredeti kosarak: 1. kosár: 4, 8, 15 2. kosár: 21, 21, 24 3. kosár: 25, 28, 34

8 A hasonló értékeket klasztereknek nevezett csoportokba osztják fel. Azok az értékek lesznek szélsőségesek, amelyek nem tartoznak egy klaszterhez sem. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)8

9 A számítógép átvizsgálja az adatokat, majd azokat, amiknél a várttól való eltérés átlép egy bizonyos küszöbértéket, felcímkézi. Ezt követően egy ember átvizsgálja az így kigyűjtött adatokat, hogy ellenőrizze a számítógép munkáját. Gyorsabb, mint a teljes adatállomány manuális átvizsgálása. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)9

10 Az adatainkat egy függvényre illesztjük. Lineáris regresszió esetén az adatok egy egyenesre való illeszkedését, többdimenziós lineáris regresszió esetén pedig egy síkra való illeszkedését vizsgáljuk. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)10

11 Az adatok integrálása alatt a több forrásból származó adatok egy koherens adatbázisba történő egyesítését értjük. Az integrálás során számos probléma felmerülhet: egyedazonosítási anomália, redundancia, ellentmondó értékek. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)11

12 Hogyan feleltethetőek meg egymásnak a különböző forrásból érkező, eltérő nevű, ám mégis ekvivalens értékű attribútumok? A válasz: metaadatok. (erre még később visszatérünk ) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)12

13 Egy attribútum akkor redundáns, ha a többi rendelkezésre álló attribútumból kiszámítható. Megoldás: korrelációanalízis Redundancia nem csak attribútumok között szerepelhet, hanem a sorok között is, természetesen ezt is szűrni kell. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)13

14 Ellentmondó értékeket okozhat az, ha a különböző rendszerekben különböző reprezentációval tárolják az adatokat. (pl.: angolszász és metrikus rendszer közötti eltérések) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)14

15 A transzformálás során a forrásadatokat a célnak megfelelő formába hozzuk. Módszerek:  Simítás  Összevonás  Adatok általánosítása  Normalizálás  Attribútumok konstrukciója 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)15

16 Az adatokon összevonási, összegzési műveleteket hajtunk végre. Akkor alkalmazzuk, amikor kevésbé részletes adatokra van szükségünk. (pl.: napi adatokból havi összegzés) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)16

17 Az alacsony szintű fogalmakat egy fogalmi hierarchia segítségével magasabb szintű fogalomra cseréljük. (pl.: pontos cím helyett csak a várost tároljuk) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)17

18 Az attribútumok értékeit átskálázzuk, hogy azok egy bizonyos értéktartományba essenek (pl.: [0,1]). Típusai:  Min-max normalizálás  Standardizálás  Decimális skálázás 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)18

19 A meglévő attribútumokból újakat hozunk létre. Például:  vezetéknév + keresztnév = teljes_név  szélesség + magasság = terület (redundancia?) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)19

20 Az adatok redukálása során az adathalmaz egy olyan reprezentációját kapjuk, amelyik méretben jelentősen kisebb az eredetihez képest, mégis jól megőrzi az adatok integritását. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)20

21 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)21

22 A dimenziócsökkentés úgy redukálja az adathalmaz méretét, hogy az irreveláns attribútumokat és/vagy dimenziókat eltávolítja. Erre olyan módszereket alkalmaznak, amelyek az attribútumok egy részhalmazát választják ki:  Előrelépéses kiválasztás (üres halmazt bővíti)  Visszalépéses kiválasztás (teljes halmazt csökkenti)  Előző kettő kombinációja 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)22

23 Kódolási és transzformációs műveletek során egy tömörített reprezentációt állítunk elő. Ha az eredi adatok információveszteség nélkül visszaállítható, akkor veszteségmentes tömörítésről, ellenkező esetben veszteséges tömörítésről beszélünk. Két fő alkalmazott eljárás: wavelet transzformációk, főkomponens-analízis. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)23

24 Léteznek paraméteres és nem paraméteres eljárások. Paraméteres eljárások például a regressziós és loglineáris modellek. A loglineáris modellek segítségével minden cella értékének valószínűsége megbecsülhető a kockahálót alkotó kisebb részkockák alapján. Nem paraméteres eljárások: hisztogramok, klaszterezés, mintavételezés. 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)24

25 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)25 Mintavételezési technikák

26 Diszkretizáció során az attribútumok által felvett értékek számát csökkentjük az értékkészlet intervallumokra osztásával. (fogalmi hierarchiákat generálunk) 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)26

27 Felhasznált irodalom: Jiawei Han, Micheline Kamber - Adatbányászat - Koncepciók és technikák David Marco – Building and Managing the Metadata Repository : A Full Lifecycle Guide Fon Silvers – Building and Maintaining a Data Warehouse Wikipedia 2010-02-26Készítette: Fehér Péter (peter.fhr@gmail.com)27


Letölteni ppt "Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter"

Hasonló előadás


Google Hirdetések