Minőségi adatok biztosítása az adattárházakban 2010-02-261Készítette: Fehér Péter

Slides:



Advertisements
Hasonló előadás
Tömörítés.
Advertisements

Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Informatika I. 6. Adattábla függvények, érzékenységi vizsgálatok.
Erőállóképesség mérése Találjanak teszteket az irodalomban
Hotel Eger Park Konferenciaközpont október
Humánkineziológia szak
Adatok az adatokról Készítette: Fehér Péter (
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Műveletek logaritmussal
Számítógépes algebrai problémák a geodéziában
3. Folytonos wavelet transzformáció (CWT)
Non-profit szervezetek bevételi szerkezetének elemzése.
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
SAS Enterprise Miner 2. gyakorlat
Táblázat kezelő programok
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Csoportosítás megadása: Δx – csoport szélesség
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
A diákat jészítette: Matthew Will
Adatbányászat. Miért kell menedzselni a tudást és az adatokat? Az adatok mennyisége folyamatosan nő Az elektronikus dokumentáltság növeli az átláthatatlan.
Multimédiás technikák 1. kérdés Melyik diszkrét médium? a)hang b)videó c)animáció d)kép.
5.2. Próbavizsga Próbáld ki tudásod!
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
az MSAccess programmal
Tűrések, illesztések Áll: 34 diából.
SQL – OLAP 6. óra. Általános integrációs szintek.
Pázmány - híres perek Pázmány híres perek.
ADATBÁZISOK
Fuzzy rendszerek mérnöki megközelítésben I
A TERMÉSZETTUDOMÁNYOK ALAPJAI 1. Matematika
Valós számok Def. Egy algebrai struktúra rendezett test, ha test és rendezett integritási tartomány. Def. Egy (T; +,  ;  ) rendezett test felső határ.
1.3 Relációk Def. (rendezett pár) (a1 , a2 ) := {{a1} , {a1 , a2 }} .
6. Előadás Merevítő rendszerek típusok, szerepük a tervezésben
Darupályák tervezésének alapjai
GAZDASÁGI INFORMATIKA II.
INNOCSEKK 156/2006 Hasonlóságelemzés-alapú vizsgálat a COCO módszer használatával Készítette: Péter Gábor
MATEMATIKA ÉS INFORMATIKA I.
Festményei 2 Michelangelo Buonarroti Zene: Gregorian Amazing Grace N.3
dr. Szalkai István Pannon Egyetem, Veszprém
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
Exponenciális egyenletek
Statisztika a szociológiában
Fuzzy rendszerek dr. Szilágyi László.
Biostatisztika, MS Excel
Kirándulás, Apáthy-szikla – Árpád kilátó - Hüvösvölgy
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Többváltozós adatelemzés
Következtető statisztika 9.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Programozási alapismeretek 11. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 11.2/ Tartalom  Rendezési.
EXCEL Excel.
Határozatlan integrál
Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) II. Hanyecz Lajos.
Objektum orientált programozás
1. MATEMATIKA ELŐADÁS Halmazok, Függvények.
Elektronikus tananyag
1 Gyorsul a gazdaság növekedése. 2 Nő a beruházás.
Kommunikációs Rendszerek
Adatbányászati módszerek a weblogfájlok elemzésében
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
előadások, konzultációk
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Halmazok Érettségi követelmények:
Tömörítés.
Bevezetés Tematika Számonkérés Irodalom
Előadás másolata:

Minőségi adatok biztosítása az adattárházakban Készítette: Fehér Péter

Az adattárházban lévő adatok minősége alapvetően a forrásrendszerekben lévő adatok minőségétől függ. Az adatok egy ún. „előfeldolgozási metóduson” esnek át, mielőtt az adattárházba kerülnének. Az előfeldolgozás 4 területe:  Adattisztítás  Adatok integrálása  Adatok transzformálása  Adatok redukálása Készítette: Fehér Péter

Készítette: Fehér Péter

A való életben az adatok legtöbbször igen hiányosak, zajosak, inkonzisztensek. Különböző eljárásokat használunk ezek kiküszöbölésére Készítette: Fehér Péter

Hogyan töltsük ki a hiányzó értékeket?  Figyelmen kívül hagyjuk az adott rekordot  Manuális kitöltés  Globális konstans  Átlagérték  Csoportosított átlagérték  Legvalószínűbb érték Készítette: Fehér Péter Torzítják az adatokat!

Zaj: véletlenszerű hiba vagy ingadozás Hogyan simítsuk a zajokat?  Kosarazás  Klaszterezés  Számítógépes/emberi vizsgálat  Regresszió Készítette: Fehér Péter

Nyers adatok: 21, 8, 15, 24, 21, 25, 4, 34, 28 Rendezett adatok: 4, 8, 15, 21, 21, 24, 25, 28, Készítette: Fehér Péter Simítás átlagok szerint: 1. kosár: 9, 9, 9 2. kosár: 22, 22, kosár: 29,29, 29 Simítás határok szerint: 1. kosár: 4, 4, kosár: 21, 21, kosár: 25, 25, 34 Eredeti kosarak: 1. kosár: 4, 8, kosár: 21, 21, kosár: 25, 28, 34

A hasonló értékeket klasztereknek nevezett csoportokba osztják fel. Azok az értékek lesznek szélsőségesek, amelyek nem tartoznak egy klaszterhez sem Készítette: Fehér Péter

A számítógép átvizsgálja az adatokat, majd azokat, amiknél a várttól való eltérés átlép egy bizonyos küszöbértéket, felcímkézi. Ezt követően egy ember átvizsgálja az így kigyűjtött adatokat, hogy ellenőrizze a számítógép munkáját. Gyorsabb, mint a teljes adatállomány manuális átvizsgálása Készítette: Fehér Péter

Az adatainkat egy függvényre illesztjük. Lineáris regresszió esetén az adatok egy egyenesre való illeszkedését, többdimenziós lineáris regresszió esetén pedig egy síkra való illeszkedését vizsgáljuk Készítette: Fehér Péter

Az adatok integrálása alatt a több forrásból származó adatok egy koherens adatbázisba történő egyesítését értjük. Az integrálás során számos probléma felmerülhet: egyedazonosítási anomália, redundancia, ellentmondó értékek Készítette: Fehér Péter

Hogyan feleltethetőek meg egymásnak a különböző forrásból érkező, eltérő nevű, ám mégis ekvivalens értékű attribútumok? A válasz: metaadatok. (erre még később visszatérünk ) Készítette: Fehér Péter

Egy attribútum akkor redundáns, ha a többi rendelkezésre álló attribútumból kiszámítható. Megoldás: korrelációanalízis Redundancia nem csak attribútumok között szerepelhet, hanem a sorok között is, természetesen ezt is szűrni kell Készítette: Fehér Péter

Ellentmondó értékeket okozhat az, ha a különböző rendszerekben különböző reprezentációval tárolják az adatokat. (pl.: angolszász és metrikus rendszer közötti eltérések) Készítette: Fehér Péter

A transzformálás során a forrásadatokat a célnak megfelelő formába hozzuk. Módszerek:  Simítás  Összevonás  Adatok általánosítása  Normalizálás  Attribútumok konstrukciója Készítette: Fehér Péter

Az adatokon összevonási, összegzési műveleteket hajtunk végre. Akkor alkalmazzuk, amikor kevésbé részletes adatokra van szükségünk. (pl.: napi adatokból havi összegzés) Készítette: Fehér Péter

Az alacsony szintű fogalmakat egy fogalmi hierarchia segítségével magasabb szintű fogalomra cseréljük. (pl.: pontos cím helyett csak a várost tároljuk) Készítette: Fehér Péter

Az attribútumok értékeit átskálázzuk, hogy azok egy bizonyos értéktartományba essenek (pl.: [0,1]). Típusai:  Min-max normalizálás  Standardizálás  Decimális skálázás Készítette: Fehér Péter

A meglévő attribútumokból újakat hozunk létre. Például:  vezetéknév + keresztnév = teljes_név  szélesség + magasság = terület (redundancia?) Készítette: Fehér Péter

Az adatok redukálása során az adathalmaz egy olyan reprezentációját kapjuk, amelyik méretben jelentősen kisebb az eredetihez képest, mégis jól megőrzi az adatok integritását Készítette: Fehér Péter

Készítette: Fehér Péter

A dimenziócsökkentés úgy redukálja az adathalmaz méretét, hogy az irreveláns attribútumokat és/vagy dimenziókat eltávolítja. Erre olyan módszereket alkalmaznak, amelyek az attribútumok egy részhalmazát választják ki:  Előrelépéses kiválasztás (üres halmazt bővíti)  Visszalépéses kiválasztás (teljes halmazt csökkenti)  Előző kettő kombinációja Készítette: Fehér Péter

Kódolási és transzformációs műveletek során egy tömörített reprezentációt állítunk elő. Ha az eredi adatok információveszteség nélkül visszaállítható, akkor veszteségmentes tömörítésről, ellenkező esetben veszteséges tömörítésről beszélünk. Két fő alkalmazott eljárás: wavelet transzformációk, főkomponens-analízis Készítette: Fehér Péter

Léteznek paraméteres és nem paraméteres eljárások. Paraméteres eljárások például a regressziós és loglineáris modellek. A loglineáris modellek segítségével minden cella értékének valószínűsége megbecsülhető a kockahálót alkotó kisebb részkockák alapján. Nem paraméteres eljárások: hisztogramok, klaszterezés, mintavételezés Készítette: Fehér Péter

Készítette: Fehér Péter Mintavételezési technikák

Diszkretizáció során az attribútumok által felvett értékek számát csökkentjük az értékkészlet intervallumokra osztásával. (fogalmi hierarchiákat generálunk) Készítette: Fehér Péter

Felhasznált irodalom: Jiawei Han, Micheline Kamber - Adatbányászat - Koncepciók és technikák David Marco – Building and Managing the Metadata Repository : A Full Lifecycle Guide Fon Silvers – Building and Maintaining a Data Warehouse Wikipedia Készítette: Fehér Péter