Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaKornélia Oroszné Megváltozta több, mint 10 éve
1
SQL – OLAP 6. óra
2
Általános integrációs szintek
3
Adatforrás réteg Adat továbbító réteg Adattárolási réteg Adatszótár réteg Ütemező réteg Adathozzá-férési modul Megjelení tésrétege A források integrálása a DW rendszerek legfontosabb eleme Elemei:- séma integráció - adat integráció -- virtuális -- valós
4
ETL folyamatok
5
Séma integráció Célja homogén, konzisztens közös séma előállítása Integráció főbb lépései: - elő integráció (preintegration) - séma összehasonlítás (schema comparison) - séma illesztés (schema conforming) - séma összevonás (schema merging)
6
Publisher Topics BookUniversity Keywords Publication Published by Adopted by contains Refer to Title Word Title Name Code Name Address City Code Research Area Publisher - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
7
Keywords Word Publisher Topics BookUniversity Topics Publication Published by Adopted by contains Refer to Title Name Title Name Code Name Address City Code Research Area Name Publisher Published by - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - A B
8
Publisher Topics BookUniversity Publication Published by Adopted by Refer to Title Name Code Name Address City Code Research Area Published by contains
9
Előintegráció lépései - az egyes sémák elemzése - integrációba bevonandó elemek kiválasztása - integrációs sorrend meghatározása - integritási elvek összegyüjtése - szemantikai kibővités - közös szemantikai modellre alakítás (EER, ODL, formális logikai nyelv,...) - adatszótár létrehozás >0 1. 2.2.
10
Séma összehasonlítás lépései - a különböző sémák elemei közötti kapcsolatok meghatározása - séma struktúra hasonlóság vizsgálata - modell heterogenitási konfliktusok feloldása - elnevezési konfliktusok feloldása (hononima, szinonima) - szemantikai konfliktusok felodása - strukturális konfliktusok feloldása vezeto nev tel fiz oszt.vez nev cim
11
Séma illesztés elemei: - elnevezés -- szinonímák -- általánosítás -- elírás - struktúra -- kapcsolatok -- szerkezet -- viselkedés
12
Séma illesztés és összevonás lépései - konfliktusok számbavétele - konfiktusok feloldása - sémak kombinálása - közös séma átalaktítása (séma hasonlóság alapú vizsgálat) - séma optimalizálása - teljesség, helyesség, minimalitás ellenőrzés vezeto nev tel fiz oszt.vez nev cim vezeto nev tel cim
13
Adat integrációs lépések - adat illesztés -- formátum -- kódolás -- érték - adatszűrés (közös integritási feltételek) - adat ellenőrzés (inkozisztencia feloldása) A séma integrációban megadott leképzés (mapping) alapján működik speciális feladatok: - adattisztítás - adat illesztés
14
Integrációs struktúra meta-modell fogalmi szint alkalmazás modell (EER, logikai f.) logikai szint DW séma (relációk, kockák) adatforrások wrapper mediators DW kliens sémakliens modell
15
Integráció tervezési módszerek Egyszintű (one-shot) csak egy célséma van Inkrementális modulok független parciális sémák inter-séma megkötések, szabályok Forrás vezérelt tervezés vállalati szintű modell kialakítása a források alapján a meglévő adatok határozzák meg az integrált modellt Kliens vezérelt tervezés a felhasználói igények kielégítése a cél az igények határozzák meg az integrált modellt
16
Adattisztítás (data cleaning) DSS: „garbage in garbage out”
17
Data Cleaning tipikus betöltési inkozisztenciák: - hiányos séma elem - hiányos adatelőfordulás - hibásan bevitt érték - téves számítások - dupplikációk - eltérő formátum - eltérő kódolás - átfedő kódolás - integritási szabályok hiánya - nem összetartozó adatok - hiányzó kapcsolat - elnevezés konfliktus - strukturális konfliktus
20
Adat tisztítási módszerek A DW rendszer egyik legnehezebb feladata a séma/adat integrációval együtt hajtódik végre Fázisai: - adatelemzés a lehetséges hibák felderítésére - transzformációs, leképzési metódusok elkészítése - algoritmusok ellenőrzése, validálás - adatok módosítása - tisztított adatok beépítése
21
Adatelemzés két fő áramlata: - data profileing - data mining A transzformáció általános formátuma: SQL
22
Elírási hibák felderítése - n-gram módszer gyors pontatlan - szótár alapú hash (hasító fv) - editálási távolság dinamikus programozás lassú pontos
23
Minimális költség kiszámítása az editálási távolságnál d(s n,t m ) = min { c(s n,t m ) + d(s n-1,t m-1 ) c(s n,0) + d(s n-1,t m ) c(0,t m ) + d(s n,t m-1 ) alap műveletek : insertion, deletion, substitution Átalakítási mátrix sourcesource t a r g e t O (n·m) O (n· m / log n)
24
Hiányzó érték pótlása nem pontos, statisztikai alapú a többi attribútum alapján vett legvalószínűbb érték megadása 1. attribútum-párok közötti korreláció számítása korr = szumma(x i y i ) / (szumma(x i ) szumma(y i )) 2. legszorosabb kapcsolatú attributumok kiválasztása 3. értékek közelítése d = szumma ((y i – x i ) 2 ) d szélsőérték
25
Rekord illesztési módszerek más helyről származó rekordok illesztése (pl. biztosítottak) módszerek: - egy index: pontatlan, lassú - több index : ablak technika - valószínűségi : pozitív és negatív minták vizsgálatával megbecsüli az illeszkedési valószínűséget maradnak bizonytalan esetek nem egyeznek meg a kapcsolódó kulcsok (hiány, elírás)
26
Piaci termékek cleaning.html
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.