Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

SQL – OLAP 6. óra. Általános integrációs szintek.

Hasonló előadás


Az előadások a következő témára: "SQL – OLAP 6. óra. Általános integrációs szintek."— Előadás másolata:

1 SQL – OLAP 6. óra

2 Általános integrációs szintek

3 Adatforrás réteg Adat továbbító réteg Adattárolási réteg Adatszótár réteg Ütemező réteg Adathozzá-férési modul Megjelení tésrétege A források integrálása a DW rendszerek legfontosabb eleme Elemei:- séma integráció - adat integráció -- virtuális -- valós

4 ETL folyamatok

5 Séma integráció Célja homogén, konzisztens közös séma előállítása Integráció főbb lépései: - elő integráció (preintegration) - séma összehasonlítás (schema comparison) - séma illesztés (schema conforming) - séma összevonás (schema merging)

6 Publisher Topics BookUniversity Keywords Publication Published by Adopted by contains Refer to Title Word Title Name Code Name Address City Code Research Area Publisher - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

7 Keywords Word Publisher Topics BookUniversity Topics Publication Published by Adopted by contains Refer to Title Name Title Name Code Name Address City Code Research Area Name Publisher Published by - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - A B

8 Publisher Topics BookUniversity Publication Published by Adopted by Refer to Title Name Code Name Address City Code Research Area Published by contains

9 Előintegráció lépései - az egyes sémák elemzése - integrációba bevonandó elemek kiválasztása - integrációs sorrend meghatározása - integritási elvek összegyüjtése - szemantikai kibővités - közös szemantikai modellre alakítás (EER, ODL, formális logikai nyelv,...) - adatszótár létrehozás >0 1. 2.2.

10 Séma összehasonlítás lépései - a különböző sémák elemei közötti kapcsolatok meghatározása - séma struktúra hasonlóság vizsgálata - modell heterogenitási konfliktusok feloldása - elnevezési konfliktusok feloldása (hononima, szinonima) - szemantikai konfliktusok felodása - strukturális konfliktusok feloldása vezeto nev tel fiz oszt.vez nev cim

11 Séma illesztés elemei: - elnevezés -- szinonímák -- általánosítás -- elírás - struktúra -- kapcsolatok -- szerkezet -- viselkedés

12 Séma illesztés és összevonás lépései - konfliktusok számbavétele - konfiktusok feloldása - sémak kombinálása - közös séma átalaktítása (séma hasonlóság alapú vizsgálat) - séma optimalizálása - teljesség, helyesség, minimalitás ellenőrzés vezeto nev tel fiz oszt.vez nev cim vezeto nev tel cim

13 Adat integrációs lépések - adat illesztés -- formátum -- kódolás -- érték - adatszűrés (közös integritási feltételek) - adat ellenőrzés (inkozisztencia feloldása) A séma integrációban megadott leképzés (mapping) alapján működik speciális feladatok: - adattisztítás - adat illesztés

14 Integrációs struktúra meta-modell fogalmi szint alkalmazás modell (EER, logikai f.) logikai szint DW séma (relációk, kockák) adatforrások wrapper mediators DW kliens sémakliens modell

15 Integráció tervezési módszerek Egyszintű (one-shot) csak egy célséma van Inkrementális modulok független parciális sémák inter-séma megkötések, szabályok Forrás vezérelt tervezés vállalati szintű modell kialakítása a források alapján a meglévő adatok határozzák meg az integrált modellt Kliens vezérelt tervezés a felhasználói igények kielégítése a cél az igények határozzák meg az integrált modellt

16 Adattisztítás (data cleaning) DSS: „garbage in garbage out”

17 Data Cleaning tipikus betöltési inkozisztenciák: - hiányos séma elem - hiányos adatelőfordulás - hibásan bevitt érték - téves számítások - dupplikációk - eltérő formátum - eltérő kódolás - átfedő kódolás - integritási szabályok hiánya - nem összetartozó adatok - hiányzó kapcsolat - elnevezés konfliktus - strukturális konfliktus

18

19

20 Adat tisztítási módszerek A DW rendszer egyik legnehezebb feladata a séma/adat integrációval együtt hajtódik végre Fázisai: - adatelemzés a lehetséges hibák felderítésére - transzformációs, leképzési metódusok elkészítése - algoritmusok ellenőrzése, validálás - adatok módosítása - tisztított adatok beépítése

21 Adatelemzés két fő áramlata: - data profileing - data mining A transzformáció általános formátuma: SQL

22 Elírási hibák felderítése - n-gram módszer gyors pontatlan - szótár alapú hash (hasító fv) - editálási távolság dinamikus programozás lassú pontos

23 Minimális költség kiszámítása az editálási távolságnál d(s n,t m ) = min { c(s n,t m ) + d(s n-1,t m-1 ) c(s n,0) + d(s n-1,t m ) c(0,t m ) + d(s n,t m-1 ) alap műveletek : insertion, deletion, substitution Átalakítási mátrix sourcesource t a r g e t O (n·m) O (n· m / log n)

24 Hiányzó érték pótlása nem pontos, statisztikai alapú a többi attribútum alapján vett legvalószínűbb érték megadása 1. attribútum-párok közötti korreláció számítása korr = szumma(x i y i ) / (szumma(x i ) szumma(y i )) 2. legszorosabb kapcsolatú attributumok kiválasztása 3. értékek közelítése d = szumma ((y i – x i ) 2 ) d  szélsőérték

25 Rekord illesztési módszerek más helyről származó rekordok illesztése (pl. biztosítottak) módszerek: - egy index: pontatlan, lassú - több index : ablak technika - valószínűségi : pozitív és negatív minták vizsgálatával megbecsüli az illeszkedési valószínűséget maradnak bizonytalan esetek nem egyeznek meg a kapcsolódó kulcsok (hiány, elírás)

26 Piaci termékek cleaning.html


Letölteni ppt "SQL – OLAP 6. óra. Általános integrációs szintek."

Hasonló előadás


Google Hirdetések