SQL – OLAP 6. óra
Általános integrációs szintek
Adatforrás réteg Adat továbbító réteg Adattárolási réteg Adatszótár réteg Ütemező réteg Adathozzá-férési modul Megjelení tésrétege A források integrálása a DW rendszerek legfontosabb eleme Elemei:- séma integráció - adat integráció -- virtuális -- valós
ETL folyamatok
Séma integráció Célja homogén, konzisztens közös séma előállítása Integráció főbb lépései: - elő integráció (preintegration) - séma összehasonlítás (schema comparison) - séma illesztés (schema conforming) - séma összevonás (schema merging)
Publisher Topics BookUniversity Keywords Publication Published by Adopted by contains Refer to Title Word Title Name Code Name Address City Code Research Area Publisher
Keywords Word Publisher Topics BookUniversity Topics Publication Published by Adopted by contains Refer to Title Name Title Name Code Name Address City Code Research Area Name Publisher Published by A B
Publisher Topics BookUniversity Publication Published by Adopted by Refer to Title Name Code Name Address City Code Research Area Published by contains
Előintegráció lépései - az egyes sémák elemzése - integrációba bevonandó elemek kiválasztása - integrációs sorrend meghatározása - integritási elvek összegyüjtése - szemantikai kibővités - közös szemantikai modellre alakítás (EER, ODL, formális logikai nyelv,...) - adatszótár létrehozás >
Séma összehasonlítás lépései - a különböző sémák elemei közötti kapcsolatok meghatározása - séma struktúra hasonlóság vizsgálata - modell heterogenitási konfliktusok feloldása - elnevezési konfliktusok feloldása (hononima, szinonima) - szemantikai konfliktusok felodása - strukturális konfliktusok feloldása vezeto nev tel fiz oszt.vez nev cim
Séma illesztés elemei: - elnevezés -- szinonímák -- általánosítás -- elírás - struktúra -- kapcsolatok -- szerkezet -- viselkedés
Séma illesztés és összevonás lépései - konfliktusok számbavétele - konfiktusok feloldása - sémak kombinálása - közös séma átalaktítása (séma hasonlóság alapú vizsgálat) - séma optimalizálása - teljesség, helyesség, minimalitás ellenőrzés vezeto nev tel fiz oszt.vez nev cim vezeto nev tel cim
Adat integrációs lépések - adat illesztés -- formátum -- kódolás -- érték - adatszűrés (közös integritási feltételek) - adat ellenőrzés (inkozisztencia feloldása) A séma integrációban megadott leképzés (mapping) alapján működik speciális feladatok: - adattisztítás - adat illesztés
Integrációs struktúra meta-modell fogalmi szint alkalmazás modell (EER, logikai f.) logikai szint DW séma (relációk, kockák) adatforrások wrapper mediators DW kliens sémakliens modell
Integráció tervezési módszerek Egyszintű (one-shot) csak egy célséma van Inkrementális modulok független parciális sémák inter-séma megkötések, szabályok Forrás vezérelt tervezés vállalati szintű modell kialakítása a források alapján a meglévő adatok határozzák meg az integrált modellt Kliens vezérelt tervezés a felhasználói igények kielégítése a cél az igények határozzák meg az integrált modellt
Adattisztítás (data cleaning) DSS: „garbage in garbage out”
Data Cleaning tipikus betöltési inkozisztenciák: - hiányos séma elem - hiányos adatelőfordulás - hibásan bevitt érték - téves számítások - dupplikációk - eltérő formátum - eltérő kódolás - átfedő kódolás - integritási szabályok hiánya - nem összetartozó adatok - hiányzó kapcsolat - elnevezés konfliktus - strukturális konfliktus
Adat tisztítási módszerek A DW rendszer egyik legnehezebb feladata a séma/adat integrációval együtt hajtódik végre Fázisai: - adatelemzés a lehetséges hibák felderítésére - transzformációs, leképzési metódusok elkészítése - algoritmusok ellenőrzése, validálás - adatok módosítása - tisztított adatok beépítése
Adatelemzés két fő áramlata: - data profileing - data mining A transzformáció általános formátuma: SQL
Elírási hibák felderítése - n-gram módszer gyors pontatlan - szótár alapú hash (hasító fv) - editálási távolság dinamikus programozás lassú pontos
Minimális költség kiszámítása az editálási távolságnál d(s n,t m ) = min { c(s n,t m ) + d(s n-1,t m-1 ) c(s n,0) + d(s n-1,t m ) c(0,t m ) + d(s n,t m-1 ) alap műveletek : insertion, deletion, substitution Átalakítási mátrix sourcesource t a r g e t O (n·m) O (n· m / log n)
Hiányzó érték pótlása nem pontos, statisztikai alapú a többi attribútum alapján vett legvalószínűbb érték megadása 1. attribútum-párok közötti korreláció számítása korr = szumma(x i y i ) / (szumma(x i ) szumma(y i )) 2. legszorosabb kapcsolatú attributumok kiválasztása 3. értékek közelítése d = szumma ((y i – x i ) 2 ) d szélsőérték
Rekord illesztési módszerek más helyről származó rekordok illesztése (pl. biztosítottak) módszerek: - egy index: pontatlan, lassú - több index : ablak technika - valószínűségi : pozitív és negatív minták vizsgálatával megbecsüli az illeszkedési valószínűséget maradnak bizonytalan esetek nem egyeznek meg a kapcsolódó kulcsok (hiány, elírás)
Piaci termékek cleaning.html