Az adattárház tervezése
Az adattárház tervezése Kétféle módszer: Inkrementális: egy-egy adatpiacot hozunk létre egymás után „Big bang”: az összes releváns adat tárolására hozzuk létre az adattárházat 2. DM DM DM DM DM DM 3. DWH DWH 1. 1. 2. 3. DS DS DS DS DS DS
Az adattárház tervezése Mindkét módszer az alábbi alapvető lépésekből áll: Üzleti igények feltérképezése Üzleti specifikáció Logikai és fizikai rendszerterv elkészítése Funkcionális specifikáció Fizikai megvalósítás Rendelkezésre álló adatpiac(ok)
Az inkrementális módszer előnyei: gyorsabb és olcsóbb a tervezés Az adattárház tervezése Az inkrementális módszer előnyei: gyorsabb és olcsóbb a tervezés gyorsabb és olcsóbb a megvalósítás az esetleges alapvető, koncepcionális hibák már korán megjelennek, javításuk egyszerűbb A „Big bang” módszer előnyei: a további adatpiacok kiépítése jelentősen kisebb ráfordítást igényelnek a különböző üzleti területek számára már rendelkezésre áll az adatmodell, aminek az alapján eldönthetik, hogy igénybe veszik-e, és ha igen, milyen mértékben a rendelkezésre álló adatokat az adattárház kezdeti hibái (gyerekbetegségei) mát megoldottak a továbbfejlesztés kezdetekor a további ősfeltöltések nem jelentenek többletráfordítást
Az adattárház tervezése Üzleti igények feltérképezése: A tudásmunkásoknak meg kell adniuk, hogy milyen mérőszámokat, és azokat milyen dimenziókra értelmezve szeretnék látni (pl.: üzleti terület: termék értékesítés; mérőszámok: értékesítések darabszáma, értékesítések összege; dimenziók: időszak, régió, hiteltípus)
Az adattárház tervezése Ezzel egyidejűleg specifikálni kell a dimenziók hierarchiáit illetve az egyes hierarchiák szintjeit (pl.: időszak: év – negyedév – hónap terület: régió – megye – város – fiók hiteltípus: felhasználás jellege: szabad, lakásvásárlási futamidő: éven belüli, éven túli – féléves, egyéves; 18-24-36-48-60-stb. hónapos)
Az adattárház tervezése A leendő felhasználóknak a fejlesztőkkel együttműködve meg kell határozniuk, hogy melyik és milyen adatforrásokból szeretnék az információkat kinyerni, illetve hogy milyen eszközzel szeretnék megjeleníttetni az információkat (pl.: adatforrás: Oracle, MS Access megjelenítés: Cognos, Excel)
Az adattárház tervezése Logikai és fizikai rendszerterv elkészítése A rendszerterv része a logikai adatmodell és a fejlesztés átadásnál mellékelni kell a Felhasználói kézikönyvet. A felhasználók munkáját és a továbbfejlesztést azonban nagyban segítheti valamilyen metaadat-kezelő alkalmazás használata. Ez egy olyan eszköz, amelynek a segítségével könnyen feltérképezhető az egyes adatok pontos jelentése (azaz a forrásrendszerben mit reprezentálnak) illetve, hogy milyen logika mentén történik az adatok transzformálása és/vagy szűrése.
Az adattárház tervezése A modellezés során az adattárház struktúráján kívül részletesen ki kell térni (többek között) az alábbiakra: Az adatok kinyerésének módja (pl.: DB-linkek, ODBC, Excel táblázat mentése szöveges állományként) Az adatok betöltésének módja (pl.: DB-linkek, ODBC, csatolt forrásállományok) Az adatok tisztításának mikéntje (pl.: null értékek helyettesítése 0-val, szélső értékek helyettesítése átlagértékekkel) Az adatok szűrésének mikéntje (milyen attribútumokra van szükség illetve valamely attribútum mely értékeinek a fennállása esetén van szükség egy rekordra) Az adatok integritásának biztosítása (keresztellenőrzések, egyediség ellenőrzése)
Az adattárház egy lehetséges felépítése vázlatosan: Az adattárház tervezése Az adattárház egy lehetséges felépítése vázlatosan: Információ kinyerése, kocka generálás, adatpia-cosítás Információs rendszerek … IS1 IS2 IS3 IS4 ISn Historikus adatok (ROLAP struktúrában) Delta képzés (histori-zálás) Szűkebb értelemben vett adattárház Metaadat-kezelő rendszer Integrált adott napi adatok (ROLAP struktúrában) Struktúra váltás, tisztítás, transzfor-málás Forrásrendszerek adott napi lenyomata (OLTP struktúrában) Szűrés, közös platformra hozás Forrásrend-szerek … DS1 DS2 DS3 DS4 DSn
Az adattárház tervezése A tervezés egyes lépései (a nyilak mentén): 1. Az adatok kinyerésének meghatározása (pl.: DB-linkek, ODBC, Excel táblázat mentése szöveges állományként) Az adatok betöltésének meghatározása (pl.: DB-linkek, ODBC, csatolt forrásállományok) A közös platform kiválasztása (adatbázis típusa: pl.: Oracle, Microsoft; szerver operációs rendszere: Windows, Unix) Az adatok szűrésének mikéntje (milyen attribútumokra van szükség illetve valamely attribútum mely értékeinek a fennállása esetén van szükség egy rekordra)
Az adattárház tervezése A tervezés egyes lépései (a nyilak mentén): 2. Struktúra váltás OLTP-ről ROLAP-ra: elemzésre optimalizált témakörökre alapított adathalmazok objektumainak definiálása Az adatok tisztításának mikéntjének meghatározása (pl.: null értékek helyettesítése 0-val, szélső értékek helyettesítése átlagértékekkel) Adatok transzformálása (pl.: beépített szabályok szerint a program kódjában, változtatható szabályok szerint mapping táblával)
Az adattárház tervezése A tervezés egyes lépései (a nyilak mentén): 3. Historikus adatok képzése: Állományi adatoknál csak változás esetén kerül be új rekord Tranzakciós adatoknál minden tranzakcióra bekerül egy rekord RUN_DATE CUST_ID CUST_NAME … ADDR_POSTAL_CODE 2009.07.08. C012105 KOVÁCS TAMÁS 1072 2009.09.25. 2000
Az adattárház tervezése A tervezés egyes lépései (a nyilak mentén): 4. Célrendszerek (Döntéstámogató Rendszerek, Vezetői Információs Rendszerek, Adatbányászati alkalmazások, Jelentéskészítő rendszerek, stb.) Célrendszerek típusa: multidimenzionális relációs irodai alkalmazás (pl.: Excel) Információ kinyerésének módja (pl.: adatbázis-linkek, felhasználói szerepkörök az adattárházban, ODBC kapcsolat)
Az adattárház tervezése Metaadat-kezelés: A felhasználók, a fejlesztők és az üzemeltetők munkáját támogatandó nyilvántartásba veszik a forrásadatok és a kinyert információk közötti összefüggéseket: Üzleti metaadatok (az adatok szemantikája) Technikai metaadatok (az adatok szintaktikája) szűrés transzf. transzf. DS IS DWH
Az adattárház tervezése Köszönöm a figyelmet!