Adattárház rendszerek

Slides:



Advertisements
Hasonló előadás
Multidimenzionális Adatbázisok Alapjai
Advertisements

Számalk-MIS Tanácsadó Kft. Tel:
ADATBÁZISOK.
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
© Kozsik Tamás Adatbáziskezelés •Relációs adatbáziskezelők •Noha a Java objektum-elvű, egyelőre nem az objektum-elvű adatbáziskezelőket támogatja.
SQL modellezés Turáni Balázs.
Szoftverminőség, 2010 Farkas Péter. SG - Sajátos célok  SG 1. Termék / komponens megoldás kiválasztása  SP 1.1. Alternatívák és kiválasztási kritériumok.
Arató Bence technológiai igazgató Oracle9i Release 2: Relációs és OLAP adatok kezelése közös platformon InfoStructure.
Adattárházak Láng András.
Szűcs Imre CRM elemző GE Consumer Finance Budapest Bank Rt.
Adatok az adatokról Készítette: Fehér Péter (
Fekvőbeteg adatbázis szervezés GyógyinfokPirisa Levente.
Az adattárház tervezése
Adattárházak kialakulása, építése és elemzése (Rövid áttekintés)
Adatbányászat. Miért kell menedzselni a tudást és az adatokat? Az adatok mennyisége folyamatosan nő Az elektronikus dokumentáltság növeli az átláthatatlan.
Korszerű eszközök a vállalati információ- és tudásmenedzsmentben
1950-es évek 1960-as évek 1970-es évek 1980-as évek 1990-es évek
Adatbázis-kezelés ACCESS program:
SQL – OLAP 6. óra. Általános integrációs szintek.
Üzleti intelligencia Kecskemét 2007 ősz. BI Business Intelligence Üzleti Intelligencia Bevételnövelő és költségcsökkentő lehetőségek feltárása, döntéstámogatás.
SQL Server 2005 relációs adattárház technológiák
Üzleti Intelligencia – koncepciók és megoldások
Az adatfeldolgozás forrásai
Adatbázis-kezelés Papp-Varga Zsuzsanna. Elérhetőségek    as.
Vezetői Információs Rendszer felépítése
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
SQL – OLAP 3. óra.
Az adatok kezelésének technológiája. A számítógépes rendszerek alapvető komponensei Hardver Szoftver Adatok adatkezelés: adatok gyűjtése,tárolása, előhívása,
Adattár alapú Vezetői Információs Rendszer (AVIR)
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Webes Információs Rendszerek fejlesztése
Anyagadatbank c. tárgy gyakorlat Féléves tematika Adatbázis alapfogalmak, rendszerek Adatmodellek, adatbázis tervezés Adatbázis műveletek.
Statisztika, kutatásmódszertan I.
Adatbázisrendszerek világa
Adatbázisrendszerek jövője
Dr. Krauszné Dr. Princz Mária Adatbázis rendszerek I.
1 Informatikai Szakképzési Portál Adatbázis kezelés Alapfogalmak.
Budapest, június 28. Ontológia kezelő modul tervezése szöveges információt kezelő informatikai rendszer számára Förhécz András BME Méréstechnika.
© 2009 IBM Corporation ® 1 Újratervezés és többváltozatú előrejelzés - Cognos Planning bemutató Somfai Zoltán Brand Manager.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Készítette: Tóth Ervin
Üdvözöljük az IIR Konferencia résztvevőit! IIR Konferencia 2001.
SQL-Structured Query Language. Parancs(utasítás) csoportok CREATE - táblák létrehozása ALTER – táblák módosítása DROP – táblák törlése DDL –Data Definition.
11. tétel Adatbázis táblái közti kapcsolatok optimalizálása
Adatbányászat és üzleti intelligencia SPSS – MicroStrategy integráció
Adatbázis kezelés. Az adatbázis tágabb értelemben egy olyan adathalmaz, amelynek elemei – egy meghatározott tulajdonságuk alapján – összetartozónak tekinthetők.
Adatbázis kezelés.
Adatbázis-kezelés.
Adatbázis rendszerek I Relációs adatmodell strukturális része Általános Informatikai Tsz. Dr. Kovács László.
Adatbázis-kezelés Probléma: az excel kezelhetetlen túl sok adat esetén
Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) II. Hanyecz Lajos.
A Microsoft Üzleti Intelligencia megoldása és platformja
Vállalati modellek 2007.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Adattár alapú Vezetői Információs Rendszer (AVIR) Fejérvári Bence március 26.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
Adatbázisszintű adatmodellek
Bevezetés Adatbázisok használata. Mi is az adatbázis? Az adatbázisok ma már az élet számos területén alapvető fontossággal bírnak (Google, Amazon, Flickr,
Microsoft alapú VIR megoldás az egyetemeken Lénárt Marcell.
Gazdasági informatika - bevezető …avagy miért emlegetünk szakdolgozat írást informatika címén???
Szent István Egyetem Közgazdaságtudományi Jogi és Módszertani Intézet
Fogalomtár bevezetése a Magyar Telekomnál
Az ORACLE JDE EnterpriseOne ERP rendszer bevezetésének tapasztalatai
Adatbázis alapismeretek
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Adatbázis-kezelés.
Business Intelligence (Üzleti Intelligencia)
Előadás másolata:

Adattárház rendszerek Áttekintés Sidló Csaba scs@cs.elte.hu

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Bevezetés Vállalati környezet – a táptalaj Vállalat vezetése: döntések sorozata gyors, jó minőségű döntések  eredményesség Tézis: a döntések minősége nagyban függ a döntéshozók informáltságától, a rendelkezésre álló adatok, információk minőségétől A döntések megfelelő támogatására jelenthet megoldást az adattárház technológia

Vállalati adathalmazok Adott vállalat működése során rengeteg adat halmozódhat fel Elektronikus formában, papíron, gyakran sokféle, inkonzisztens tárolási módszernek megfelelően tárolva Nagy, kevés gyakorlati hasznot jelentő vállalati adathalmazok fenntartása szükséges, de haszontalan költséget jelent (Data puddle – adattemető)

Vállalati információszükségleti hierarchia (Moslow nyomán)

Adattárház definíció Bill Inmon: "A data warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management's decisions."

Adattárház definíció 2. Subject oriented (tárgy- v. témaorientált) hagyományosan: üzleti folyamatoknak megfelelő nézőpont most: elemzési területeknek megfelelő nézőpont, adatok az elemzés kulcsfontosságú fogalmai köré csoportosítva (Pl. vevő-lemorzsolódás, raktárkészlet alakulása, stb.) Integrated (integrált) több adatforrásból, egy helyen központosuló adatgyűjtés egységesített, szabványos formában kezelt adatok

Adattárház definíció 3. Nonvolatile (tartós) Time variant (időfüggő) Változatlan adatok Alapvetően nem törlődő adatok Time variant (időfüggő) Forrásrendszerek: adott (érvényes) állapotot leíró fadatok Adattárházak: történeti, historikus, időfüggő adatok  időfüggő elemzések, összehasonlítások, változási trendek elemzése

Data Warehousing "Data Warehousing is the process, whereby organizations extract value from their informational assets through the use of special stores called data warehouses." Három kulcsmozzanat: Adatkinyerés a tranzakciós (vagy más vállalat-működtetési) forrásrendszerekből A kinyert adatok átformálása riport (beszámoló) készítés számára A riportok, beszámolók elérhetővé tétele a döntéshozók számára.

Business Intelligence (BI, üzleti intelligencia) fogalma: „Olyan módszerek, fogalmak halmaza, melyek a döntéshozás folyamatát javítják ún. tényalapú rendszerek használatával.” (Howard Dresdner, 1989) Tényalapú rendszerek: Vezetői információs rendszerek (EIS, Executive Information System) Döntéstámogató rendszerek (DSS, Decision Support System) Vállalati információs rendszerek (Enterprise Information System) On Line Analytical Processing (OLAP) Adat- és szövegbányászat Adatvizualizáció Geográfiai Információs rendszerek (GIS) Ezek egy szeletét fedik le az adattárház megoldások.

Business Intelligence Platform Olyan platform, amely támogatja a következő technológiákat: Adattárház jellegű adattárolás OLAP Adatbányászat Nyílt interface-ek (OLAP, adatbányász, stb.) Ezeket támogató, megvalósító komponensek, eszközök Pl.: Oracle9i, IBM DB2, MSSQL

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

OLTP - OLAP rendszerek OLTP: On Line Transaction Processing Hagyományos adatbázis alkalmazások, nyilvántartások, vállalatok produktív rendszerei ERP rendszerek: Enterprise Resource Planning Pl.: SAP R/3, Oracle Financials, Libra, stb. OLAP: On Line Analytical Processing Elemzési célú rendszerek elterjedt követelményrendszere

OLAP követelményrendszer E.F.Codd, 1992: 12 pontos követelményrendszer, (a fontosabbak): Multidimenzionális adatnézet Általános dimenzió-fogalom, korlátlan dimenziószám Transzparencia: technikai részletek ismerete nélküli könnyű elérhetőség Kliens-szerver architektúra Több konkurens felhasználó támogatása

OLTP – OLAP tulajdonságok Orientáció Tranzakciók hatékony tárolása, végrehajtása Adatanalízis Felhasználó Vállalati adminsztrátorok Döntéshozók Feladat Napi folyamatok követése Döntéstámogatás, információszolgáltatás Adatok Aktuális, up-to-date Történeti, archív adatok Összegzett adatok Nem jellmező, részletes Összegzett, egyesített adatok Adatok nézete Relációs multidimenzionális Felhasználói hozzáférés Olvasás / írás Jellemzően olvasás Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen Feldolgozandó adat Alkalmanként tizes nagyságrendű Egyszerre akár milliós rekordszám Felhasználók száma Viszonylag sok Néhány, közép- és felsővezetők Prioritás Állandó rendelkezésre állás, megbízhatóság Rugalmasság, felhasználói önállóság

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek Példák adattárház rendszerekre Irodalom

Speciális adattárház típusok Jól skálázható technológia: Data Mart (adatpiac) lokális, szűk felhasználói kör, konkrét feladatok, kis adatfeldolgozó és analizáló egység adattárház funkciókkal Operational Data Store (ODS) Adatok tisztítására, gyűjtésére használt egység, teljes részletezettéségű operációs adatokkal Extraprise Data Warehouse Helyi megkötés nélkül összefutnak benne B2B és B2C adatok, elemzési céllal Virtuális adattárház Nem épül külön rendszer az adattárház adatainak számára, azt az OLTP rendszer keretein belül valósítják meg

Az adat útjának fő állomásai Forrásrendszerek Adattárház Elemző frontend alkalmazások

Architektúra változatok (kliens-szerver modellek)

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek Példák adattárház rendszerekre Irodalom

OLAP elemzések OLAP elemzések Multidimenzionális adatnézet Intuitív kezelőfelület, rugalmas lekérdezések On-line, válaszidő orientált szolgáltatás Közép-felsővezetők Lehetőség összetett elemzésekre, látványos, jól használható vizualizációra

Adattárházak - adatbányászat Adatbányászat: „Hasznos, látens információ kinyerése adatbázisokból.” OLAP korlátok: adatmennyiség, lekérdező nyelv

Tudáskinyerés folyamata Alkalmazási terület felmérése, előzetes ismeretek rendszerezése Céladatbázis kiválasztása, létrehozása Adattisztítás, előfeldolgozás Adatintegráció Adattér csökkentés: cél szempontjából fontos attribútumok kiemelése Adatbányászati algoritmusok kiválasztása (klaszterezés, mintakeresés, osztályozás) Adatbányászati algoritmus, paraméterek előállítása Algoritmus alkalmazása Kinyert információ értelmezése, finomítások A megszerzett tudás megerősítése, összevetése az elvárásokkal, dokumentálás

Tudáskinyerés folyamata Alkalmazási terület felmérése, előzetes ismeretek kinyerése Céladatbázis kiválasztása, létrehozása Adattisztítás, előfeldolgozás Adatintegráció Adattér csökkentés: cél szempontjából fontos attribútumok kiemelése Adatbányászati algoritmusok kiválasztása (klaszterezés, mintakeresés, osztályozás) Adatbányászati algoritmus, paraméterek előállítása Algoritmus alkalmazása Kinyert információ értelmezése, finomítások A megszerzett tudás megerősítése, összevetése az elvárásokkal, dokumentálás

Adattárházak - adatbányászat Az adattárházak megfelelő alapot biztosíthatnak adatbányász módszerek alkalmazásához Részben hasonló célok OLAP elemzések – adatbányász elemzések: jól kiegészíthetik egymást Probléma: OLAP jellegű és adatbányász rendszerek hatékony, rugalmas illesztése Megoldást jelentheti: Következtetési szabályok a DW-ben (induktív adatbázisok) Megfelelő adatbányász interface alkalmazása (még nincs elfogadott szabvány)

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Komponensek

Komponens csoportok ETL: Extraction Transformation and Load Adatkinyerés az operatív rendszerekből (extraction) Adattranszformáció (különböző adatformátumok, mértékegységek, nyelvek stb.) Adatminőség ellenőrzése, adattisztítás (cleaning) Adatbetöltés az adattárház struktúráiba (loading)

Komponens csoportok 2. OLAP Tools: OLAP lekérdezéseket lehetővé tévő komponensek (OLAP szerver, interface-ek) Felügyelet, adminisztráció adattárház működtetése, felügyelete

Metaadat kezelés Metaadat: „adat az adatokról” Az adattárház szerkezetét, a bent lévő adatok jellemzőit tároló szerkezet Fontos: adatintegrációhoz szabványos adatkezelés A megfelelő metaadat kezelési stratégiát gyakran említik mint az adattárház projekt kulcskérdését Példa: adatkockáink leírása, az adattöltéseink eredményei, az adatforrások mezőinek jelentése, stb.

Komponens csoportok 3. Frontend adatelemző alkalmazások OLAP elemzők, adatbányász eszközök, vizualizáció, egyéb kliens alkalmazások Adatbázis komponensek ROLAP: relációs OLAP – relációs adatbáziskezelő MOLAP: multidimenzionális OLAP, közvetelen multidimenzionális adattárolás HOLAP: hibrid OLAP - keverék

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Adatmodellezés (koncepcionális, logikai, fizikai)

OLTP adatmodellek Hagyományos, kiforrott módszerek Relációs adatmodell Relációs algebra alapú lekérdezőnyelvek, SQL Egyed/Kapcsolat Modell (E/R M), UML

OLAP multidimenzionális adatfogalma (szemantikai) Fogalmak: Tényadatok (mutatószámok) Dimenziók (jellemzők) Dimenzió-hierarchiák N-dimenziós adatkocka

Adatkocka példa: nemzetközi kereskedelmi cég értékesítési adatainak multidimenzionális nézete

Analízisoperátorok Műveletek: adatkocka  adatkocka Aggregáció (roll up) dimenzió elhagyása v. lépés hierarchiában felfelé Lefúrás (drill down) áttérés nagyobb részletezettségre Pivoting adatkocka elforgatása Szelekció (selection, filtering) konkrét jellemzők kiválasztása Szeletelés (slicing and dicing) adatkocka szeletének kiválasztása, részkocka kiválasztása

Példa hagyományos OLAP elemzőfelületre – SAP BEx Analyser

Oracle Discoverer frontend

Szemantikai réteg formális adatmodelljei ME/R modell: E/R modell multidimenzionális bővítése Nested Multidimensional Model (Lehner) Dimensional Fact Model (Golfarelli, Maio, Rizzi) Stb.

ME/R Modell - példa

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek Példák adattárház rendszerekre Irodalom

MOLAP technológia Közvetlen támogatása a szemantikai multidimenzionális adatmodellnek Tényadatok / dimenziók szétválasztása Fizikai tároláskor figyelembe vesszük az adatok multidimenzionális szerkezetét Többdimenzionális tömb tárolás: az adatkocka adatainak rendezése után azokat fix helyen tároljuk, így nem kell őket indexelni; a kocka minden mezőjének (a tartalmától függetlenül) lefoglalunk egy fix tárhelyet!

Háromdimenziós kocka elemeinek egy rendezése

Háromdimenziós MOLAP dimenzió-hierarchia példa

MOLAP Ritka mátrix kezelés: a mátrix üres részeinek felderítése, majd a fizikai tárolás megvalósítása ezen mezők kihagyásával  helytakarékosság Korlátok: Nagy dimenzió-elemszámok esetén Ritka mátrix kezelés gyakran nehézkes Nincs elfogadott szabvány Strukturális változtatások rendkívül költségesek

MOLAP termékek Asztalitól kezdve „high end” alkalmazásokig, Cognos: PowerPlay Business Objects: Mercury Oracle Express Holostic Systems: Holos Adatbázis motorok: Arbor: Essbase Sinper: TM/1

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Relációs adatbázis sémák Relációs adatbázis: a relációs adatmodellt támogató adatbázis – kiforrott módszerek, technológiák Táblák (relációk) Constraint-ek (megszorítások) Relációs séma: az adatbázisban tárolt adatokat leíró adatbázis-terv (reláció-előfordulásoktól, vagyis a konkrét adatoktól független)

ROLAP séma tervezésének 4 lépéses folyamata Kimball módszertana Modellezendő üzleti folyamat kiválasztása pl.: raktárkészlet nyilvántartások Felbontás (granularity) meghatározása pl.: raktárkészlet alakulása naponként, termékenként, raktárhelységenként, szállítónként, stb. Dimenziók kidolgozása pl.: termék dimenzió: név, ID, súly, beszerzési ár, stb. Tényadatok meghatározása pl.: mennyiség, súly, érték, minőségi mutatók, stb.

Csillagséma Cél: multidimenzionális elvi modell megvalósítása relációs adatmodellben Eszköz: speciális relációséma kialakítása Központi „tény-tábla” a tényadatok számára Hozzá idegen kulcsokkal kapcsolódnak a dimenzióelemeket tartalmazó „dimenzió-táblák”

Dimenziótáblák Ténytáblához képest általában kis adatmennyiség Célszerű minél több, könnyen értelmezhető és beszédes leíró jellegű atribútumot felvenni  rugalmas, felhasználóbarát elemzések lehetősége Pl.: dátum dimenzió létjogosultsága Denormalizált szerkezet – redundancia (gyors lekérdezhetőség elsődleges szerepe) Generált, adatbáziskezelő által támogatott kulcsok Változó dimenziók kezelésére megfelelő stratégia kidolgozása (slowly changing dimensions)

Termék dimenzió

Ténytábla Dimenziótáblákhoz képest nagy méretű Attribútumai mutatószámok, valamint a mutatószámokat jellemző dimenzióértékekre mutató idegen kulcsok Általában nem tartalmaznak dimenzióértékeket, csak kulcsokat

„Napi eladások” adatkocka csillagsémája

Csillagséma tulajdonságai Előnyök: Egyszerű, intuitív adatmodell Kevés join művelet lekérdezésekhez Kevés tábla olvasása Könnyű megvalósíthatóság, a modell leíró adatai egyszerűek Hátrányok: Nehézkes aggregátum (összeg) képzés Nagy dimenziótáblák esetén a hierarchiák kezelése nagyban lassítja a lekérdezéseket Dimenzióelemek tárolása redundáns, denormalizált (vagyis tárhhely-pazarló)

Egyéb csillagséma variánsok Hópehely séma normalizált dimenziótáblák (pl. hierarchiaszerkezetek kialakítása, stb. – hagyományos normalizálás folyamata) Konszolidált csillagséma aggregált adatok tárolása a ténytáblában „Terraced” séma – a szélsőséges eset egyetlen, elfajult ténytáblából álló séma Galaxis séma több adatkocka megvalósítása külön ténytáblákkal, de közösen használt dimenziótáblákkal „Fact consellation schema” hierarchikus kapcsolatban álló ténytáblák

Példa: az SAP BW hópehelysémája Text SID Table Master Hierarch. Hierarchies Dimension table FACT

ROLAP teljesítény javítása - módszerek Kritikus tulajdonság a válaszidő (elvárás: 4 másodpercnél nem hosszabb lekérdezések!) Módszerek: Denormaizáció (redundancia bevezetése) Aggregált adatok tárolása (szintén redundáns adattároláshoz vezet) Particionálás: tábla (pl. napi szinten), valamint osztott adatbázisok

Aggregáció Cél: elemzés során gyakran előforduló felbontással összegek, mutatószámok fizikai tárolásával a válaszidő csökkentése Fontos a tárolt aggregátumok megfelelő választása túl sok  nagy adatbázis, aggregátumok karbantartása költséges túl kevés  lassú lekérdezések Gyakran az adattárház rendszer az előforduló lekérdezések mért statisztikái alapján, dinamikusan dönt a létrehozandó aggregátumokról

Aggregációs rács – „n-cuboid”-ok (megfelelő tárolt aggregátumok kiválasztásához)

OLAP támogatás relációs adatbáziskezelőkben (Oracle 9i példákkal) Tábla particionálás – párhuzamos végrehajtás Range particionálás: attribútum értékek intervallumfelosztása alapján, pl. napi adatok Hash particionálás: attribútumértékekből számolt hash-függvény használata List particionálás: adott értéklisták alapján create table partitioned_t ( … date_stamp date not null ) partition by range (date_stamp) ( partition part_1 values less than (TO_DATE(‘1970.01.01’)) tablespace ts1, … partition part_5 values less than (TO_DATE(‘2003.9.28’)) tablespace ts5 )

OLAP támogatás 2. Materializált nézetek (aggregáció) Fizikailag tárolt nézetek Automatikus frissítés, query kiszolgálása szintén automatikusan történik a nézetből, ha célszerű create materialized view mat_example build immediate refresh force enable query rewrite as select id, sum(amount) from sales s, customers c where s.cust_id = c.cust_id group by c.cust_id ;

OLAP támogatás 3. Bitmap indexelés: hagyományos indexek (B-fa): attribútum értékek alapján meghatározza a konkrét rekord helyét Bitmap: rekordazonosító (rowid) helyett azok egy bitsorozatos reprezentációját használjuk Rugalmas attribútumkezelés ( rugalmasabb OLAP lekérdezések), helytakarékosság

OLAP támogatás 4. Külső táblák ETL folyamat integrálása adatbázison belülre külső file-ok, adatforrások hagyományos táblaként kezelhetőek OLAP query optimalizáció OLAP bővítményeket tartalmazó SQL-eken és szabványos OLAP interface-eken (Pl. Java OLAP API) keresztül történő lekérdezések optimalizációja

OLAP támogatás 5. Tábla tömörítés Nagy adatmennyiség esetében a tábla adatait tömöríthetjük hatékonyabb helykihasználás, gyorsabb válaszidők, de cserébe költségesebb módosító műveletek Dimenzió, hierarchia, adatkocka fogalmának bevezetése Multidimenzionális adatmodell támogatása

OLAP támogatás 6. SQL bővítések Group by kiegészítői: ROLLUP, CUBE operátorok select channel_desc, calendar_month_desc, country_id, to_char(sum(amount_sold), '9,999,999,999') SALES$ from sales, customers, times, channels where sales.time_id=times.time_id and sales.cust_id=customers.cust_i and sales.channel_id= channels.channel_id and channels.channel_desc IN ('Direct Sales', 'Internet') and times.calendar_month_desc IN ('2002-09', '2002-10') and country_id IN ('CA', 'US') group by cube (channel_desc,calendar_month_desc,country_id);

CHANNEL_DESC CALENDAR CO SALES$ -------------------- -------- -- ---------- Direct Sales 2002-09 CA 1,378,126 Direct Sales 2002-09 US 2,835,557 Direct Sales 2002-09 4,213,683 BY Channel and Month Direct Sales 2002-10 CA 1,388,051 Direct Sales 2002-10 US 2,908,706 Direct Sales 2002-10 4,296,757 BY Channel and Month Direct Sales CA 2,766,177 BY Channel and Country Direct Sales US 5,744,263 Direct Sales 8,510,440 BY Channel Internet 2002-09 CA 911,739 Internet 2002-09 US 1,732,240 Internet 2002-09 2,643,979 BY Channel and Month Internet 2002-10 CA 876,571 Internet 2002-10 US 1,893,753 Internet 2002-10 2,770,324 BY Channel and Month Internet CA 1,788,310 BY Channel and Country Internet US 3,625,993 Internet 5,414,303 BY Channel 2002-09 CA 2,289,865 BY Month and Country 2002-09 US 4,567,797 2002-09 6,857,662 BY Month 2002-10 CA 2,264,622 2002-10 US 4,802,459 2002-10 7,067,081 CA 4,554,487 US 9,370,256 13,924,743 Everything

HOLAP architektúrák Relációs és multidimenzionális megvalósítást egyszerre támogató rendszerek Trend: multidimenzionális tárolás lehetőségének bevonása relációs adatbáziskezelőkbe, a szabványos kereteken belül Pl.: Oracle – Analytic Workspaces MSSQL, IBM DB2

MOLAP – ROLAP eszközök skálázhatósága

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Adattárház projekt Adattárházak bevezetése beruházási projektek keretében Hagyományos IT projektektől némileg eltérő felépítés Tervezés: felhasználói igények – rendelkezésre álló adatok nyújtotta lehetőségek

Fentről lefelé ill. lentről felfelé tervezés

Iteratív adattárház-építési folyamat

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Kurrens kutatási területek (a teljesség igénye nélkül) Aggregátumképzés módszerei, modelljei, megfelelő aggregátumok kiválasztása, kezelése Indexek Induktív adatbázisok az adatok mellett következtetési sémákat, szabályokat is tárolunk  adatbányászat Query optimalizálás OLAP jellegű lekérdezések ekvivalens átalakításaival

Kurrens kutatási területek 2. SQL bővítések, OLAP lekérdező nyelvek Formális adatmodellek Elosztott adattárházak sok, független adatpiac Metaadat kezelés: szabványosítás

Trendek, fejlesztési irányvonalak Business Intelligence Platform – adatbáziskezelők egyre szélesebb körű szolgáltatással ROLAP-MOLAP egybeolvadás Tisztám MOLAP termékek háttérbe szorulása Adatbányász eszközök integrálása az adattárház ill. az adatbázis keretein belülre

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Példák adattárház rendszerekre SAP BW Robosztus, „faltól falig” megoldás Üzleti tudás beépítése Oracle, IBM DB2 Könnyen skálázható Rugalmasan alkalmazható komponensek, nyitottság más komponensek irányában Adatbázis szerver  business intelligence platform

Clickstream adattárház Clickstream: webszerveren halmozódó logokban tárolt, a felhasználók lekéréseit tartalmazó adathalmaz Kihívás: nagy adatmennyiségek pl. [origo] portál: napi kb. 20 millió log-sor – 6 GB Cél: felhasználási szokások, trendek felismerése, alapstatisztikák nyilvántartása, a portál karbantartása, kialakítása a felhasználói igényekhez mérten Személyre szabott, célzott tartalom Adatbányász módszerek: klaszterezés, szekvencia-keresés

Tartalom Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodellezés, adatmodellek MOLAP architektúrák ROLAP architektúrák Az adattárház projekt Kurrens kutatási területek, trendek Példák adattárház rendszerekre Irodalom

Irodalom W.H.Inmon: Building the Data Warehouse - Second Edition Ralph Kimball, Margy Ross: The Data Warehouse Toolkit - Second Edition. John Wiley & Sons, Inc., 2002 Oracle9i Data Warehousing Guide. Oracle Corporation. Business Information Warehouse Online Help