Kinek szól az előadás: Akik már ismerik valamennyire az SSIS-t Akik nem most hallanak először a BI-ról és az adattárházról Az előadás célja A legjobb.

Slides:



Advertisements
Hasonló előadás
Tananyag: konzultáció
Advertisements

Multidimenzionális Adatbázisok Alapjai
64 bites architektúra, csapdák és átjárók Tóth Sándor Terméktámogatási tanácsadó.
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Hatékonyságvizsgálat, dokumentálás
Felhasználói felületek és üzleti logika Bollobás Dávid ASP.NET
Rendszertervezés GIMP.
Önálló labor beszámoló – 8. félév Nyárády Péter QJA31E
Adatbetöltésre való (ETL eszköz) + AdattisztításAdatprofilozás Adatbányász modellek Futtatása Szövegbányászat (szótövezés, …) … Része az SQL Server.
LINQ to DataSet Kereskényi Róbert
Hatékony SQL Server 2005 Analysis Services (SSAS)-alapú BI rendszerek tervezése Kővári Attila BI tanácsadó, SQL Server MVP
SQL Server 2005 Reporting Services a gyakorlatban
Microsoft fejlesztőeszközök a szakképzésben Farkas Bálint Visual Studio 2008.
2012. március 6. Rózsa Győző Interaktív környezet március Rózsa Győző
megismerése, mintaadatbázis létrehozása
Adatbázis tesztelés.
Programozás alapjai A programozás azt a folyamatot jelenti, melynek során a feladatot a számítógép számára érthető formában írjuk le. C++, Delphi, Java,
16. Tétel. Adatbázis: Olyan adatgyűjtemény, amely egy adott feladathoz kapcsolódó adatokat szervezett módon tárolja, és biztosítja az adatokhoz való hozzáférést,
Mikrovezérlők alkalmazástechnikája laboratóriumi gyakorlat Kovács Tamás & Mingesz Róbert 3. óra február 20., 23.
Ez a dokumentum az Európai Unió pénzügyi támogatásával valósult meg. A dokumentum tartalmáért teljes mértékben Szegedi Tudományegyetem vállalja a felelősséget,
Első C programunk Visual C Express-ben Horváth Ernő 1.
WEB Technológiák Coldfusion ME Általános Informatikai Tsz. dr. Kovács László.
SQL Server 2005 Integration Services Kószó Károly rendszermérnök Microsoft Magyarország.
Az Office Business Application (OBA) alkalmazásmodell Az üzleti probléma: központosított, mégis rugalmas feladatkövetés A lehetséges megoldások nagyvállalati.
Előadó: Kárpáti Péter Üzleti folyamatvezérlés nagyvállalati környezetben (BizTalk Server 2004, Office InfoPath 2003 és Windows.
SQL Server 2005 Reporting Services Kószó Károly rendszermérnök Microsoft Magyarország.
SQL Server 2005 relációs adattárház technológiák
Átállás.
Oktassunk adatbázis-kezelést! Micskei Zoltán Microsoft Referencia Iskola.
Az adatfeldolgozás forrásai
Delphi programozás 8. ELŐADÁS ADO ActiveX Data Objects.
Delphi programozás alapjai Nagyváradi Anett PTE PMMK MIT.
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Szaktanácsadás SQL Server UpgradeTeljesítményoptimalizálás Replikáció kialakítás Disaster Recovery tervezés.NET Framework alapú fejlesztések.
Ez a dokumentum az Európai Unió pénzügyi támogatásával valósult meg. A dokumentum tartalmáért teljes mértékben Szegedi Tudományegyetem vállalja a felelősséget,
Mikrovezérlők, perifériák laboratóriumi gyakorlat 3. óra szeptember 18. Mingesz Róbert v
V 1.0 ÓE-NIK, Programozás I. A Microsoft Visual Studio 2010 használata.
1 Informatikai Szakképzési Portál Adatbázis kezelés Alapfogalmak.
Segédlet vizuális programozáshoz Kovács László
Fejlesztés PHP-NUKE portál rendszerre Horváth Zoltán Második Magyarországi PHP Konferencia március 27. Copyright PHP Konferencia,
Gábor Dénes Főiskola Rendszertechnikai Intézet
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Web: Magasszintű Programozási Nyelvek I. Eszterházy.
3. előadás.  Apache szerver tudnivalók  Az index.php .htaccess – web-szerverünk beállításai  Konfigurációs állományok  Adatbázis kapcsolódás beállítása.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Visual Basic 2008 Express Edition
Műszer vezérlő - kezelő program GPI-745A teszterhez.
A gyakorlatok munkakörnyezete
Alapozó eszközök Eseménynapló Eseményszámba megy… Analytic and Debug Logs Custom Views / Cross-log queries Event Forwarding > Subscriptions Feladatütemező.
– SQL 3: SELECT - 1. – Tarcsi Ádám, január 31. Adatbázis gyakorlat.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
A teljes infrastruktúra egységesített felügyelete és védelme.
Automatizálási folyamatok az SQL 2012-ben
Webprogramozó tanfolyam
Adatbányászat Excel 2007-tel
WEBSTAR CSOPORT WC S ADATBÁZIS VERZIÓKÖVETÉSE: LIQUIBASE Marics Tamás június 20.
Az operációs rendszer feladata
SQL Server Integration Services
– SELECT - 1. – Tarcsi Ádám január Adatbázis gyakorlat.
Az Office 2007 új grafikus felülete
OpenCMS programozói bevezetés Krizsán Zoltán iit me.
Palotás Ádám és Fodor Gergely Oracle Data Integrator Bemutató és gyakorlat
Gráfadatbázisok Rácz Gábor.
Indexek 22 Index Table Key Row pointer … WHERE key = 22.
Informatikai gyakorlatok 11. évfolyam
Könyvtárstruktúra, felhasználói és rendszerkönyvtárak Fájlkiterjesztések, attribútumok és engedélyek Takács Béla 2016.
Naplóelemzés Log Parserrel
Alkalmazásfejlesztés gyakorlat
Előadás másolata:

Kinek szól az előadás: Akik már ismerik valamennyire az SSIS-t Akik nem most hallanak először a BI-ról és az adattárházról Az előadás célja A legjobb módszerek bemutatása Hogy Önök hatékony ETL folyamatokat valósítsanak meg az SSIS segítségével

Az SSIS Gyors áttekintése Hatékony ETL folyamat megvalósítása az SSIS segítségével Teljesítmény-hangolás

Projekt- tervezés Projektmenedzsment Üzleti igények meghatározása Architektúra- tervezés Eszköz- választás és telepítés Fizikai tervezés Adatbetöltők tervezése és fejlesztése Felhasználói felület /alk. tervezés Felhasználói felület /alk. fejlesztés Üzembe- helyezés, oktatás Növekedés Karbantartás Dimenzionális modellezés

Adatbetöltő eszköz, a MS ETL eszköze Része az SQL Server 2005 programcsomagnak Grafikus programozási interfész Nem DTS!

Az SSIS Gyors áttekintése Hatékony ETL folyamat megvalósítása az SSIS segítségével Teljesítmény-hangolás

Érvek a fájlrendszer mellett Könnyebb Source control alá helyezni egy fájlt, mint egy adatbázist Könnyebb fájlt verziózni, mint adatbázist Egyszerűbb menteni és visszaállítani, mint az msdb adatbázist Egyszerűbben betölti a BI Studio az SSIS csomagokat fájlból, mint adatbázisból Hierarchikusan rendezhetjük az SSIS csomagokat Érvek az adatbázis mellett A napi mentések során SSIS csomagjaink automatikusan mentődnek.

A minden package által használt beállításokat tegyük szeparált konfigurációs állományba (pl elérési utak) Minden package ugyanabból a konfigurációs állományból olvassa ki a beállításokat! Hol tároljuk a konfigurációs beállításokat? XML konfigurációs állomány Környezeti változó Registry bejegyzés Hívó package változójában SQL Server Best practice: Adatforrásonként, beállításonként egy XML fájl és Windows környezeti változók használata (Indirect XML Configuration file)

Készítsünk naplót, hogy Pontos képet kapjunk betöltési folyamataink eredményéről Statisztikákat készíthessünk Láthatóvá tegyük, hogy épp melyik folyamat fut Futtatandó betöltések (SSIS csomagok, task-ok) szabályozása Készítsünk háromszintű naplót (Job, Package, Task) lefúrási lehetőséggel A task szintű naplózásra használjuk az SSIS beépített naplózási szolgáltatását (sysdtslog90 tábla)

Minden szinten: mikor indult, mikor fejeződött be, milyen eredménnyel zárult a folyamat Job szint melyik napotokra futott, hány hívott package futott hibásan mekkora volt az adattárház betöltés előtt és után, … Package szint: Errorcode, desc, source Betöltött sorok száma (új, megváltozott, hibás, ) Honnan lett meghívva (job, BI Studio, …)  interactive mode Ki futtatta, … Melyik gépen futott Task szint: onError esemény

A Derived column task segítségével könnyen hozzáadhatjuk a beérkező rekordokhoz, hogy Melyik forrásrendszerből került be Melyik Package töltötte Milyen módon került be (BI Studióból, vagy job- ból? (interactiveMode) Hogy került be? (hibaágon, vagy standard úton) Ki töltötte be? Mikori betöltéssel került be? Az audit információk megkönnyítik a hibakeresést és a kézi javítást.

Egy ismételt betöltés során eldönti a package, hogy kell-e futnia vagy sem. Ne fusson újra, ha egyszer már sikeresen lefutott! Használjunk feltételhez kötött végrehajtást (Expression and Constraint) Napló alapján tárolt eljárás beírja a package változójába, hogy kell e futni vagy nem. A package innen kiolvassa és az annak megfelelő ágon fut. Ne erre használjuk a disable=true beállítást, mert nem erre való!

Nem tudjuk beégetni az SSIS csomagba, hogy melyik napot kell letöltenie. Paraméterezett lekérdezés, vagy az egész lekérdezés egy paraméter: Select * from t where datum=? „Select * from t where datum= ” Használjunk paramétert, ha lekérdezésünk hossza meghaladja a 4000 karaktert Minden más esetben készítsük el magunk a teljes lekérdezést Megj.: A DataFlow task nem konfigurálható át futásidőben, csak a package betöltésekor. (DTS tudta) -> Migration best practice: NE

A Template package tartalmazza: Konfigurációs állományok elérési útját Naplózási funkciókat Gyakran használt task-okat, connection menedzsereket, Standard változókat Csomagok védelmi szintjét ProtectionLevel=DontSaveSensitive standard beállításokat Tegyünk BreakPoint-ot az package OnPostExecute eseményére Tegyünk szöveges megjegyzéseket a template package- be -> Mit kell majd átállítani, ha új package készül belőle

1 Package 1 táblát töltsön! Dimenzió táblánként 1 package, ténytáblánként 1 package Könnyebb fejleszteni, hibát javítani, futtatni, párhuzamosítani Package-en belül használjunk container-eket Párhuzamosíthatóak benne a folyamatok Egyszerűbb nem futtatni (disable=true) Használjunk fő package-eket a dimenziókat és ténytáblákat töltő package-ek összefogására

BI Development stúdió F5 (Start with debugging) Ctrl F5 (Start without debugging) Parancssor: DTExec.exe (vagy DTExecUI.exe) Performancia teszteléshez használjuk a parancssort Task-ok kikapcsolása: Disable=false (csak debug módban használható)

Az SSIS Gyors áttekintése Hatékony ETL folyamat megvalósítása az SSIS segítségével Teljesítmény-hangolás

Workflow engine Párhuzamos futtatást lehetővé tevő Task-okat, konténereket futtató workflow engine Teljesítménye SSIS szempontjából tekinthető adottságnak (teljesítménye az RDBMS-től, a hálózat sebességétől függ) Data Flow engie Speciális runtime task, ami lehetővé teszi a különböző rendszerek közti adatmozgatást Komponensei adatforrások, transzformációs eljárások, céladatbázisok Párhuzamosítható

Párhuzamosítsunk! Szedjük szét a forrásadatokat Fájlokat több fájlba Táblák adatát több szeletre (where feltétellel) Határozzuk meg, hogy hány folyamat fusson párhuzamosan Data flown-n kívül (Package-en belül): MaxConcurrentExecutables (-1 = (Logikai) processzorok száma + 2) Data flown-n belül: EngineThreads. Az alapértelmezett 5, ami egy multiprocesszoros gépen megnövelhető (Adatforrásoknak és aszinkron transzformációknak kell egy- egy thread)

Egyszerre a lehető legtöbb adatot olvassuk be a pipeline-ba Csak azokat amelyekre tényleg szükség van. Select * =  A lehető legkisebb helyigényű adattípust használjuk Kerüljük a teljes adathalmazon végzett transzformációkat (sort, aggregate) (ha tudjuk) Index: Betöltés szempontjából csak a dimenzió táblákra -> jobb lookup teljesítmény Használjunk SQL Server Destination-t OLE DB helyett Töltsünk üres táblába (Partícionálás)

Építsen hatékony SSIS csomagokat! Ismerje meg alaposan az SSIS architektúráját Párhuzamosítson! Mérje a teljesítményt (Naplózzon) És használjon egy jól bevált adattárház építési metodológiát!

Integration Services: Performance Tuning Techniques Project REAL: Business Intelligence ETL Design Practices Blog bejegyzések: Jammie Thomson, Marco Russo, Alberto Ferrari, Brian Knight írásai Magyar nyelvű irodalom: