Adatvagyon gazdálkodás A nagyvállalatok adatvagyon gazdálkodásának néhány fontos aspektusa Karsány Ferenc, 2013. április 23.
Miről lesz szó? Adattárházak Adatminőség – adattisztítás Master Data Management Ügyfélszegmentáció – marketing támogatása
Az adattárházak előtt... OLTP rendszer: OnLine Tranzakció Feldolgozó rendszer: A vállalat napi működését támogató, kiszolgáló rendszerek Ügyviteli rendszer Számlavezető rendszer CRM, Bér, Jutalék, stb. Sok adat keletkezik ezekben: jó lenne felhasználni Félmegoldás: lekérdezés a rendszerek adatbázisaiból közvetlenül Lassú, nem teljeskörű, nem auditált Kézi beavatkozás szükségessége
Adattárházak I. Más elnevezés: MIS, OLAP, DWH Sarokpontok: Extract: Adat kiemelése a forrásrendszerekből Automatikus: napi, heti, havi (stb.) áttöltés Transform: Adat átalakítása Egységes adatszerkezetbe való átalakítás Értékkészletek egyeztetése (pl. nem megállapítása személyiszámból 1,3 „M” 2,4 „F”) Számolt oszlopok Aggregálás, stb. Load: adat betöltése a historikus, nagy megőrzési idejű területre
Adattárházak II. Historikusan, az időben visszamenőleg tárol Visszamenőleg lekérdezhető, láthatjuk a változásokat Automatikusan megtörténik az adatok töltése Napi, heti, havi adattöltés Kézi beavatkozás nélkül Visszakövethető, hogy mikor mi történt Az adatok védelme (nem lehet kézzel hamisítani az excel táblában, mert a védett DB-ben ott vannak az eredeti adatok) DM (Data Mart, Adatpiac) rétegen esetleges további feldolgozásra, riportoló rendszernek kiajánlhatóak az adatok
Adatminőség Ahhoz hogy az adattárházunk jó adatokat szolgáltasson, fontos, hogy az adatok minősége „megfelelő” legyen Az adatokban hibák keletkezhetnek Forrásrendszerekben, rögzítéskor (elgépelt keresztnév, születési idő és adóazonosító jel nem összeillő, fontos adat nem került rögzítésre) Áttöltéskor (nem lekezelt esetek a „Transformation” részben) Migráció során (pl. a régi rendszer egyik mezőjének értékét nem sikerül 100%-osan megfeleltetni az adott idő és erőforrás igényen belül) Stb. A hibák torzíthatják a statisztikákat, riportokat
Adatminőség - adathibák Adathiány (szükséges mező nincs kitöltve) Adattöblet (olyan mező van kitöltve, aminek nem szabadna) Adathiba (hibás a kitöltött mező tartalma) Értékkészlet táblához viszonyítható (pl. keresztnevek, cégnevek) Többi értékből kalkulálható (pl. születési idő) Javítási lehetőségek (kézzel, félautomatikusan, automatikusan) Pótlás referencia adatbázisból Javítás valamilyen szabály alapján (pl. INITCAPS()) Teljesen kézi folyamat
Master Data Management Hány ügyfele van egy Banknak? Törzsadat kezelés egy központi, robosztus, megbízható helyen Törzsadat: ritkán változó, nem tranzakciót leíró alapadatok (pl. ügyfél adatok, termékek alapadatai) Probléma: a törzsadatok a vállalat különböző forrásrendszereiben szétszórva találhatóak meg Pl. ügyfél tábla minden rendszerben található Melyik rendszer adatai AZ adatok? Különböző részletességgel tárolva, többször, kicsit eltérően felvéve
Master Data Management - megoldás Tároljuk az adatokat központosított helyen, egységes formátumban, megfelelő részletességgel Ez a hely biztosítson API-t a különböző rendszereknek az adatok elérésére Előnyök Központosított törzsadat kezelés Megfelelő részletesség Egységes adatok látszanak az összes rendszerből Hátrány Általában nagy költségű a régi rendszerek módosítása az új törzsadatok használatához Általában nagy költségű a rendszerek adatainak migrációja a törzsadatkezelőbe
Ügyfélszegmentáció – marketing támogatása Ha van már megfelelő ügyféladatbázisunk: Tipikus ügyfélprofilok meghatározása (életkor, nem, eddigi termékek, vélt/valós jövedelem, lakóhely) Ügyfelek besorolása kategóriákba Differenciált ügyfélkiszolgálás Marketing kampányok hatékonyságának növelése Eredmény: Jobb ügyfélkiszolgálás – ügyfélmegtartás Megtartani vagy elengedni? – ügyfélérték Pontosabb termék ajánlás nagyobb értékesítési hatásfok – keresztértékesítés
Szegmentáció – kis színes Matematikai jellegű problémák Hogyan állapítom meg a legjobban egymásra hasonlító ügyfelek halmazát? Hol húzom meg a határokat a szegmensek között? Továbbolvasáshoz: http://en.wikipedia.org/wiki/K-means http://en.wikipedia.org/wiki/Cluster_analysis