Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbázis-kezelés: nagy adatbázisok, big data, adatbányászat

Hasonló előadás


Az előadások a következő témára: "Adatbázis-kezelés: nagy adatbázisok, big data, adatbányászat"— Előadás másolata:

1 Adatbázis-kezelés: nagy adatbázisok, big data, adatbányászat
Csicsman József Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

2 Az előadás témái A Statisztikai szoftverek
Adat előkészítő és adatelemző szoftverek a KSH-ban SAS az adófeldolgozásban Vállalati Információs Rendszerek döntések támogatására, a hagyományos elemzési módszertanoktól a mobilos Dashboard-ig Pénzintézeti és Telekommunikációs alkalmazások Adatelemzés és adattárház építés az egészségügyben A Big Data és a Hadoop technológiák A Magyarországon is megvalósult BD projektek Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

3 Ki az a Data Scientist? Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

4 A Data Scientist pozíciója
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

5 Elvárások a DS-től Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

6 Van ilyen ember? Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

7 A DS hagyományos szoftvereszközei
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

8 A DS napi munkájának eszközei
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

9 A mátrix alakú adatszerkezet az adatelemzésben
objektumok Var1 Var2 Vark O1 O2 On Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

10 A statisztikai szoftverek történeti áttekintése
P-STAT, SPSS, BMDP, OSIRIS,S-PLUS termékek, SAS,… Az 1970-s évek végen egyetemi környezetben induló termékek Nagy rendszereket kiegészítő szoftverek, pl. ORACLE Financial, Adatbáziskezelőkhöz, ügyviteli rendszerekhez tartozó lekérdező rendszerek MINITAB, SYSSTAT, MATLAB, STATA,,… Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

11 Magyarországon elérhető lehetőségek
SAS SAS Institute (magyarországi képviselet: SAS Institute Kft.) Statistica StatSoft Inc. (magyarországi képviselet: StatSoft Hungary) SPSS SPSS Inc. (magyarországi képviselet: IBM Hungary) Eviews IHS EViews Team (magyarországi képviselet: Új Calculus Bt.) R Az S szoftver továbbfejlesztése, szabadon elérhető WEKA,… Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

12 Adatbányászati szoftverek 1995-től
Intelligent Miner DBMiner MineSet Clementine Enterprise Miner Statistica Data–mining Adatelemző-> Adatbányász-> Data Scientist Kapcsolat az adatelemző szoftverekkel programozó ( SAS BASE, SPSS syntax, Matlab, R, ...) alkalmazásfejlesztő (SAS App Dev Stúdió, Webes dashboardok,…) Felhasználó 1.(alkalmazások üzemeltetői, alkalmazásgazdák) Felhasználó 2. (Aktuáriusok, befektetés-, kockázatelemzők,...) Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

13 Az adatbányászati szoftverek összehasonlítása
Milyen számítógép architektúrákon fut? A szoftver biztosítja-e az összes adatbányászati módszertant? Ha nem, hogyan bővíthető? A bővíthető-e a saját programozási nyelvén?, Milyen adat-vizualizációs lehetőségekkel rendelkezik? Milyen outputformákkal rendelkezik és azok másolhatók-e szövegszerkesztőkbe? Jól kezeli-e a nagy adatállományokat? Elterjedt-e használata, könnyen megoszthatók-e az adatokat és programok? Megfizethető-e a termék a felhasználó számára? Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

14 A Statisztikai szoftverek használata a tudományos célú felhasználásoknál
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

15 Adat előkészítő és adatelemző szoftverek a KSH-ban
Kérdőív szerkesztés (Word, Excel) Nyomtatás, megszemélyesítés (Openpage) Adateditáló rendszerek: BLAISE, Oracle és SAS Adattárolás eszköze az Oracle A nyomdakész „táblagyártás” a TPL-lel Az adatelemzés eszközei nagygépes környezetben (BMDP, SPSS, SAS) Napjaink adatelőkészítő és elemző rendszerei (ORACLE, SAS és az SPSS) Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

16 Az SPSS-szel támogatott adatelemzések a KSH-ban
Elsősorban a társadalomstatisztikai adatgyűjtések Egészségügyi felmérések teljeskörűsítése, hibaszámítása és publikálása Oktatásstatisztika Időmérleg Demográfiai elemzések Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

17 SAS alkalmazások a KSH-ban
AKM modellek A migráció eszköze a SAS Fogyasztói árstatisztika Háztartásstatisztika,és a Munkaerőfelvétel A Mikrocenzus, a Próbanépszámlálás és a Népszámlálás Mikroszimulációs szolgáltató rendszer A HKF adatfelvétel korrekciója mikroszimulációs eszközökkel Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

18 2001. és 2011. évi Népszámlálás SAS környezetben
OCR – ahogyan a papír adattá vált 2011 webes adateditálás Monitoring – az adatrögzítés szervezése és követése Meta rendszeren alapuló adattárház Dinamikus adatkezelés a web-en, SAS EG Publikáció SAS-WORD-Acces-TPL-WORD Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

19 SAS az adófeldolgozásban
VIR Társasági adó becslése A Monitorozó rendszer 1996-ban A korrigált becslési algoritmus 1997-ben Az eredmények és a hibák, a jó becslés feltételrendszere Központi bevallásfeldolgozás META Futtatórendszer Lekérdező Adat és alkalmazásvédelem Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

20 A Társasági adóbevallások beérkezésének üteme

21 A Monitorozó rendszer 1996-ban és korrigált 1997-ben
A statikus model A dinamikus model A végfelhasználói alkalmazás funkciói Az eredmények összevetése a tényadatokkal A minta rétegei A kiemelt gazdálkodó egységek kezelése A becslési algoritmus hangolása Új funkciók a végfelhasználói alkalmazásban A hibaszámítás

22 Az eredmények és hibák, a jó becslés feltételrendszere
A becslési eredmények összehasonlítása a tényadatokkal Szervezési követelmények a kiemelt gazdálkodók kezelésekor Az adatfelvételi hibák kezelése, a beérkezett adatok összevetése a korábbi évek adataival A gazdálkodó egységek számának pontos meghatározása Az üzemeltetés fegyelme

23 Az általánosított központi be-vallásfeldolgozó rendszer
A Társasági Adó feldolgozásánál szerzett tapasztalatok alkalmazása a többi adóbevallásra is A központi bevallásfeldolgozó rendszerek migrálása A META információs rendszer A Futtató rendszer funkciói az aktuális időszakhoz tartozó feladatok az általánosított adatkezelés lehetőségei az általános párosító Adat és alkalmazásvédelem Demonstráció Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

24 Többváltozós Statisztikai Modellezés Csicsman J
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

25 Vállalati Információs Rendszerek döntések támogatására
Technológia Munkatársak ADAT Üzleti célok Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés Üzleti információk

26 A vállalati információ- (tudás) kinyerés folyamata
Á C Ó Tranzakciós Minőség A D T O K Kockázat RDBMS Fogyasztó “Régi” Here is the view of the PROCESS... Adatkezelés Szervezés Kiaknázás Termék SAS Piac Külső Jövő Információ-tárház Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

27 Információ tárház (Data Warehouse)
“Témaorientált, integrált, nem változó, idővariáns adatoknak olyan szervezett gyűjteménye, amely a vezetés igényeit támogatja” (William H. Inmon definíciója) tárgyorientált integrált időtengelye van csak bővíteni lehet Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

28 A vállalati döntéshozók információ igénye
Aktuális, pontos és teljes információk Az üzleti változásokat figyelembe vevő adatok Új üzleti lehetőségekbe betekintés lehetősége a vállalati stratégiákhoz történő alakíthatóság A vállalati információs rendszerek piramis ábrája Tranzakciós rendszerek VIR Adatbányászati eszközök Statisztikai szoftverek Metainformációs rendszerek, Adattárházak Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

29 Vezetői Információs Rendszerek (VIR-MIS)
Követelmények vállalati szintű adatelérés és kezelés alkalmazások sokfélesége különböző felhasználói igények hardver független architektúra alkalmazás fejlesztés a hagyományos GUI rendszerektől a webes alkalmazásokig Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

30 CalcQ Mobil Az ERP rendszerekben tárolt adatok elérése mobil eszközökkel
A vállalati ügyviteli rendszerek zártak A döntés előkészítés rugalmas támogatása a Calculus Q&A rendszerével Előre definiált lekérdezések elérése és adatmódosítási lehetőségek mobil eszközökön Az adat és alkalmazás védelem problémája a mobilos operációs rendszereken (adatvédelmi alkalmazás a felhasználók azonosítására és a használható funkcióira) Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

31 Az adatáramlás folyamata
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

32 Kik használhatják a webes alkalmazásokat ?
Döntéshozók, cégvezetők Adatelemzők Mozgó ügynökök Üzletkötők Kereskedők Műszaki ellenőrök Munkafelmérést végző személyek Külső helyszínen dolgozó szerelők Stb. Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

33 Pénzintézeti megoldások specialitásai
Hiányzó adatok pótlása Adattisztítási feladatok az elemzés előtt Alaprendszerekre épülő adattárház megoldások Felhasználó igényeit kiszolgáló adatpiacok Üzleti termékek eredményének előrejelzése A Credit Scoring elemzések és csalásfelderítés támogatása A stressz teszt vizsgálatok elkészítése (árfolyam-változás, munkanélküliség növekedés,…) Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

34 Adatelemzési alkalmazások a telefóniában
Ügyfélszegmentáció Ügyfélértékek kiszámítása Hiányzó demográfiai adatok pótlása statistical matchinggel Marketing felmérések adatainak korrigálása A lemorzsolódások elkerülésére kidolgozandó marketingstratégiák hatásának előrejelzése A csalók felderítésének támogatása Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

35 Adatelemzés és adattárház építés az egészségügyben Fizioszenzoros mintaalkalmazás
Viselhető szenzorok bluetooth kommunikációval Adatgyűjtő és továbbító egység (mobil) Központi feldolgozó, vezérlő szerver –háttérben adatbázis, megjelenítés terminálon HTTPS Vezeték nélküli kommunikáció TCP/IP Adatelemzést végző SAS szerver Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

36 Biometrics Ltd. szenzorai
Goniometer: ízületi elhajlás 2 tengely mentén (fok) Event Marker: Eseményt jelölő szenzor Accelerometer: 3 dimenziós gyorsulásmérő Myometer: izomerő mérése (N) Látható még EMG és Goniometer. EMG és földelő pánt: izomműködés mérése (mV) Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

37 Bejelentkezés – szerepkör és projekt választás orvos szerepkörben
Jogosult felhasználó belépése Szerepkör kiválasztása Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés Projekt megnyitása

38 Mérési adatok Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

39 Adatfeldolgozás DB/2 és SAS között
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

40 SAS programmal generált mérési eredmény p.XML képernyőn
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

41 Az eredmények prezentálása az orvosok számára
graph_emg.sas graph_intergralt_amplitudo.sas graph_atlag_amplitudo.sas graph_integralt_amp_egysegenkent.sas Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

42 A Big Data és a Hadoop technológiák
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

43 Mi az a Big DATA ; Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

44 Mikor is Big a Data? Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

45 A nagy méretű adaok kezelésének problémái
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

46 A világ digitalizált, mit tegyünk vele?
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

47 A V-k a Big Data világából (a marketinges szemével)
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

48 A technológia üzleti pozíciói
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

49 A Big Data szoftver komponensei
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

50 Kinek készülnek a Big Data alkalmazások?
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

51 Big Data és a Data Sciense
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

52 Mivel kezelhetőek a BD-k?
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

53 Valós alkalmazás a dmlab-tól
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

54 A Magyarországon is megvalósult BD projektek
A gazdálkodó szervek kiválasztása az adóellenőrzésre Biztosítási ajánlatok a roaming területre való belépéskor Hirdetési csalók felderítése Web használat elemzése az egér mozgásának elemzésével Sportanalitikai elemzések (mozgás, egészségügyi állapot,… Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

55 Big Data, Hadoop, Data Science összefoglalás
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

56 Köszönöm a figyelmet! Csicsman@calculus.hu
Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés


Letölteni ppt "Adatbázis-kezelés: nagy adatbázisok, big data, adatbányászat"

Hasonló előadás


Google Hirdetések