Adatbázis-kezelés: nagy adatbázisok, Big Data, adatbányászat

Slides:



Advertisements
Hasonló előadás
I. előadás.
Advertisements

Petrovics Petra Doktorandusz
Számalk-MIS Tanácsadó Kft. Tel:
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
SPC/SQC valósidejű rendszerekben 2000 November /Magyar Batch Fórum 1 Hi-Spec Solutions SPC/SQC in Real Time Systems (Statisztikai és minőségi szabályzás.
Data Explorer Kft. Tóth Nándor Ügyvezető.
Szűcs Imre CRM elemző GE Consumer Finance Budapest Bank Rt.
Gazdaságelemzési és Statisztikai Tanszék
Mérési pontosság (hőmérő)
Közlekedésstatisztika
1950-es évek 1960-as évek 1970-es évek 1980-as évek 1990-es évek
A pedagógiai értékelés „tantárgy” megvalósítása a Mérnöktanár-képzésben a Széchenyi István Egyetemen Dr. Nagy Tamás főiskolai docens május 31.
Üzleti intelligencia Kecskemét 2007 ősz. BI Business Intelligence Üzleti Intelligencia Bevételnövelő és költségcsökkentő lehetőségek feltárása, döntéstámogatás.
A középérték mérőszámai
Megvalósíthatóság és költségelemzés Készítette: Horváth László Kádár Zsolt.
SPSS bevezetés.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
Stratégiai kontrolling az egészségügyben
Adattár alapú Vezetői Információs Rendszer (AVIR)
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Statisztika, kutatásmódszertan I.
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Számítástechnikai szoftver üzemeltető
Adatbázisrendszerek jövője
Statisztika.
Kvantitatív módszerek
Leíró statisztika III..
Valószínűségszámítás
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Web: Magasszintű Programozási Nyelvek I. Eszterházy.
Többváltozós adatelemzés
Alapfogalmak.
Adatleírás.
Adatbányászat és üzleti intelligencia SPSS – MicroStrategy integráció
A Microsoft Üzleti Intelligencia megoldása és platformja
I. előadás.
Iskola-egészségügyi Konferencia augusztus Informatikai lehetőségek az iskola/ifjúság-egészségügyi munkában Wenhard Andrea egészségügyi szakközgaszdász.
Kvantitatív módszerek
Vargha András KRE és ELTE, Pszichológiai Intézet
Alapfogalmak, adatforrások, szűrés
Adattár alapú Vezetői Információs Rendszer (AVIR) Fejérvári Bence március 26.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
A számítógépes elemzés alapjai
Konzultáció – Leíró statisztika október 22. Gazdaságstatisztika.
Adatok a Cortana Analytics Suite-ben Adatokra építkezve hozzunk megalapozott döntéseket Business Scenarios Recommendations, customer churn, forecasting,
Startup felvásárlások multikulturális hátterének elemzése, avagy mesterséges intelligencia alapú ellenőrzőszámítás diszkriminancia-elemzéshez Barta Gergő,
A számítógépes elemzés alapjai
SZÖM II. Fejlesztési szint folyamata 5.1. előadás
Leíró statisztika gyakorló feladatok október 15.
MINTAVÉTEL, LEÍRÓ STATISZTIKA
SAS Base bevezetés Csicsman József
Statisztikai programcsomagok
Adatelemzési gyakorlatok
I. Előadás bgk. uni-obuda
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Az IBM SPSS Statistics programrendszer
A évi kompetenciamérés FIT-jelentéseinek új elemei
Adatsorok típusai, jellegadó értékei
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Adatbázis-kezelés: nagy adatbázisok, big data, adatbányászat
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Mérési skálák, adatsorok típusai
This is the first level bullet for notes 12 point Arial Regular
Előadás másolata:

Adatbázis-kezelés: nagy adatbázisok, Big Data, adatbányászat Csicsman József csicsman@calculus.hu

Általános információk www.inf.u-szeged.hu/~csicsman, www.math.bme.hu/~csicsman angol nyelvű oldal https://www.kevinsheppard.com/images/0/09/Python_introduction.pdf www.pyton.org E-könyv: http://etananyag.ttk.elte.hu/FiLeS/downloads/14_KOVACS_E_Tobbvalt_adatelemzes.pdf

Egy mai hír a Linked-ről

Kovács Erzsébet - Csicsman József Egy korábbi hír a Linked-ről, Hétköznapok az adatiparban: adatelőkészítés Adatelemzőnek lenni menő dolog.  Egy rövid bemutatkozásból persze nem derül ki, hogy ebben az első hallásra is vonzónak tűnő munkakörben a feladatok jelentős részét „favágó munka”, az adatok előkészítése teszi ki . Márton Zimmer Creating Value from Data @ Hiflylabs Ahogy egy, a Forbes-ban megjelent felmérés is mutatja, a „data scientist”-ek 76%-a legkevésbé ezeket a feladatokat szeretik a munkájukban, mégis idejük a 80%-át töltik ezzel. Érdekes, hogy ez az arány tíz éve is hasonló volt, ahogy például ezt egy akkoriban megjelent könyvünkben is írtuk. Különös, egyedi kifejezéseket fejlesztettünk ki erre, ha már ennyit foglalkozunk vele: adatot túrunk, masszírozunk, gyurmázunk, kopasztunk… Mégis kevés olyan "pályaelhagyót" ismerek, aki emiatt megunta vagy megutálta volna az adatokkal való foglalkozást. Szeretünk főzni, és ha az kell hozzá, hát elvégezzük a zöldségpucolást is. Ráadásul nem mindegy hogy az adatelőkészítést milyen minőségben végezzük el. Sokszor itt dől el, hogy milyen minőségű lesz a végeredmény – a fonnyadt részeket ki kell vágni, de az ízes falatokat fel kell dolgozni.  Az adatelemzési technológia persze mindeközben szédítő ütemben fejlődik. Sok olyan fejlesztés van, ami éppen az adatelőkészítés megkönnyítését célozza meg azt ígérve, hogy a szakértők végre az idejük nagyobb részét tölthetik igazi elemzéssel. Ömlik a kockázati tőke a Big Data feldolgozását megkönnyítő startupokba és persze az adatipar szoftveróriásai is fejlesztik a saját megoldásaikat. 2016. ősz Kovács Erzsébet - Csicsman József

Zimmer Márton: Hétköznapok az adatiparban: adatelőkészítés  Akkor reménykedhetünk benne, hogy a múlté lesz a  „80% adatelőkészítés – 20 % elemzés, modellezés” munkaidő arány" szabálya? Ebben nem számítok a következő években nagy változásra.  Az egyre fejlettebb eszközök ugyan valóban egyre ügyesebben fogják támogatni ezt a tevékenységet. De ennek inkább lesz az az eredménye, hogy olyan adatforrásokat is szeretnénk majd kiaknázni, amiről ma eszünkbe se jut, hogy hozzányúlhatunk. A gyorsabb közlekedési eszközök sem eredményezték azt, hogy az emberek kevesebbet töltenek utazással. Inkább az lett az eredmény, hogy messzebbi úti célokat is elérhetőnek tartunk.  Van még egy terület, amelytől sokan az adatelőkészítési munka elvégzését várják: léteznek mesterséges intelligencia alapú kezdeményezések is az adatok értelmezésére. A mesterséges intelligencia persze egyre több helyre „beteszi a lábát”, így például néhány évtized múlva valószínűleg sokkal kevesebb sofőrre lesz szükség.  Séfek azonban akkor is lesznek, legfeljebb olyan szerencsések lesznek, hogy a zöldségtisztítást gép segíti. Ahogy lesz adatelemző is, akinek a munkáját is jóval több hasznos eszköz könnyíti majd. 2015. ősz Kovács Erzsébet - Csicsman József

Egy szokásos e-mai üzenet There are several postdoctoral and PhD positions open at the University of Edinburgh in the “Big Data Optimization" Lab of  Peter Richtarik: http://www.maths.ed.ac.uk/~prichtar/ The positions start in Fall 2016.  1) Postdoctoral Research Associate position in Big Data Optimization Duration: 3 years More information and online application form: https://www.vacancies.ed.ac.uk/pls/corehrrecruit/erq_jobspec_version_4.jobspec?p_id=034907 Funded through EPSRC grant: "Randomized Algorithms for Extreme Convex Optimization”. … 3) PhD position in Big Data Optimization Duration: 3.5 years Apply here: http://www.maths.ed.ac.uk/studying-here/pgr/phd-application/apply (Choose "OR and Optimization") Funded by the School of Mathematics, University of Edinburgh. The post is associated with the EPSRC grant: "Randomized Algorithms for Extreme Convex Optimization”. 4) Ten PhD positions in Data Science http://datascience.inf.ed.ac.uk/apply/ Duration: 4 years   We have funding for 10 PhD students in virtually all areas of Data Science, including optimization. I’ll be happy to supervise  successful applicants wishing to work in areas such as big data optimization, randomized algorithms for numerical linear algebra or optimization, and scalable machine learning. ! Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Ki az a Data Scientist? Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Who am I? Programozó (C++, Java, R, SAS BASE...) Kapcsolatom az informatikával Programozó (C++, Java, R, SAS BASE...) Végfelhasználói alkalmazásfejlesztő (PHP,Java, .NET,SAS App Dev Stúdió,…) Felhasználó 1. (Korábban kifejlesztett alkalmazások kezelője, pl.: SAP, Oracle finantial, App-ok,...) Felhasználó 2. adatelemző, (SAS, SPSS, elemzési eszközök önálló használata és az eredmények értékelése)

A szoftverek áttekintése Operációs rendszerek OS, Unix, Linux, IOS, Android,… Programozási nyelvek Assembler, Cobol, Fortran,…,BASIC,C#,PHP, JAVA,… Adatbáziskezelők Dbase, MySQL, MSQL,ORACLE,… Nagy rendszereket kiegészítő szoftverek pl. ORACLE Finantial, Statisztikai szoftverek, végfelhasználói alkalmazások BMDP, SPSS, SAS,…,ERP alkalmazások:Pl. SAP

Adatbázis-kezelés Az „adatbázis”, napjaink legjobban félreértett kifejezése A filekezelő rendszerektől a Dashboard technikákig Az adatbáziskezelő rendszerek alapvető funkciói Az SQL, mint az adatbázis-kezelés alapvető lekérdező rendszere

Az „adatbázis”, napjaink legjobban félreértett kifejezése Mi is az adatbázis? A Statisztikai Adatbázis az, amit a KSH elnöke elrendel Adatgyűjtés Adatellenőrzés, adat editálás, Adattárolás és dokumentálás, Metainformációs rendszerek, Adatkezelés, tranzakciók, Adatlekérdezés, SQL

A filekezelő rendszerektől a Dashboard technikákig KSH MARK IV filekezelő rendszere, Flat file-ok Adabas szabványok és adatbázisok Relációs adatbázisok, tranzakciós rendszerek Post relációs adatbázisok, Cache Hadoop, a Big Data osztott adattárolására

Az SQL, mint az adatbázis-kezelés alapvető lekérdező rendszere Standard Query Language Adatmódosítás, szelekció Aggregálás Párosítás Left Joint Right Joint Inner Joint Egy SAS mintapélda bemutatása

Az adatbáziskezelő rendszerek alapvető funkciói Mit biztosít az adatbázis-kezelő rendszer? Adatok szabványos tárolása Adatok dokumentált módosíthatósága Adatok archíválása és mentése Adatok dokumentálása, Adatszótár vagy Metainformációs rendszer, Adat az adatról Adatok lekérdezhetősége: Előredefiniált és ad-hoc lekérdezések

A kvantitatív módszerek alkalmazási területei Hagyományos alkalmazási területek Államigazgatás Pénzintézeti szektor Telekommunikációs cégek Vállalatok A leginkább fejlődő területek Egészségügy Élettudományok Közösségi alkalmazások

Kvantitativ módszerek alkalmazásai a KSH-ban Adatfelvételek Felvételek hibáinak kijavítása (Adateditálás) Statisztikai táblázás AKM modellek Fogyasztói árstatisztika Háztartásstatisztika,és a Munkaerőfelvétel a Mikrocenzus és a Próbanépszámlálás Népszámlálás

Adat előkészítő és adatelemző szoftverek a KSH-ban Kérdőív szerkesztés (Word, Excel, Corel) Nyomtatás, megszemélyesítés (Openpage) Adateditáló rendszerek: BLAISE, Oracle és SAS Adattárolás eszköze az Oracle A nyomdakész „táblagyártás” TPL-lel, SAS-sal Az adatelemzés eszközei nagygépes környezetben (SPSS, SAS) Napjaink adatelőkészítő és elemző rendszerei (ORACLE, SAS és az SPSS)

Alkalmazások a NAV-nál Megyei bevallás-feldolgozó rendszerek Folyószámlakezelés VIR Társasági adó becslése Központi bevallásfeldolgozás META Futtatórendszer Lekérdező Adat és alkalmazásvédelem

SAS az adófeldolgozásban VIR Társasági adó becslése A Monitorozó rendszer 1996-ban A korrigált becslési algoritmus 1997-ben Az eredmények és a hibák, a jó becslés feltételrendszere Központi bevallásfeldolgozás META Futtatórendszer Lekérdező Adat és alkalmazásvédelem Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Az általánosított központi be-vallásfeldolgozó rendszer A Társasági Adó feldolgozásánál szerzett tapasztalatok alkalmazása a többi adóbevallásra is A központi bevallásfeldolgozó rendszerek migrálása A META információs rendszer A Futtató rendszer funkciói az aktuális időszakhoz tartozó feladatok az általánosított adatkezelés lehetőségei az általános párosító Adat és alkalmazásvédelem Demonstráció Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Többváltozós Statisztikai Modellezés Csicsman J Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Hogyan védjük meg alkalmazásainkat az illetéktelen használattól, a véletlen és a szándékos károkozástól Az adatvédelem és a jogosultságkezelés problémái Feladatok a fejlesztés időszakában A már kész alkalmazások jogosultságvédelme és követése Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Pénzintézeti alkalmazások A legfejlettebb adatbázis, adattárház alk. Hiányzó adatok pótlása Üzleti termékek eredményének előrejelzése A Credit Scoring elemzések támogatása A stresszteszt vizsgálatok elkészítése (hirtelen árfolyamváltozás, munkanélküliség növekedés,…)

Adatkezelés a telekommunikációban Automatikus adatbázis feltöltések Felesleges, hiányzó és hibás adatok kezelése Marketing felmérések adatainak korrigálása A lemorzsolódások elkerülésére kidolgozandó marketingstratégiák hatásának előrejelzése A csalók felderítésének támogatása

Vállalati Információs Rendszerek döntések támogatására Technológia Munkatársak ADAT Üzleti célok Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés Üzleti információk

Adatraktár technológiák A döntéshozók környezete Napjainkban a döntéshozók olyan problémákkal néznek szembe, mint például : növekvő komplexitás kevesebb rendelkezésre álló idő növekvő kockázat INFORMÁCIÓIGÉNY

A vállalati döntéshozók információ igénye aktuális, pontos és teljes információk az üzleti változásokat figyelembe vevő adatok új üzleti lehetőségekbe betekintés lehetősége a vállalati stratégiákhoz történő alakíthatóság A vállalati információs rendszerek piramis ábrája Tranzakciós rendszerek VIR, vagy MIS Adatbányászati eszközök Statisztikai szoftverek Meta információs rendszer Adattárházak,

The Process of Operating the Business Operational Function Definition Sub-Departmentalize Specialize Optimize / Improve “Operating the Business is different than Strategy for the Business” Michael Porter Harvard Business School

Információ tárház (Data Warehouse) “Témaorientált, integrált, nem változó, idővariáns adatoknak olyan szervezett gyűjteménye, amely a vezetés igényeit támogatja” (William H. Inmon definíciója) tárgyorientált integrált időtengelye van csak bővíteni lehet

Az információ- (tudás) kinyerés folyamata Á C Ó Tranzakciós Minőség A D T O K Kockázat RDBMS Fogyasztó “Régi” Here is the view of the PROCESS... Adatkezelés Szervezés Kiaknázás Termék SAS Piac Külső Jövő Információ-tárház

Adatelemzés és adattárház építés az egészségügyben Fizioszenzoros mintaalkalmazás Viselhető szenzorok bluetooth kommunikációval Adatgyűjtő és továbbító egység (mobil) Központi feldolgozó, vezérlő szerver –háttérben adatbázis, megjelenítés terminálon HTTPS Vezeték nélküli kommunikáció TCP/IP Adatelemzést végző SAS szerver Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Adatfeldolgozás DB/2 és SAS között Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Az eredmények prezentálása az orvosok számára graph_emg.sas graph_intergralt_amplitudo.sas graph_atlag_amplitudo.sas graph_integralt_amp_egysegenkent.sas Többváltozós Statisztikai Modellezés Csicsman J.: Adattárházak-adatelemzés

Az adatokról Csicsman József-Sipos Szabó Eszter Az adatbányászati technikákhoz szükséges matematikai alapok

Néhány szó az adatokról Nomenklatúrák és értékeik: CITY – települések CMCL – ügyfélosztály CMGR – ügyfélcsoport CNGR – bekötéscsoport TLST – vonalstátusz Mutatók: Számlaadatok Vonaladatok Szolgáltatás

Az adatok főbb jellemzői Mérési skála (transzformálható!) Nominális, csak megkülönböztet (nem, lakóhely, állampolgárság) Ordinális (iskolai végzettség, beosztás) Intervallum vagy magasabb: (belépési életkor, jövedelem, tartam, hitel összege) Leíró, feltáró elemzés

Leíró, feltáró elemzés Az átlagos, tipikus értékek meghatározása (központi tendencia mutatószámai) A változékonyság mérése (szórás, a minta homogenitása) Eloszlás jellemzése (ferdeség, csúcsosság mérése, grafikus ábrák) Statisztikai táblák, táblázatok (A mértékek között a mérési skála alapján döntünk!)

Statisztikai leírás alapjai 21 A statisztikai leírás célja, módszerei Statisztikai leírás mutatói Középértékek Ingadozásmutatók Egyéb mutatók Grafikus képek Statisztikai táblák Többváltozós elemzések 

Adatok rendezése, ábrázolása 25 Osztályba sorolás Gyakoriságok (fi) megállapítása Relatív gyakoriság (gi) megállapítása Összegzett (kumulált) gyakoriságok ill. relatív gyakoriságok Gyakorisági táblázat Grafikus ábrázolás Statisztikai táblák és többváltozós elemzések 

Feladat - 1 Egy folyamatos üzemben …. Gyakorisági táblázat készítése  25 Egy folyamatos üzemben …. Gyakorisági táblázat készítése - Legkisebb és legnagyobb értékek megkeresése - Gyakoriságok meghatározása 0  1  : 

Feladat - 1 25 A gyakorisági táblázat: 

Feladat - 1 26 Adatok ábrázolása: 

Feladat - 1 26 A gyakorisági táblázat folytatása: 

Feladat - 1 Kumulált relatív gyakoriság ábrázolása:  26 leállások száma 

Feladat - 2 Gyakorisági táblázat készítése:  Műszeralkatrészek átmérőjét …. Gyakorisági táblázat készítése: - Minimum és maximum értékek keresése - Terjedelem meghatározása: R = 8,50 - 8,13 = 0,37 - Osztályok számának meghatározás 8,13 - Osztályhatárok, -közepek számolása 8,50 - Gyakoriságok meghatározása - Táblázat és a hisztogram elkészítése 

Gyakorisági hisztogram 

Kumulált relatív gyakoriság Osztályközök [mm] 

Középértékmutatók  Módusz  Medián 2 3 3 5 7 8 9 5 3 7 2 8 3 9 29-31  Módusz Mo  Medián 2 3 3 5 7 8 9 5 3 7 2 8 3 9  Számtani átlag  Harmonikus átlag  Mértani átlag  Négyzetes átlag  Kvantilisek 

Ingadozás mérőszámai n v. n-1 ?! R  Terjedelem 32  Terjedelem n v. n-1 ?! R  Átlagos abszolút eltérés  Tapasztalati szórás  Korrigált tapasztalati szórás  Relatív szórás 

A statisztikai sokaság változói és objektumai Feladatunk a mátrix formájú adatszerkezettől kezdődik objektumok Var1 Var2 Vark O1 O2 On

Adatok előkészítése Objektumazonosítók egységesítése Adathiányok kezelése Intervallum, arány típusú változónál: átlag vagy medián. Sorrendi skálán: medián. Véletlenszerűen. Egy korreláló másik változó segítségével becsüljük. Változó értékét ismeretlenre állítjuk. (Követhetőség miatt meg kell jelölni, hogy mi töltöttük ki.) Adatok transzformációja

Adatok transzformációja Eloszlás átalakítása Outlier értékek kezelése (levágása vagy megkeresése) Normalizálás Adott részhalmaz kivágása (pl. alvó cégek) Új változók képzése Arányokkal, különbségekkel, deriváltakkal Folytonos változók diszkretizálása

Mérés és mérték problémája Távolságmetrikát kell definiálni Pl. az embereket „termet” szerint szeretnénk szegmentálni, akkor a súly és magasság dimenziókat összemérhetővé kell tenni: megadhatjuk, hogy 1 kg súlyeltérés 2 cm magasságkülönbségnek feleljen meg. A kvalitatív és a kvantitatív változók kezelésének problémáí

Metaváltozók használata Hiányosság: tulajdonságok független kezelése. Megoldás: metaváltozók használata több változó összevonásából

Az adatok grafikus ábrázolása Egy változós grafikák Oszlopdiagramok, pont és folytonos vonalak, kördiagramok két és három dimenzióban Több változó ábrázolása egy ábrán Különböző mértékegységű változók kezelése, normalizálás

A statisztikai táblázási feladatok Mutatók és nomenklatúrák szerepe a statisztikai táblázási feladatnál A tábla szerkezetének definiálása Számított mutatók a táblában Új kategóriák definiálási lehetőségei A százalékos táblák A tábla formázási lehetőségei A TPL Tables szoftver bemutatása a weblapon

Az adatelemzés folyamata Adatfeltárás adateditálás adattisztítás Adatkezelés Elemi statisztikák, és grafikonok Többváltozós adatelemzés Statisztikai táblák A változók vizsgálata - korrelációszámítás, regresszió számítás, varianciaanalízis, credit scoring, neurális hálók, asszociációs elemzés,… Az objektumok vizsgálata - klaszteranalízis, bineáris fák, …

A Magyarországon elérhető statisztikai szoftverek SAS SAS Institute (magyarországi képviselet: SAS Institute Kft.) www.sas.com Statistica StatSoft Inc. (magyarországi képviselet: StatSoft Hungary) www.statsoft.com SPSS SPSS Inc. (magyarországi képviselet: SPSS Hunhary) www.spss.com R Az S szoftver továbbfejlesztése, szabadon elérhető www.rstudio.com, www.r-project.org Pyton Interaktív általános célú eszköz, szabadon elérhető, www.pyton.org blog.molnardenes.hu/python-programozas-kezdoknek/ https://www.kevinsheppard.com/images/0/09/Python_introduction.pdf

A adatbányászati szoftverek 1995-től Intelligent Miner DBMiner MineSet Clementine Enterprise Miner Statistica Data–mining

Az adatbányászati szoftverek összehasonlítása Milyen számítógép architektúrákon fut? A szoftver biztosítja-e az összes adatbányászati módszertant? Ha nem, hogyan bővíthető? A bővíthető-e a saját programozási nyelvén?, Milyen adat-vizualizációs lehetőségekkel rendelkezik? Milyen outputformákkal rendelkezik és azok másolhatók-e szövegszerkesztőkbe? Jól kezeli-e a nagy adatállományokat? Elterjedt-e használata, könnyen megoszthatók-e az adatokat és programok? Megfizethető-e a termék a felhasználó számára?

Tudományos adatok felhasználását elemző szoftverek összehasonlítása

Előrejelzés az első négy adatelemző szoftver tudományos használatáról 2013 és 2017 között

Az adatelemzési versenyeken használt szoftverek 2011-ben

Köszönöm a figyelmet!