Adatbányászat az Internet korszakában Digitális lábnyomok és adatelemzés Budapest, 2009.01.28
Adatbányászat az Interneten Mi is az adatbányászat? Bemutatkozás Adatbányászat az Interneten
Data Research Kft. 2005-ben alakult – 100%-ban magyar tulajdonú tanácsadó cég. Célkitűzése: Új elemzési módszertan kifejlesztése primer és szekunder adatok kombinációján keresztül, CRM jellegű elemzések meghonosítása Innovatív megoldások kifejlesztése (Voice Miner, MOSAiC tanulmány család, Churn Kompetencia Center üzemeltetése) Tudástranszfer – SPSS Magyarországgal közösen CRM témájú szeminárium sorozat indítása. 2005-2007 között a Data Research Kft. a TÁRKI csoport tagja, 2007 óta a Nextent informatikai cégcsoport tagja
CHURN KOMPETENCIA CENTER Data Research Kft. szolgáltatás portfoliója DATA RESEARCH CHURN KOMPETENCIA CENTER ADATBÁNYÁSZAT KOMBINÁLT ELEMZÉSEK Árrugalmasság mérése Termékbevezetés/árazás hatáselemzése Ügyfélszegmentáció Termékaffinitás Churn elemzés Várható élettartam számítás PIACKUTATÁS Egyedi kvalitatív/kvantitatív kutatások Fizetési teszt mérés MOSAIC tanulmányok KONZULTÁCIÓS CSOMAGOK Útmutatók kidolgozása ügyfélszolgálat számára (megtartás, keresztértékesítés) Ügyfélszolgálati folyamatok átvilágítása OKTATÁS, WORKSHOPOK INNOVATÍV MEGOLDÁSOK Voice Mining – hanganyagok elemzése Community elemzések
Mi is az adat- bányászat? Adatbányászat az Interneten Bemutatkozás
Néhány alapfogalom az üzleti intelligencia területről Adattárház/adatpiac: egy olyan intelligens adatbázis, mely lehetővé teszi az üzleti célú adatelemzések hatékony végrehajtását OLAP: egy multidimenzionális lekérdező felület – mely kiválós eszköz annak feltárására, hogy mi történik, de alkalmatlan előrejelzések elkészítésére illetve az okok feltárására. Adatbányászat: olyan MI algoritmusokra épülő módszertan, mely egyrészt alkalmas rejtett információk feltárására, ok-okozati összefüggések megkeresésére és ez alapján előrejelzések elkészítésére.
Adatok osztályzása Adat-bányászat Kérdőíves kutatás Múltbéli viselkedés Jelen Jövőbeni akció Az adatbányászat az ügyfelek múltbeli viselkedés adatainak felhasználásával minden egyes ügyfélre kiszámol egy speciális ügyfél jellemzőt (churn valószínűség, termék affinitás, stb). Az információ leíró jellegű – az adott körülmények között érvényes információ (feltéve, hogy a múltbeli minta érvényes a jelenre is) Adat-bányászat A kérdőíves kutatás az ügyfeleknek ugyancsak speciális attitűdjeit próbálja kinyerni – és ezen információkra is jellemző, hogy az ügyfelek jelen állapotát tükrözi az adott körülmények között. A jövővel kapcsolatos információk megbízhatósága kérdéses. Az információk nem egyéni szintűek. Kérdőíves kutatás
Néhány példa adatbányászati elemzések outputjára Múltbéli viselkedés Jelen Jövőbeni akció LEGFONTOSABB TULAJDONSÁG: minden ügyfélre rendelkezésre áll (ügyfélszint) a jelenlegi állapotot tükrözi – amennyiben a múltbeli összefüggések igazak előrejelzésre használják – múltbeli viselkedés alapján annak előrejelzése, hogy mi történik a közeljövőben Adat-bányászat Churn valószínűség Annak a valószínűsége, hogy az adott ügyfél a következő x hónapban elhagyja az adott vállalatot Szegmens címke Valamilyen ügyféljellemzők ügyfelek automatikus szegmentálása Termék affinitás Mekkora a valószínűsége, hogy az adott ügyfél az elkövetkező x hónapban vásárol az adott termékből Ügyfélérték Az ügyfél által generált jövedelem + várható élettartam számítás Reakciókészség Mekkora a valószínűsége annak, hogy egy megkeresés során pozitívan reagál
Irányítatlan algoritmusok Klaszterező eljárások Asszociációs szabályok Adatbányászati algoritmusok (MI „örökség”) Irányítatlan algoritmusok Klaszterező eljárások Asszociációs szabályok Idősor elemzések Irányított algoritmusok (klasszifikáció) Döntési fák Neurális hálók Logisztikus regressziók Genetikai algoritmusok
Adatbányászat az Interneten Mi is az adatbányászat? Bemutatkozás
Új technológiák ismertetése Adatbányászat az Interneten Két téma Új technológiák ismertetése Néhány érdekes honlap Olyan új elemzése technológiák bemutatása, melyek lehetővé teszik az Interneten lévő publikus adatok automatikus elemzését Az Interneten számos olyan oldal van, ahol a látogató barangolását különböző adatbányászati technológiák támogatják
Új technológiák – Text Mining és Gráf Mining
Szöveges dokumentumok Digitális nyomok az IT rendszerekben Szöveges dokumentumok Hanganyagok Adattárház X mining Adatbányászat Kérdőíves kutatási adatok Hálózati adatok
Interneten tárolt adatok szerepe nő! Új adat források – még pontosabb elemzések Text mining: szöveg alapú struktúráratlan adatbázisok automatikus feldolgozása (szövegek értelmezése és kategorizálása) Voice Mining: hanganyagok automatikus feldolgozása (ügyfélszolgálati hanganyagokból érzelem és protokoll információk detektálása) Gráf Mining: szociális hálózatok modellezése és információ kinyerése (Interneten közösségi hálózatok illetve linkek elemzése) Interneten tárolt adatok szerepe nő!
Szövegbányászat kategorizál tömörít releváns keresés újdonság detekció A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerés tudománya. Olyan különböző dokumentum forrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt (bővebben: http://www.vazsonyi.hu/szovegbanyaszat/) Célja: jelentéstartalmak felismerése Attribútuma: öntanuló (lásd AI) és képes információ strukturálásra kategorizál tömörít releváns keresés újdonság detekció
Kitűzött feladat Online tartalmak (hírek, blogok, fórumok) figyelése, az ebben található információkból adatok szöveganalitikai feldolgozása, ezek alapján elemzések, trendfigyelés, monitoring… Egy adott cégről található dokumentumok osztályzása Textmining feldolgozás Automatikus letöltő és feldolgozó eljárások, scriptek Elemzés Egységes adatbázis létrehozása Monitoring, trendfigyelés
Eredmény I.
Eredmény II. – vélemények alakulása Internetes blogok és ezen keresztül bloggerek automatikusan elemezhetők , ez alapján különbözö statisztikák készíthetők. Pl. „egy adott cégről írt pozitív illetve negatív tartalmaú vélemények hogyan alakultak az elmúlt 2 évben”
Milyen információk nyerhetők ki? Gráf mining Olyan algoritmusok gyűjteménye, melyek gráf alapú struktúrákból (általában kis világok) automatikusan nyernek ki információt, a gráfban lévő objektumokhoz új attribútumokat rendel. Milyen információk nyerhetők ki? Klaszterek, közösségek – az egymással szoros kapcsolatban lévők detektálása Vélemény vezérek detktálása – egy közösségen belül speciális szerepet betöltők azonosítása Információterjedés vizsgálata (vagy fertőzés vizsgálat) – egy hálózaton belül hogyan terjed az információ
Hálózati elemek - pont és vonal Gráf mining (hálózati kutatás matematikai módszerekkel) Hálózati elemek - pont és vonal Központiság (Dani) centralitás/fokszám Köztesség (Gergő) Közelség (Tamás – András) Elérés (% 1, 2, 3 lépéssel) Eszter Tamás Judit Gergő Dani Miklós Andi Rita András Roland
Egy kapcsolati háló Ez egy ember kapcsolati hálója - iwiw adatok alapján. Első ránézésre értelmez-hetetlen!
Kapcsolati háló értelmezése gráf mining segítségével Automatikusan detektálásra kerültek iskolás, munkahelyi és egyéb kapcsolatai!
Gráf mining és text mining Gráf mining és text mining alkalmazások Gráf mining Mobil hívások illetve e-mail-ek alapján hálózati elemzések (pl. humán tanácsadó cégek) Banki átutalások vizsgálata – bedőlési kockázatok pontosabb mérése Internetes közösségek elemzése Gráf mining és text mining Blogok elemzése – bloggerek közötti kapcsolatok feltárása, vélemény formálók detektálása Vélemény terjedés vizsgálata
Néhány érdekes honlap
www.amazon.com Nyitó oldalon: Recommended for You Latest from Your Favorite Artists, Including Pat Metheny Group New For You Inspired by Your Wish List Didn't Get What You Wished For? Treat Yourself For You to Enjoy Most Wished For in Jazz
www.amazon.com Termék oldalon: Frequently Bought Together Customers Who Bought This Item Also Bought Listen To Samples Editorial Reviews Customer Reviews
www.farecast.com
Köszönöm a figyelmet!