Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbányászat Dr. Nehéz Károly egyetemi adjunktus Miskolci Egyetem Alkalmazott Informatikai Tanszék 2005 1.

Hasonló előadás


Az előadások a következő témára: "Adatbányászat Dr. Nehéz Károly egyetemi adjunktus Miskolci Egyetem Alkalmazott Informatikai Tanszék 2005 1."— Előadás másolata:

1 Adatbányászat Dr. Nehéz Károly egyetemi adjunktus Miskolci Egyetem Alkalmazott Informatikai Tanszék 2005 1

2 Évente az emberiség 1-2 millió terrabyte adatot állít elő. Minden lakosra 250 megabyte jut. Hogyan nyerhető értékes információ egy adattömegből? Definíció: Az adatbányászat célja értékes, de rejtett vagy implicit információ és szabályszerűségek feltárása nagy adatbázisokból. Az adatbányászat fejlődésének mozgatói: –nagy adatmennyiség –gyors hardver (az elméletben kidolgozott eljárások a gyakorlatban is alkalmazhatóak) –új és hatékony elméleti módszerek megjelenése. Az adatbányászat módszerei a statisztika és a gépi tanulás elméletéből származnak. Példa: Egy bank az ügyfelei számára kibocsátott hitelkonstrukciók kockázatát szeretné meghatározni. (az előző évek adatai alapján.) 2

3 Banki hitelFüggetlen változók (hitelkérelmezők életkora, neme, tranzakciói, jövedelme, végzettsége) Függő változók (törleszti-e a kapott hitelt?) Tanuló állomány (az előző években kiadott lakáshitelek) ismert Cél állomány (elbírálásra váró hitelek) ismertismeretlen Adatbányászati alkalmazások típusai: Felfedező: a szakértők megpróbálnak előfeltételezések nélkül értékes információt keresni. A számítógép önmagában nem képes erre, szakértő tudásra van szükség. A számítógép egy hipotézissort tud tesztelni. (pl. „Melyik termék a leginkább szezonális?) A hipotézisek kiértékelése szakértői feladat. Célzott adatbányászat: adottak az elemzés keretei. Pl. a szakértő megpróbálja megjósolni a vársárlók viselkedését árcsökkentés vagy áremelés esetén. (Tesco, Cora akciók). Pl. Egy hitelképességet kiértékelő szempontrendszerben az egyes kérdések relatív súlyának meghatározása. Döntés automatizálás: ismert az adott döntés meghozásához szükséges módszer. Az ember helyett gép dönthet, ha nagyon gyorsan, vagy nagyon sokszor kell dönteni. Pl. automatikus email feldolgozás. (válaszlevél küldés, vagy index alapján kiválogatás, spam levél szűrés.)

4 Adatbányászati technikák Mobilkommunikációs cég ügyfelei az indított és fogadott hívások függvényében. Feladat: miként érinti az ügyfeleket egy esetleges alapdíj emeléssel járó percdíj csökkentés? Az egyes csoportokra eltérő hatások várhatók. Ebben a két dimenziós esetben a csoportokra bontás ránézésre elvégezhető. A valóságban azonban többváltozós feladatok vannak, amelyek klaszterizációs eljárásokat igényelnek. Klaszterizáció: az adathalmaz egyedeit csoportokra bontjuk, az egyes csoportokban hasonló egyedek vannak, a csoportok viszont számottevően különböznek egymástól.

5 Klaszteranalízis: a szakértők feladata az algoritmusok paramétereit az adott problémához leginkább illeszkedő módon beállítani. A gyakorlatban az adatokat előkészítő tevékenységek sem elhanyagolhatóak: - nem jellemző egyedek elhanyagolása (hasonló mint a zavarszűrés) - korreláló változók elhagyása: (pl: életkor, ha a születési dátum adott) - változók összevonása: (pl: létszám és árbevétel helyett -> egy főre jutó árbevétel alkalmazása) - változók transzformálása – pl. egy adott tartományba [0..1] Klaszteranalízis klasszikus alkalmazása a piac szegmentálása: egy- egy klaszterbe hasonló viselkedésű ügyfelek kerülnek.

6 Modellezés: jelen esetben a modell egy egyszerűsítő séma, amivel megragadjuk a valóság számunkra lényeges tulajdonságait. Modelltípusok: - kategorizáló modell: diszkrét csoportokra osztják az elemeket az input változók függvényében - becslő modell: az input változók alapján a célváltozót egy folytonos skálán helyezzük el. Példa: Egy új terméket levélkampány segítségével kell bevezetni a piacra. A nagy mennyiségű levelek kiküldése előtt 1000 db próbalevél segítségével szeretnénk mintát venni a vásárlókról. Tegyük fel, hogy 1000 megszólítottból 50 tényleges vásárló. Alkossunk modellt, amely segítségével az ügyfél tulajdonságai (jövedelme, kora stb.) alapján meg tudjuk jósolni a vásárlási hajlandóságát!

7 teljes minta életkor jövedelem mióta ügyfél? <35>35 <200000>200000 <16 hónap>24 hónap nem vásárolt vásárolt A „döntési fa” eljárás: felépítünk egy fa struktúrát, levelein azon ügyfelek amelyek egy adott tulajdonságban megegyeznek. Minden levélhez egy valószínűség is tartozik. Legerősebb reakció: a 35 évesnél öregebb 200000-nél többet kereső régi ügyfelek esetében volt. Automatizált fafelépítés: A program kiválasztja azt a dimenziót és vágási értéket, amely a legjobban diszkriminálja (megkülönbözteti), a halmaz elemeit a célváltozó szempontjából. Ehhez minden dimenziót végig kell keresni és tesztelni kell a legjobb vágás hatékonyságát.

8 Regresszió: becslésre használt klasszikus statisztikai módszer. A ponthalmazra egy előre meghatározott görbét illesztünk. A görbe lehet (egyenes, parabola, hiperbola, logaritmus, stb.) –általában csak gyakorlott szakember tudja kiválasztani a legjobb illesztő görbét. Hibás választás esetén a becslés nem tükrözi a valóságot. (emlékezünk szerszám kopás görbe.) Logaritmikus regresszió: cél a súlyok meghatározása. Az elemzés eredménye a következő: log(A*kor + B*jövedelem + C* ügyfélidő+D) A regressziós model a következő paramétereket adta: A=1; B= 1/5; C=1/2; D=-55; Ez azt jelenti, hogy a vásárlási hajlandóságot ugyanannyival növeli 1 év korkülönbség, mint 5000 ft jövedelemnövekedés vagy 2 hónapnál régebbi ügyfélkapcsolat. ügyfelek válaszadási valószínűség

9 Neurális hálók: a mesterséges intelligencia témakörében elterjedt módszer. Nemlineáris regressziónak is nevezik, A becslési összefüggést a háló minták alapján megtanulja. Majd egy tetszőleges inputra megadja a lehetséges választ. –általában 3 rétegű sémát használnak. –Az egyes neuronok kimenete az előző réteg neuronjainak kimenete és a nyilakhoz tartozó ún. súlyok szorzataként adódik. –Van egy hibafüggvény, amely a becslés és a valódi érték közötti különbséget méri a tanulási fázisban. A háló tanulása a súlyok változásában nyilvánul meg. életkor jövedelem vásárol? (i) nem vásárol? (n)

10 Adatbányászat újszerű megoldásai - összefüggések és szabályok felismerése - előrejelzések készítése - rendellenségek, kivételek kezelése Összefüggések szabályok felismerése: Egy vállalti adatbázisban összekapcsolódó eseményeket lehet találni. Pl. milyen termékeket vásárolnak együtt a vásárlók. (Időnként nyilvánvaló eredményeket is produkál: teniszütőt vásárlók, általában labdát is vásárolnak…) Az adatbányászati vizsgálatok sokszor empirikus megerősítést is adhatnak egy sejtésnek vagy a sok magától értetődőnek látszó feltételezésből kiszűrhetőek az igazak. Pl: egy kereskedőlánc adatainak elemzése közben kiderült, hogy a kozmetikumot vásárlók általában üdvözlő kártyát is vesznek. Pedig a feltételezés szerint ugyanennek a csoportnak hasonlóan vonzónak látszott a napszemüveg és a diétás élelmiszerek kínálata is. Előrejelzések készítése: az ügyfélszegmentálás is lehet előrejelzés. Pl. egy klímaberendezéseket forgalmazó web-es cég megnövelete a forgalmát azzal, hogy a bejelentkezéskor az ip cím alapján eldöntötte a vevő helyzetét és a déli államokban élőknek nagyobb az északi államokban élőknek kisebb teljesítményű klíma berendezéseket ajánlott.

11 Előrejelzések készítése (folytatás): érdemes alkalmazni, ha egy létező, de nehezen (vagy drágán) elérhető adat megszerzése a cél. Pl: Egy cég új termékének bevezetéséhez szükséges lenne ismerni, hogy mely ügyfelek családjában van kisgyermek. Megoldás: rendelkezésre áll egy promóciós játék során gyűjtött adathalmaz, amelyben az ügyfelek néhány százaléka szerepel ugyan, de tartalmazza a kisgyerekek számát. Modell segítségével ez az információ rávetíthető a teljes ügyféllistára a mindkettőben tárolt életkor-nem-lakóhely adatok alapján. Így a cég az ügyfelek megkérdezése nélkül, jóval alacsonyabb költséggel jut az információhoz. Kivételes esetek felderítése: csalások elkövetőinek felderítése. Pl: Magyarországi mobilcégek is alkalmaznak olyan figyelő adatbányászati megoldásokat, amelyek „megtanulják” az előfizető jellemző szokásait, és figyelmeztetést küldenek az ettől eltérő viselkedést tapasztalnak. Pl: pénzügyi visszaélések. Legális tranzakciók milliói között kell megtalálni a törvénytelenségre utaló jeleket.

12 Példák üzleti alkalmazásokra: Ügyfél szegmentáció: egy bank a következő csoportokra osztotta ügyfeleit: elektronikus banki ügyintézők, bankot befektetésre használók, munkabért fogadók és elköltők. Ezek szegmenseknek célzott szolgáltatáscsomagokat kidolgozva lehet növelni a megelégedettség mellett a nyereséget. Ügyfélérték számítás: egy biztosító korábbi ügyletek alapján minden ügyfélhez egy pontértéket rendel, amelyet a telefonos ügyfélszolgálati rendszer használ fel, amikor döntenie kell, hogy melyik ügyfelet kapcsolja előbb az ügyintézőhöz. Scoring: Egy termelő vállalat sok kiskereskedőnek értékesíti termékeit. Adatbányászati modellt alkalmaz amely pontozza az egyes kereskedőket fizetési fegyelem szempontjából, így a cég optimálni tudja a kiskereskedőkhöz kihelyezett áruk mennyiségét és összetételét.

13 Lemorzsolódások vizsgálata: egy mobiltelefonos cég számára a történeti adatok alapján nagy pontossággal megjósolható az ügyfelek szándéka abból a szempontból, hogy át kívánnak-e pártolni a konkurenciához, amikor lejár a jelenlegi szerződésük. Ennek ismeretében a fontos ügyfelek elvándorlása megelőzhető. Csalásfelderítés: Az adócsalások becslésére a korábban végrehajtott adóellenőrzések adatai alapján modell készíthető, amely rámutat, hogy melyik cégeket érdemes ellenőrizni. Keresztértékesítés: a vásárlási szokások alapján egy bank azon hitelkonstrukciójának ismertetőjét mellékeli a számla értesítőhöz, amely a legnagyobb valószínűséggel érdekes számukra. Bolti együttvásárlások: a pénztárgépek rögzítik, hogy az egyes vásárlók mit vásároltak. Az adatok elemzésekor kiderült, hogy a hétvége előtt pelenkát vásárlók sört is vesznek. Az információ birtokában a drágább söröket a pelenkák közelében helyezték el.

14 Azonosítás: hadifoglyokról készült nyilvántartás alapján sikerült több tízezer, a II. világháborúban a Szovjetunió területén eltűnt magyar katona sorsát felderíteni. Adatbányászati modellre azért volt szükség, mert az orosz írnokok hallás után cirill betűkkel próbálták lejegyezni a magyar katonák neveit és ezeket kellett megfeleltetni a hivatalos magyar nevekkel. Automatikus választás: kórházakban a betegségek osztályozására kódrendszert használnak. Az orvosok által leírt diagnózis alapján a szoftver felajánlja a leginkább szóba jövő kódot. Amelyek közül már könnyen kiválasztható a legmegfelelőbb. Internetes viselkedési szokások elemzése: A „double click” nevű internetes cég (banner) reklámokat szolgáltat. Nyilvántartást vezet a látogatókról és szokásaik alapján, érdeklődési területeiket figyelembe véve mutat reklámokat a látogatóknak. (a szokásokat sütik elhelyezésével, és a HTML kérés ‘referrer’ nevű paramétere alapján lehet megismerni)

15 Gyakorlat weka


Letölteni ppt "Adatbányászat Dr. Nehéz Károly egyetemi adjunktus Miskolci Egyetem Alkalmazott Informatikai Tanszék 2005 1."

Hasonló előadás


Google Hirdetések