Adatbányászati modellek aggregálása Dr. Pitlik László – Szűcs Imre – Pető István – Andrei Pisartsov – Orosz Erika SZIE GTK GMI - SZIE GTK GSZDI V. Alkalmazott Informatika Konferencia Kaposvár, Kaposvári Egyetem 2006. Május 26.
Tartalom Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió V. Akalmazott Informatika Konferencia
Bevezetés I Adatbányászati modellek Kockázatelemzés Credit Scoring Basel II CRM (Ügyfélkapcsolat menedzsment) Termékvásárlási / válaszadási modellek Lemorzsolódás Szegmentáció Vásárlói kosár elemzés Ügyfélérték számítás V. Akalmazott Informatika Konferencia
Bevezetés II Modellek felhasználása Inkonzisztencia Preferencia Számszerű érték Inkonzisztencia Különböző modellek eltérő eredményt adnak ugyanarra a kérdésre Makro modellek vs Belső modellek V. Akalmazott Informatika Konferencia
Tartalom Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió V. Akalmazott Informatika Konferencia
Felhasznált adatok I V. Akalmazott Informatika Konferencia
Felhasznált adatok II V. Akalmazott Informatika Konferencia
Tartalom Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió V. Akalmazott Informatika Konferencia
Inkonzisztencia I Adott esemény bekövetkeztére vonatkozó eltérő eredményű becslések Inkonzisztens jövőkép! Közös ügyfélkör 8500 objektum 46,38% „jó” ügyfél V. Akalmazott Informatika Konferencia
Inkonzisztencia II Következmények Döntéshozatal támogatása? Várható veszteség számítása (Basel II) EL = PD * EAD * LGD Kampány hatékonyság tervezés Lemorzsolódás következtében elmaradt nyereség Ügyfélérték V. Akalmazott Informatika Konferencia
Tartalom Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió V. Akalmazott Informatika Konferencia
Módszerek I Közös modell fejlesztése Modell fejlesztése minden lehetséges termékkombinációra Modell aggregálás Szakértői módszer Mesterséges neurális hálózat Component-based Object Comparison for Objectivity (COCO) V. Akalmazott Informatika Konferencia
Módszerek II Közös modell Modellek termék kombinációnként Hiányzó értékek Inaktív ~ Termékkel nem rendelkező Modellek termék kombinációnként Túl sok modell Automatizált modellfejlesztés? Modellek menedzselése? V. Akalmazott Informatika Konferencia
Módszerek III Modell aggregálás Közepesen sok modell Aggregálási módszer? V. Akalmazott Informatika Konferencia
Tartalom Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió V. Akalmazott Informatika Konferencia
Modell aggregálás – Szakértői módszer Hibával fordított arányban súlyozott átlag p = (ASE_1 * p2 + ASE_2 * p1) / (ASE_1 + ASE_2) Klaszterezés p1-p2 K-középpontú 18 szegmens Szegmensenként számítjuk a súlyozást V. Akalmazott Informatika Konferencia
Modell aggregálás – MNH I Az alkalmazott neurális hálózat: Multilayer Perceptron Aktivációs függvény: tangens hiperbolikus Kombinációs függvény: lineáris Rétegek száma: 1-2 Tanulási – tesztelési minta megoszlása: 70% - 30% Leállítási kritérium: Early stopping Memory Based Reasoning: Alapmodellek hibájának becslésére Hasonlóság = Euklidészi távolság 50 legközelebbi szomszéd V. Akalmazott Informatika Konferencia
Modell aggregálás – MNH II Becsült hibák használatának vizsgálata (2 rejtett réteg, 5-4 neuronnal) Rétegek és neuronok számának vizsgálata Megfelelő struktúra mellett a becsült hibák használata felesleges! V. Akalmazott Informatika Konferencia
Modell aggregálás – COCO I Dr. Pitlik László – SZIE GTK GMI Ügyfelek csoportosítása: p1, p2 szegmensek Alapadat mátrix (szegmens szint) Input: átlag_p1, átlag_p2 Cél: átlag termékvásárlás Szegmensenkénti becslés Modell kiterjesztése ügyfelekre http://miau.gau.hu/miau/93/5ai-coco.xls V. Akalmazott Informatika Konferencia
Modell aggregálás – COCO II COCO és MNH összehasonlítása Adatbázis: COCO alapadat mátrix 75 objektum (tréning ügyfél szegmensek) Modell eredményének kiterjesztése a teszt szegmensekbe tartozó ügyfelekre COCO MNH 5 - 4 5 - 4 - 3 8 - 8 - 8 ASE 0,1841 0,1873 0,1844 0,1840 V. Akalmazott Informatika Konferencia
Tartalom Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió V. Akalmazott Informatika Konferencia
Eredmények I Inkonzisztencia feloldása az egyetlen mutatószám által Aggregált modellek pontosabbak, mint az alapmodellek a közös ügyfélkörön Nem érjük el az alapmodellek fejlesztési állományon produkált pontosságát Fontosak a precíz alapmodellek V. Akalmazott Informatika Konferencia
Fejlesztési idők aránya Termékfelvétel várható értéke Eredmények II Modellek Rekordok száma Tanuló halmaz (%) Teszt halmaz (%) Fejlesztési idők aránya Termékfelvétel várható értéke Besorolási hiba (p=0.5) ASE (teszt) Alapmodell_1 120000 70 30 2 0,4269 26,73 0,1941 Alapmodell_2 21500 0,3741 25,25 0,1951 MNH 8500 3 0,4637 24,91 0,176 COCO 138 (8478) 54 46 1 0,4712 25,39 0,1841 Szakértői módszer 100 0,4007 27,55 0,1909 V. Akalmazott Informatika Konferencia
Konklúzió Inkonzisztencia feloldása Döntéshozatal Aggregált modellek pontosabbak, mint az alapmodellek a közös ügyfélkörön Várható veszteség Kampány eredményesség Ügyfélérték Fel kell ismerni és tudatosan kezelni kell az előrejelzésekben rejlő inkonzisztenciát! V. Akalmazott Informatika Konferencia
Köszönöm a figyelmet! Szűcs Imre icsusz@gmail.com V. Akalmazott Informatika Konferencia