WizWhy A sikeres emberek legfőbb ismérve évezredeken át: új(szerű) törvényszerűségeket, hatásokat és összefüggéseket - másokat megelőzve - pontosabban.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements


Kamarai prezentáció sablon
Készítette: Boros Erzsi
Adatelemzés számítógéppel
Weblap szerkesztés HTML oldal felépítése Nyitó tag Záró tag Nyitó tag Záró tag oldalfej tözs.
A társadalmi tényezők hatása a tanulásra
Kvantitatív Módszerek
Erőállóképesség mérése Találjanak teszteket az irodalomban
MATEMATIKA Év eleji felmérés 3. évfolyam
Pénzügyi előadás pályázói információs napra TÁMOP /1.
Mellár János 5. óra Március 12. v
10 állítás a gyerekek internethasználatáról
Műveletek logaritmussal
Elektromos mennyiségek mérése
Az új történelem érettségiről és eredményeiről augusztus Kaposi József.
Koordináta transzformációk
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Táblázat kezelő programok
A tételek eljuttatása az iskolákba
Készítette: Pető László
VÁLOGATÁS ISKOLÁNK ÉLETÉBŐL KÉPEKBEN.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Adatbáziskezelés az MSAccess programmal Makány György 5. rész: Jelentések.
A körlevél készítésének menete
1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
ADATBÁZISOK
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
NOVÁK TAMÁS Nemzetközi Gazdaságtan
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Chrappán Magdolna DE BTK Neveléstudományok Intézete.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
Befektetési döntések Bevezetés
Logikai szita Pomothy Judit 9. B.
Logikai szita Izsó Tímea 9.B.
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Az elemzés és tervezés módszertana
7. Házi feladat megoldása
Készítette: Rummel Szabolcs Elérhetőség:
Alapsokaság (populáció)

Két kvantitatív változó kapcsolatának vizsgálata
Csurik Magda Országos Tisztifőorvosi Hivatal
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
SPSS Predictive Applications Cseh Zoltán Budapest április 20.
Törzsek-Partnerek A partnerek menüpont alatt végezhetjük a partnerek nyilvántartásával kapcsolatos műveleteket. A partnertörzsben vesszük fel a partnerek.
Nyitott Kapuk 2010 Beiskolázási kérdőívek értékelése.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Valószínűségszámítás
Ágazati GDP előrejelző modell Foglalkoztatási és makro előrejelzés Vincze János Szirák, november 10.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Készítette: Horváth Viktória
Kvantitatív módszerek
Mikroökonómia gyakorlat
> aspnet_regiis -i 8 9 TIPP: Az „Alap” telepítés gyors, nem kérdez, de később korlátozhat.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
Gazdasági informatikus - Szövegszerkesztés 1 Bekezdések formázása 3.
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
Alapfogalmak, adatforrások, szűrés
Lekérdezések Adott tulajdonságú adatok listázásának módja a lekérdezés. A lekérdezések segítségével az adatbázisból megjeleníthetjük, módosíthatjuk, törölhetjük.
Bankszámlatranzakciók feldolgozása és könyvelése Gyorsan és egyszerűen
A mesterséges neuronhálók alapjai
Előadás másolata:

WizWhy A sikeres emberek legfőbb ismérve évezredeken át: új(szerű) törvényszerűségeket, hatásokat és összefüggéseket - másokat megelőzve - pontosabban fedeztek fel és hoztak biztos döntést. "újszerű": A WizWhy feltárja egy adatállomány összes(!) szabályát, így ezek 99.9%-a teljesen újszerű és lehetőséget ad sikeresebbnek lenni. "másokat megelőzve ": A WizWhy automatikus szabályfeltárása garantálja a leggyorsabb megoldást, hiszen a több millió variáció kipróbálása nem igényel éveket, csupán perceket. "pontosabban": szavakkal definiált megérzések helyett a WizWhy akár 8 tizedes pontossággal képes meghatározni azokat a határokat, ahol a siker sikertelenségbe menne át "biztos döntés": a WizWhy nemcsak létrehozza az új szabályokat, de azokat automatikusan mérlegelve a legjobb döntés meghozatalában is segít

Az ADATOK.E alakulását mely tényezők és milyen mértékben befolyásolják?

A lokális optimum megismerhető, a globális optimum nehezen felismerhető. A kettő közötti különbség kockázatot jelent

Problémafelvető következtetések Látható, hogy a leíró statisztikák sokszor félrevezetőek (ADATOK.B mutatta a legszorosabb összefüggést, mégis a legjobb modellből csak az maradt ki) A minden változót szerepeltető módszerek (pl. regresszió) sem garantálnak optimális megoldást, mert néhány változót legtöbbször érdemes kihagyni Még a stepwise regresszió sem biztosít a legtöbb esetben tökéletes megoldást (ha az F-enter értéket pl. 4-re állítjuk , úgy azt a következtetést kapjuk, hogy elfogadható modell nem hozható létre) Ha 4X8-as mátrixnál sem lehet megállapítani az összefüggést, úgy valós méretű adatbázisoknál még kevésbé A módszerek csak adott lépésnél állapítják meg az éppen optimális döntést, de nem tudnak előre gondolkodni (mint egy sakkgép). A problémák megoldása: Ha minden variációt legenerálunk, úgy a globális optimum sem marad ki

„The Wisdom of Crowds” Megszokott módszerek WizWhy Egész adatállományhoz egy szabályt rendel (pl. regressziók) Több szabály (pl. döntési fa), de egy rekord csak egy szabályhoz tartozik vizsgált sokaságot általánosan leíró modellekre volt szükség a múltban Minden szabályt feltár Egy rekord sok szabályhoz is tartozhat Egyedi esetekről pontosabb információt ad (hitelkeret-bírálat, churn, CLV, stb.

„Adatbányászat definíciója:"The nontrivial extraction of implicit, previously unknown, and potentially useful information from data” Piatetsky-Shapiro “The key in business is to know something that nobody else knows.”Aristotle Onassis Megszokott módszerek WizWhy Mivel az egész adatállományhoz egy szabályt rendelnek, így speciális felfedezések nem tehetők általuk Pl. neurális háló, logisztikus regresszió nem értelmezhetők mindenki számára A „minden szabály” feltárása a legjobb alapot adja a felfedezésekhez Az If-then szabályok által értelmezhető összefüggések állapíthatók meg

Felfedezések gyorsasága az üzleti és a tudományos sikerek kulcsa Megszokott módszerek WizWhy Futtatásonkénti egyetlen megoldás miatt csak napok, hónapok, évek alatt lehetne kipróbálni minden variációt Egyetlen futtatásban feltár „minden szabályt” (p.o. 78500-at), így szűrőfeltételekkel egyszerűen és gyorsan felfedezhetünk újszerű megállapításokat

Döntési fák Feladat: havi fizetések elemzése „nem”, kor, iskolai végzettség, iparág alapján Megszokott módszerek WizWhy Pl. ha első lépésben a „nem” akár minimális mértékben is meghatározóbbnak mutatkozik a többinél, úgy már soha nem kaphatunk olyan szabályokat,, amelyek a férfire és nőre egyaránt érvényesek lesznek Úgy is felfogható, mint ha olyan döntési fa lenne, amely minden variáció mentén képes dönteni, így a korábbi döntések nem zárják ki a potenciáli s lehetőségeket.

Outlier Megszokott módszerek WizWhy Rendszerint negatív tartalmú fogalom Rosszul becsülhető Néha szükséges elhagyni Pozitív tartalom Ha becsülhető, úgy jobb megbízhatósággal elemezhető, mint más módszerekkel Outlier-ek speciális szabályait is fel tudja tárni (csalások, tőzsdei hirtelen emelkedések/csökkenések, stb.)

Tanuló és tesztelő szakaszok új dimenziója Megszokott módszerek WizWhy Rekordok alapján történik csak szétvágás Rekordok alapján is történhet tanulás, illetve tesztelés Az algoritmusnak köszönhetően változók szerint is külön-külön csoportok képződnek (pl.. Var1, Var2, Var3 elemzése után p.o. egy Var8, Var15, Var87 analízise is megtörténik (sok millió egyéb variáció mellett). Ha minél több kombinációból képződik szabály, illetve, ha a szabályok azonos irányba mutatnak, annál biztosabb a „teszt” szakasz.

Missing problémája Megszokott módszerek WizWhy Rekordokat kell kihagyni Változókat kell kihagyni Hiányzó értékeket helyettesíteni kell (hibaforrás!) Rekordokat nem kell kihagyni Változókat nem kell kihagyni Hiányzó értékeket sem kell helyettesíteni Pl. ha egy adott rekordnál 100 változóból 30 nincs kitöltve, úgy a 70 változó alapján is sok-sok szabály képződhet

Kategóriaváltozók problémája Megszokott módszerek WizWhy Kategóriahatárokat az elemzőnek kell definiálnia (pl. 0-10, 11-20, 21-30, 31-40, 41-50, ..). Az életben semmi sem kötődik ilyen merev kategóriahatárokhoz, mégis szinte mindenben hasonlót használnak Előre definiált kategóriaváltozókat is képes elemezni AUTOMATIKUSAN állapít meg kategóriákat Kategóriák AUTOMATIKUSAN változhatnak szabályról-szabályra egy futtatáson belül is. Pl. churn esetén az életkor-kategória termékenként más-más lehet (de termék-díj relációban is módosulhat)

Függő változó nemlinearitásának problémája Megszokott módszerek WizWhy Mivel az egész állomány összes rekordjára érvényesnek kell lennie egy-egy együtthatónak, ezért lineáris változókkal nemlineáris függő változót csak problémák árán lehet elemezni Mikroszegmensek még lineáris változók esetén is jobban leírják a nemlineáris változót.

Túltanulás problémája Megszokott módszerek WizWhy Jellemző Nehezen kivédhető Nem jellemző Könnyen kivédhető A sok szabály ellensúlyozni tudja a túltanulás problémáját (maximum 6 feltétel lehet egy szabályon belül) és minden szabálynak meg kell felelni külső, szakmai elvárásnak

Szabályok értelmezhetősége Megszokott módszerek WizWhy Neurális hálók: nem értelmezhető Regressziók: nehezen értelmezhetők Döntési fák: könnyen értelmezhetők Könnyen értelmezhető Nem szükséges hozzá speciális tudás

Csalásfeltárás Megszokott módszerek WizWhy Külön szoftver szükséges hozzá A múltbéli csalásokra meg kell tanítani (rossz becslés) Megelőzés nem lehetséges a „fekete doboz” miatt Beépített opció A megadott múltbéli csalásokra is tud elemzést végezni AUTOMATKISAN új csalástípusokat és új eseteket is feltár Prevenciót támogatja az érthető szabályokkal

Valóság heterogenitása vs. Modell homogenitása Probléma: az emberek között nincs teljesen azonos, a döntéseik is számtalanok, mégis egy modellben akarják meghatározni a viselkedésüket Megszokott módszerek WizWhy Az „egy adatállomány - egy modell” elképzelés legtöbbször sikertelen vállalkozás Megtalálja a homogén csoportokat, miközben a heterogenitás nem probléma

Vis major a kezdő adatbányászatnak is vis major Probléma: Sok példa közül megemlítve a „2001. szeptember 11” előtt-utáni, pénzügyi válság előtt-utáni, kamatadó előtt-utáni időszakok idősorai nehezen elemezhetők egyben Megszokott módszerek WizWhy Vagy külön választják az idősorokat (ez kevés rekordszámmal, nagy kockázattal jár) Vagy egyben elemzik, de egyik periódusnál „alulról”, a másiknál „felülről” több tévedés lesz Megtalálja az optimális megoldást Az általános szabályoknál az egész idősorból választ szabályt A bekövetkezett változások miatt érintett tényezőknél automatikusan felismeri az eltérést és a periódus előtti, illetve utáni szakaszra külön szabályokat alkot Előrejelzésnél az előző kettőből végzi a végső predikciót.

Asszociációs szabályok vs. WizWhy Probléma: Vásárlói szokások elemzésénél vajon mindegy, hogy egy üveg sört vásárolnak, vagy bulihoz többet? Megszokott módszerek WizWhy Csak azt elemzik, hogy történt-e vásárlás adott termékből (I/N) Képes a mennyiségek figyelembevételével szabályokat alkotni (pl. ha a Tuborg Gold sör mennyisége 3-6 között van, akkor vásárolnak még Termék8-ből Az árak elemzésére is képes (saját, illetve konkurensek árai) Fizetett összegek előrejelzésére is alkalmas Dátumértékek is figyelembe vehetők (pl. délután 4-5 között jellemző egy adott viselkedés)

Pontosság hátránya Probléma: pl. churn elemzésnél a szerződés megszüntetését jelző cella kitöltöttsége egyértelmű „előrejelzést” adna, de értelmetlen Megszokott módszerek WizWhy Többnyire felismernék, hogy egy adott változó által leírható a churn. Pl. neurális háló „fekete doboza” miatt nem is lenne olyan feltűnő, hogy „bent maradt” egy „felesleges” változó Ugyanúgy feltárná az összefüggést az adott változó és a churn között, de ez nem gátolná meg abban, hogy feltárja azokat a szabályokat is, ahol csakugyan előre lehet jelezni a lemorzsolódást. Azaz elemzői hibákat is tompítani tud

Ok-okozat Megszokott módszerek WizWhy Az outputok által még a lehetőség sincs meg arra, hogy ok-okozat kapcsán felismerés szülessen Az If-then szabályok közül több konkrét ok-okozati összefüggést állapít meg (könnyen tanulmányozható formában)

Szabályok a szabályok között Megszokott módszerek WizWhy Mivel többnyire egyetlen szabály képződik, így még a lehetőség sincs meg erre. WizWhy automatikusan elemzi a létrejött szabályokat és „értelmet” keres köztük. Pl. Ha három feltétel külön-külön adott, akkor vásárolnak egy adott termékből, de ha mindhárom adott egy időben, úgy már nem történik vásárlás. Ilyen feltárások üzletileg és tudományosan igen értékes következtetéshez vezethetnek

Szabályok két oldala Megszokott módszerek WizWhy Mivel többnyire egyetlen szabály képződik, így még a lehetőség sincs meg erre. WizWhy automatikusan elemzi a létrejött szabályokat és keresi azokat a szabályokat, amelyekre igaz: ha bármelyikük igaz egy adott esetben, akkor a feltüntetett nagy valószínűséggel bekövetkezik a vizsgált esemény, de ha egyik sem igaz, akkor ugyancsak nagy valószínűséggel a másik bekövetkezés valósul meg

„A több kevesebb” Megszokott módszerek WizWhy Többnyire egyetlen szabály képződik, de a szoftverek üzemeléséhez többnyire több napos tanfolyamok szükségesek WizWhy automatikusan tárja fel az összes szabályt, gyakorlatilag első alkalommal is 5 perc alatt el lehet jutni az input adatok betöltésétől az előrejelzésig.

Modellek eredménye Megszokott módszerek WizWhy Többnyire szoftverspecifikus fájlban tárolódnak a modellek, így tanulmányozási körük erősen limitált WizWhy sokféle fájlformátumban képes elmenteni az összes modellt (akár text fájlban is), így a tanulmányozhatóság korlátlan.

Modellek reprodukálhatósága Megszokott módszerek WizWhy Többnyire szoftverspecifikus fájlban tárolódnak a modellek beállításai is, így utólagos ellenőrzésük, kontrollálásuk erősen limitált WizWhy sokféle fájlformátumban képes elmenteni a modellek beállításait is, így mindig lehet tudni, hogy adott szabályok milyen körülmények között igazak

Multikollinearitás Megszokott módszerek WizWhy Érintett változókat ki kell hagyni az elemzésből WizWhy lehetőséget ad, hogy egymással összefüggésben lévő változók ne szerepeljenek egyben, de ettől még más változókkal számtalan szabályt alkothatnak.

Előrejelzések száma Megszokott módszerek WizWhy Szinte kizárólagosan egyetlen előrejelzés készíthető WizWhy 3 lehetőséget biztosít az előrejelzés kalkulációjához (minden szabály és a preferált szabályok kétféle csoportja)

Real-time használat Call Center esetében Megszokott módszerek WizWhy Megoldhatatlan, mert a modellek futtatásához minden adatra szükség lenne és nincs dobozos megoldás arra, hogy az adatbányászok algoritmusait a call centeres könnyen futtassa WizWhy Prediktor minden call centeres gépére telepíthető olcsó megoldás, amely a központi WizWhy szabályai alapján a kapott információk begépelése után egy gombnyomásra kiadja a legjobb ajánlatot, sőt érvanyagokat is képernyőre tesz.

Adathibák veszélye Probléma: az adatrögzítő véletlenül 50.000 Ft-os havi hitelösszeg helyett 500.000 Ft-ot gépel be Megszokott módszerek WizWhy Legtöbb módszer irreális outputot fog eredményezni Mivel 500.000 Ft-os lakossági hitelösszeg nem gyakori, ezért vélhetően nincs is ilyen szabály, azaz nem fog érvényesülni az elgépelés.

Miért jobb a több információ? „Antilop vagy madár?” Kevés információ kétértelműséget okozhat. Több információ az egyértelműséget támogatja

Üzleti/tudományos bűvös kocka Miért tévednek az „angol tudósok”? Kérdés: Mikor házasodnak a fiatalok? (fiktív példa) Válasz1: 25-35 életkor között (megbízhatóság 60%) Válasz2: Ha egyetemet, főiskolát végeznek, akkor 28-37 év között. Ha nincs felsőfokú végzettség, úgy 22-31 év között (megbízhatóság 70%) Válasz2: Ha egyetemet, főiskolát végeznek és a karriert nevezik meg fő célnak, akkor 30-39 év között. (megbízhatóság 80%)

Tőzsdei adatbányászati példa

Amerikai elemzés körülményeinek ismertetése Vizsgált részvények száma: 41 (amerikai likvid részvények) Megfigyelések száma 15.457 (377 nap *41) Input adatok: kizárólag historikus árfolyamadatok (nyitó, maximum, minimum és záró) Output: „Növekedés”, „Csökkenés”, illetve „Semleges”

A cél ismertetése Esélyhányados növelése, egységnyi (pl. 100) kereskedésnél megnövelni a sikeres üzletek számát Valószínűségek alakulásának pontos ismerete Egyéb tőzsdei előrejelzésekhez validálási módszer (igényesség) nyújtása

„Emelkedés” sikeressége (377 nap)

„Csökkenés” sikeressége (377 nap)

Kérdőív adatok Melyik a kedvező célcsoport?

Melyik a kedvező célcsoport?   16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 Összesen Férfi 22,172 20,553 20,032 18,776 18,887 17,672 19,579 21,200 20,532 18,093 19,602 Nő 22,407 20,304 19,396 17,553 20,940 18,612 20,830 17,648 20,020 20,364 19,700 22,286 20,417 19,739 18,229 19,883 18,091 20,182 19,356 20,271 19,367 19,650

WizWhy - Csalásfeltárás Szoftverhasználat lépései

Welcome to WizWhy

Fájltípus kiválasztása A Basic Data fülön kiválasztjuk a vizsgálandó adatállomány formátumát

Fájlnyitás lépései A vizsgálandó adatállományt (pl. peldaadat.csalas.txt) a Windows által támogatott megnyitási eljárással kiválasztjuk a megfelelő útvonalon

Fájlnyitás lépései Az ábrán látható sorrendben kiválasztjuk a fájl formátumát (Delimited), illetve, hogy a fájl tartalmazza a mezőneveket, majd az elválasztás módját (Tabulator). Ezt követően megjelöljük, hogy a WizWhy az egész adatbázis alapján állapítsa meg az egyes mezőkhöz tartozó típusokat, majd a Parse gombra kattintva elkezdődik a gyors minősítés, melyet az OK gomb által véglegesítünk.

Vizsgálandó változó beállítása Kiválasztjuk a vizsgálandó témát, jelen esetben a Vizsgalt_tema nevű (utolsó) változót. Azaz azt szeretnénk meghatározni, hogy mely ügyfelekre jellemző a vizsgált téma, és ezen belül melyeket tekinthetünk csalásgyanús eseteknek. Az Ignore Field oszlopban jelölhetjük be a csalásfeltárásban irreleváns változókat, amelyeket érdemes kihagyni a szabályalkotásból (pl. ügyfél ID)

Szabályfeltárás paramétereinek a beállítása I. A Rule Parameters fülön beállítjuk a vizsgálandó változó (jelen esetben „Vizsgalt_tema”) azon értékét, amelyre a vizsgálat irányul. A WizWhy automatikusan kiszámolja az „Y” alapgyakoriságát az adatállományban (20.3%). Értelemszerűen az alapgyakorisághoz képest felülreprezentált szabályokat fontos kapni , ezért a „Minimum probability of if-then rules” értéket alapgyakoriságnál magasabbra kell állítani (default érték +40%-kal magasabb)

Szabályfeltárás paramétereinek a beállítása II. A WizWhy automatikusan kiszámolja az „Y” alapgyakorisága mellett a „nem-Y” alapgyakoriságát is (100- 20.30%). Az alapgyakorisághoz képest itt is felülreprezentált szabályokat fontos kapni , ezért a „Minimum probability of if-then-NOT rules” értéket alapgyakoriságnál (79.7%) magasabbra kell állítani (default érték +40%-kal magasabb)

Szabályfeltárás paramétereinek a beállítása III. A Rule Parameters fülön meghatározhatjuk, hogy egy szabály legalább hány rekordra (ügyfélre, tanácsadóra, stb.) legyen érvényes („Minimum number of cases in a rule”) és megadhatjuk, hogy egy szabályhoz maximum hány feltételtag tartozhat (maximum 6).

Szabályfeltárás paramétereinek a beállítása IV. A Rule Parameters fülön csalásfeltárásnál feltétlenül be kell jelölni a „Search for Unexpected Rules” műveletet, hogy a WizWhy feltárja a csalásgyanús eseteket leíró szabályokat.

Költségek megadása Az Error Costs fülön beállíthatjuk, hogy a WizWhy milyen költségekkel dolgozzon az előrejelzések hibáinál. „Cost of a miss” esetében azt adhatjuk meg, hogy milyen költséget jelent a Cégnek, ha egy-egy csaláseset feltáratlan marad. A „Cost of a false alarm” esetében azt a költséget kell feltüntetni, amely abban az esetben fordul elő, ha csalásgyanúsnak tűnik egy eset, de igazából mégsem csalás. Default értékkel (1-1) is működik a szabályfeltárás.

Szabály-riportálás beállítása I. A Rule Riport fülön beállíthatjuk, hogy azonnali elemzésre a képernyőn hány szabályt jelenítsen meg. Természetesen ettől függetlenül az összes szabály „megmarad”, ez csak egy elsődleges tanulmányozási lehetőség. A feltárt szabályok sorbarendezése három szempontból lehetséges: szignifikanciaszint, valószínűség és rekordszám alapján

Szabály-riportálás beállítása II. A Rule Riport fülön megadhatjuk, hogy a szabályfeltárás során hány mintapéldát jelenítsen meg azonnal az adatállományból. Így lehetőség van arra, hogy egy-egy szabály tanulmányozása során azonnal konkrét eseteket lehessen elemezni. A WizWhy az adatállományban lévő rekordsorszámot tünteti fel. Ezt a funkciót inaktívvá is tehetjük.

Szabálytagok manuális kizárása A Manual Select fülön a WizWhy lehetőséget biztosít arra, hogy manuálisan kizárjunk olyan elméleti kombinációkat, amelyek szakmailag értelmetlenek és/vagy félrevezetőek lehetnek. Például: „Ha ‘Település’ Érd és ‘Megye’ Pest megye akkor …” feltétel értelmetlen lenne, hiszen nem hordoz semmilyen plusz információt sem, csak felesleges szabályt generálna. A szelektálásban nem érintett feltételpárok fogják az elemzés alapját képezni. Példát követve a Település minden más változóval képezhet elvileg szabályt, akárcsak a Megye is.

Adatformátumok és a riportálások megadása A Data Format fülön lehetőség van szám-, dátum- és pénzformátumok beállítására és megadhatjuk, hogy a szabályokat tartalmazó riportokat milyen formátumban szeretnénk megkapni.

Előrejelzés készítése A Prediction Input fülön lehetőség van független adatbázis megadására, amelyre előrejelzést szeretnénk kapni. Az inputnál szereplő fájlformátumok, adatbázisok itt is elérhetők. Szükséges megadni legalább egy változót a Print oszlopban, amelyet a kimeneti fájlban meg szeretnénk jeleníteni. Az előrejelzéseket tartalmazó fájl a bejelölt változókat is tartalmazni fogja (azonosítás céljából).

Szabályfeltárás Az előzőkben ismertetett beállítások után indítható el a szabályfeltárás (A Basic Data és a Rule Parameters fülök kivételével a többi beállítása default értékként is szerepeltethető). Amennyiben megadásra került az előrejelzés kérése külön fájlba, úgy a Predict to file gomb megnyomásával teljesen automatikusan elindul a szabályfeltárás, illetve az előrejelzés készítése is. Ha a Prediction Input fülnél nem került megadásra fájl, úgy a Issue Rules gombra kattintva lehet a szabályfeltárást elindítani.

Előrejelzés A WizWhy előrejelzését tartalmazó fájlt Excelbe importálva a fenti ábrához hasonló formátumot kapunk. Ha a Concl_Prob alapján csökkenő sorrendbe állítjuk az értékeket, akkor megkapjuk a legvalószínűbb eseteket a Prediction oszlopban található előrejelzéssel kapcsolatban.

Összefoglaló riport A Summary report-ra kattintva az elemzés összefoglalója olvasható . Megjelenítésre kerül, hogy mely adatbázis milyen paraméterekkel volt elemezve és a fenti ábrán is látható részlet. A mintaadat valóságszerű, de nem valós! Összesen 166 esetben nem lehetett pontos előrejelzést adni (128+38 eset) A Vizsgált_téma 20.3%-ban volt jelen, de a predikciónál 59.1%-os sikerrátát lehetett elérni.

If-then szabályok Az if-then szabályok külön-külön rendezve, tanulmányozható formában kerülnek megadásra. A feltételtagok (pl. Eletkor is 33.00 … 34.00) alatt szerepel, hogy mire vonatkozik a megállapítás („Vizsgalt_tema is not Y), illetve, hogy a megállapítás milyen valószínűséggel igaz (Rule’s probability: 1.000, azaz 100%-ban) és hány rekordra igaz a szabály. Példákra kattintva (pl. 90) a jobb felső sarokban megjelennek az adott rekord adatai. A bal alsó sarokban lehetőség van arra, hogy adott változókhoz tartozó szabályokat keressünk.

If-then szabályok grafikusan Egy adott szabályra pozícionálva jobb egérrel kérhetünk grafikus megjelenítést is a szabályra. A példában látható, hogy a szabály által kijelölt 33-34 életév hol helyezkedik el a teljes adatállomány értéktartományán belül. Képet kaphatunk arról is, hogy a szabály a vizsgált téma hány százalékát magyarázza (2.1%)

If-then szabályok szelektálása SQL-hez Egy adott szabályra pozícionálva jobb egérrel megoldható a feltételek SQL formátumban való kimásolására is.

If-then szabályok másolása SQL-be Az Issue főmenün belül az SQL Statement ponton kérhető a kijelölt szabályok SQL nyelven történő mentése a megadott fájlba vagy a vágólapra másolása

Trend riport A bal oldali Trend Report menünél választható a változónkénti automatikus analitika. A kék vonal jelzi a vizsgált esemény alapgyakoriságát (20.3%) és ehhez képest jeleníti meg egy-egy változón belüli gyakoriságot, az oszlopok szélességével jelölve a hozzájuk tartozó rekordszámot. A példán látható, hogy a csoportos beszedésnél (340 rekord) alulreprezentált a vizsgált téma (17.4%)

Csalásgyanús szabályok A jobb oldali ablakban található az a néhány alapszabály, amely alapján adott rekordnak (ügyfélnek) más kimenetelt (magatartást) "kellene" mutatni. Például: adott életkoroknál (26-28 év közöttiek) és díjintervallumnál (6958-12132) pozitív kimenetelnek kellene lenni, de ahogyan a bal oldalon látható, együttes előfordulás esetén mégis 92.3%-ban a negatív bekövetkezés látható. A teljes felület (képernyő) bal alsó sarkában lévő nyíl segítségével további szabályok is tanulmányozhatók .

Csalásgyanús esetek Ha a bal oldali ablakban kiválaszthatjuk az Unexpected Cases lehetőséget, úgy az eltérő (sokszor csalásgyanús )eseteket egyenként vizsgálhatjuk. A WizWhy mindegyikhez kigyűjti azokat a szabályokat, amelyek az adott rekordhoz tartozó adatoknak megfelelnek. A jobb felső sarokban látható, hogy mi prediktálható a kilistázott szabályokból, szembeállítva a baloldalon lévő, piros X által megjelölt valóságos megfigyeléssel. Ugyancsak a bal oldalon megtalálható az adott rekordhoz tartozó összes adat, mellettük színnel megjelölve, hogy melyik járul hozzá a predikcióval azonos, illetve attól eltérő szabályokhoz.

Szabályok küldése e-mailben A feltárt szabályok, csalásgyanús szabályok és esetek automatikusan elküldhetők a WizWhy-ba épített megoldás által (File-Send Report menük)

Szabályok exportálása (nyomtatása) A WizWhy-ban az If-then szabályok , a Trend riport, a csalásgyanús szabályok és a csalásgyanús esetek egyaránt exportálhatók text fájlba, rtf fájlba és Access formátumba, illetve nyomtathatók.

Nem várt (csalásgyanús) szabályok riportja Továbbküldhető, tanulmányozható formátumban exportálható a szabályrendszer (minden lapra egy-egy nem várt (csalásgyanús) szabály, annak magyarázatával.

Nem várt (csalásgyanús) esetek riportja Továbbküldhető, tanulmányozható formátumban exportálhatóak a nem várt (csalásgyanús) esetek is (minden lapra eset, az arra vonatkozó szabályok megadásával.

Szabályok exportja Excelbe (Access által) Továbbküldhető, tanulmányozható formátumban exportálhatóak a csalásgyanús esetek is (minden lapra egy-egy csalásgyanús eset, az arra vonatkozó szabályok megadásával. Az Excel szűrőfeltételei és sorba rendezési lehetőségei által a szabályok tetszés szerint elemezhetők. Így nem jelent az sem problémát, hogy esetleg több tízezer (százezer) szabály is képződhet egy-egy elemzés során.

Köszönöm a figyelmet! Domján Csaba E-mail: optimum.solution@yahoo.com Mobil: 06/20-360-6442