Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból hasonlóságot mutat az adatbányászat egy másik módszerével, az osztályozással. Mi is az a klaszter?
A csoportosító algoritmusokkal szemben támasztott igények Skálázhatóság Dimenzionalitás Különböző adattípusok kezelése Korlátozások érvényesítése Minimális felhasználói behatás Objektumok sorrendjétől való függetlenség Zajos adatok kezelése Értelmezhetőség és felhasználhatóság
Módszerek Hierarchikus módszer ▫Egyesítő ▫Felező Partícionáló módszer Fuzzy módszer
Osztályozás A különböző mintákat előre definiált osztályokba soroljuk A kiválasztott attribútumot osztálycímkének nevezzük
Döntési fák Fa formájú folyamatábra Fa köztes csomópontjain egy-egy kérdés (teszt) szerepel Minden döntési fa egy szabálybázist határoz meg
A Merill Lynch elemzői szerint az üzleti információk 85%-a strukturálatlan adat formájában van jelen Adatbányászati módszerekkel az adatbázisokban strukturáltan tárolt adatokból nyerhetők ki célja a dokumentumokban rejtetten meglévő új információk feltárása, azonosítása. Szövegbányászat
Szövegbányászat néhány feladata Információkinyerés Témakövetés Fogalomtársítás
Adatbányász szoftverek WEKA Enterprise Miner Clementine Intelligent Miner DBMiner MineSet
Konkrét adatbányászati alkalmazások Tőzsdei árfolyamok ellenőrzése (Reuters) Med-AI: Betegségek modellezése Piackutatás (Reader’s Digest Canada) Gépkocsik sztereo berendezéseinek piackutatása (Washington Auto Audio, Inc.)
Köszönjük a figyelmet!