Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta
Az adatbányászat
Az adatbányászat és a tudásfeltárás A tudásfeltárás az adatbázisokban tárolt adatokból implicit, korábban nem ismert és potenciálisan hasznosnak vélt információk nem triviális úton való kinyerésének folyamata Az adatbányászat a tudásfeltárás egy fázisa Feltáró algoritmusok segítségével felsorakoztatja az adatokban található mintákat.
A folyamat főbb lépései Felhasználási célok meghatározása Céladatbázis létrehozása Adattisztítás Adatintegráció Adattér csökkentés Adatbányászati algoritmus kiválasztása Az algoritmus használata A kinyert információk értelmezése A megszerzett információk ellenőrzése az elvárások alapján
Az adatbányászat általános körülményei Óriási adathalmaz Algoritmus sebessége, hatékonysága Az adatok nem férnek be a memóriába Párhuzamos algoritmusok
Az adatbányászati problémák csoportosítása Adatbányászat Feltárás Prediktív modellezés „Törvényszéki” analízis Asszociációs szabáy kutatás Klaszterezés Kimenet jóslás, előrejelzés Eltérés elemzés Sorozat- illesztés Osztályozás Epizód- kutatás
Adatbányászati technikák Statisztika Osztályozás Döntési fák Neurális hálózatok Gépi tanulás
Adatbányászati alkalmazások Hitel jóváhagyó rendszer Vásárlók vásárlói szokásainak a vizsgálata A termelés során kialakult meghibásodások okának feltárása Gyógyszerek hatékonyságáért felelős faktorok identifikálása Web bányászat Stb.
MATLAB Statistics Toolbox
Témakörök Valószínűségi eloszlások 20-féle eloszlást támogat Leíró statisztika Releváns információk kinyerése (eloszlás, szórás, függvények hiányzó adatok kezeléséhez stb.) Osztályozás (klaszterezés) Objektumok tulajdonságaik alapján csoportosítása Hipotézis teszt Egy megadott állítás helyes-e vagy sem
Többváltozós statisztika Több dimenzós minták Statisztikai ábrakészítés Különböző függvények statisztikai ábrák készítésére (pl.: eloszlás, szórás) Statisztikai folyamatszabályozás Kísérlettervezés
Osztályozás (klaszterezés) A MATLAB Statistics Toolbox-ának segítségével
Az osztályozási feladat Objektumok bizonyos tulajdonságok alapján történő csoportokba osztása Az egy csoportba tartozó objektumok közel legyenek egymáshoz A különböző csoportba tartozó objektumok távol legyenek egymástól
Az osztályozás lépései Távolságmérték meghatározása A közel álló objektumok páronkénti összekapcsolása (bináris hierarchikus fa) A fa vizsgálata -- opcionális Osztályba sorolás a hierarchikus fa alapján
Példa osztályozásra
Az osztályozandó objektumok
A páronkénti távolságok meghatározása pdist függvénnyel meghatározható a távolság számításának módja (Euklédeszi, CityBlock stb.) A kialakult bináris hierarchikus fa megjelenítése a dendrogram függvénnyel
A dendrogram
A hierarchikus párosítás
Az osztályozási szint meghatározása cluster függvénnyel Vagy az osztályok számát kell megadni, vagy egy inkonzisztencia értéket
A kialakult osztályok