Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaAntal Lakatos Megváltozta több, mint 9 éve
1
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta
2
Az adatbányászat
3
Az adatbányászat és a tudásfeltárás A tudásfeltárás az adatbázisokban tárolt adatokból implicit, korábban nem ismert és potenciálisan hasznosnak vélt információk nem triviális úton való kinyerésének folyamata Az adatbányászat a tudásfeltárás egy fázisa Feltáró algoritmusok segítségével felsorakoztatja az adatokban található mintákat.
4
A folyamat főbb lépései Felhasználási célok meghatározása Céladatbázis létrehozása Adattisztítás Adatintegráció Adattér csökkentés Adatbányászati algoritmus kiválasztása Az algoritmus használata A kinyert információk értelmezése A megszerzett információk ellenőrzése az elvárások alapján
5
Az adatbányászat általános körülményei Óriási adathalmaz Algoritmus sebessége, hatékonysága Az adatok nem férnek be a memóriába Párhuzamos algoritmusok
6
Az adatbányászati problémák csoportosítása Adatbányászat Feltárás Prediktív modellezés „Törvényszéki” analízis Asszociációs szabáy kutatás Klaszterezés Kimenet jóslás, előrejelzés Eltérés elemzés Sorozat- illesztés Osztályozás Epizód- kutatás
7
Adatbányászati technikák Statisztika Osztályozás Döntési fák Neurális hálózatok Gépi tanulás
8
Adatbányászati alkalmazások Hitel jóváhagyó rendszer Vásárlók vásárlói szokásainak a vizsgálata A termelés során kialakult meghibásodások okának feltárása Gyógyszerek hatékonyságáért felelős faktorok identifikálása Web bányászat Stb.
9
MATLAB Statistics Toolbox
10
Témakörök Valószínűségi eloszlások 20-féle eloszlást támogat Leíró statisztika Releváns információk kinyerése (eloszlás, szórás, függvények hiányzó adatok kezeléséhez stb.) Osztályozás (klaszterezés) Objektumok tulajdonságaik alapján csoportosítása Hipotézis teszt Egy megadott állítás helyes-e vagy sem
11
Többváltozós statisztika Több dimenzós minták Statisztikai ábrakészítés Különböző függvények statisztikai ábrák készítésére (pl.: eloszlás, szórás) Statisztikai folyamatszabályozás Kísérlettervezés
12
Osztályozás (klaszterezés) A MATLAB Statistics Toolbox-ának segítségével
13
Az osztályozási feladat Objektumok bizonyos tulajdonságok alapján történő csoportokba osztása Az egy csoportba tartozó objektumok közel legyenek egymáshoz A különböző csoportba tartozó objektumok távol legyenek egymástól
14
Az osztályozás lépései Távolságmérték meghatározása A közel álló objektumok páronkénti összekapcsolása (bináris hierarchikus fa) A fa vizsgálata -- opcionális Osztályba sorolás a hierarchikus fa alapján
15
Példa osztályozásra
16
Az osztályozandó objektumok
17
A páronkénti távolságok meghatározása pdist függvénnyel meghatározható a távolság számításának módja (Euklédeszi, CityBlock stb.) A kialakult bináris hierarchikus fa megjelenítése a dendrogram függvénnyel
18
A dendrogram
19
A hierarchikus párosítás
20
Az osztályozási szint meghatározása cluster függvénnyel Vagy az osztályok számát kell megadni, vagy egy inkonzisztencia értéket
21
A kialakult osztályok
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.