Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.

Hasonló előadás


Az előadások a következő témára: "Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta."— Előadás másolata:

1 Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta

2 Az adatbányászat

3 Az adatbányászat és a tudásfeltárás A tudásfeltárás az adatbázisokban tárolt adatokból implicit, korábban nem ismert és potenciálisan hasznosnak vélt információk nem triviális úton való kinyerésének folyamata Az adatbányászat a tudásfeltárás egy fázisa Feltáró algoritmusok segítségével felsorakoztatja az adatokban található mintákat.

4 A folyamat főbb lépései Felhasználási célok meghatározása Céladatbázis létrehozása Adattisztítás Adatintegráció Adattér csökkentés Adatbányászati algoritmus kiválasztása Az algoritmus használata A kinyert információk értelmezése A megszerzett információk ellenőrzése az elvárások alapján

5 Az adatbányászat általános körülményei Óriási adathalmaz Algoritmus sebessége, hatékonysága Az adatok nem férnek be a memóriába Párhuzamos algoritmusok

6 Az adatbányászati problémák csoportosítása Adatbányászat Feltárás Prediktív modellezés „Törvényszéki” analízis Asszociációs szabáy kutatás Klaszterezés Kimenet jóslás, előrejelzés Eltérés elemzés Sorozat- illesztés Osztályozás Epizód- kutatás

7 Adatbányászati technikák Statisztika Osztályozás Döntési fák Neurális hálózatok Gépi tanulás

8 Adatbányászati alkalmazások Hitel jóváhagyó rendszer Vásárlók vásárlói szokásainak a vizsgálata A termelés során kialakult meghibásodások okának feltárása Gyógyszerek hatékonyságáért felelős faktorok identifikálása Web bányászat Stb.

9 MATLAB Statistics Toolbox

10 Témakörök Valószínűségi eloszlások 20-féle eloszlást támogat Leíró statisztika Releváns információk kinyerése (eloszlás, szórás, függvények hiányzó adatok kezeléséhez stb.) Osztályozás (klaszterezés) Objektumok tulajdonságaik alapján csoportosítása Hipotézis teszt Egy megadott állítás helyes-e vagy sem

11 Többváltozós statisztika Több dimenzós minták Statisztikai ábrakészítés Különböző függvények statisztikai ábrák készítésére (pl.: eloszlás, szórás) Statisztikai folyamatszabályozás Kísérlettervezés

12 Osztályozás (klaszterezés) A MATLAB Statistics Toolbox-ának segítségével

13 Az osztályozási feladat Objektumok bizonyos tulajdonságok alapján történő csoportokba osztása Az egy csoportba tartozó objektumok közel legyenek egymáshoz A különböző csoportba tartozó objektumok távol legyenek egymástól

14 Az osztályozás lépései Távolságmérték meghatározása A közel álló objektumok páronkénti összekapcsolása (bináris hierarchikus fa) A fa vizsgálata -- opcionális Osztályba sorolás a hierarchikus fa alapján

15 Példa osztályozásra

16 Az osztályozandó objektumok

17 A páronkénti távolságok meghatározása pdist függvénnyel meghatározható a távolság számításának módja (Euklédeszi, CityBlock stb.) A kialakult bináris hierarchikus fa megjelenítése a dendrogram függvénnyel

18 A dendrogram

19 A hierarchikus párosítás

20 Az osztályozási szint meghatározása cluster függvénnyel Vagy az osztályok számát kell megadni, vagy egy inkonzisztencia értéket

21 A kialakult osztályok


Letölteni ppt "Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta."

Hasonló előadás


Google Hirdetések