Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Adatbányászati módszerek a térinformatikában
Elek István egyetemi docens ELTE Informatikai Kar
2
Szegmentálás tematikus térkép
Egy kiragadott adatoszlop alapján készült. Nem optimális az adatvesztés.
3
Szegmentálás szemrevételezés
Nem egzakt. Sok dimenziós adatbázisra egyáltalán nem alkalmazható.
4
Klaszterezés Cél: a nagy tömegű adathalmazokban való eligazodás.
Klaszterezés: az adathalmaz pontjainak az adatrekordok hasonlósága alapján történő diszjunk csoportokba sorolása. Hasonlóság: hasonlóak azok a rekordok, amik közel vannak egymáshoz (az attributum adatok alapján) Távolság definició: euklideszi távolság fogalom
5
Távolság mátrix u,v két adatpont, távolságuk d(u,v)
d ij az i-edik és a j-edik adatpont távolsága Mi a baj a távolság mátrixszal? Ha ‘n’ nagy, akkor gyakorlatilag nem számítható ki a hasonlóság.
6
Particionáló eljárások
A klaszter súlypont és az új adatpontok távolságának vizsgálata. Az új pont abba a klaszterbe kerül, amelynek súlypontjához a legközelebb van. Újra kiszámítjuk a súlypontot, újra nézzük a távolságokat, … Hierarchikus eljárások Az adatelemeket fákba rendezik. Az adatok a levelekben helyezkednek el, míg a fa minden belső pontja megfelel egy klaszternek. Felhalmozó és lebontó algoritmusok: Kezdetben minden adat egy klaszter Kezdetben egy klaszter van benne az összes adattal
7
Dimenzió csökkentés Legyen ‘p’ számú megfigyelési egységünk ‘n’ számú adattal. Standardizálás
8
Dimenzió csökkentés R v = λv
Határozzuk meg a korrelációs mátrix sajátértékeit és sajátvektorait, vagyis oldjuk meg a következő sajátérték egyenletet: R v = λv A λ1, λ2,.. λp sajátértékekhez tartozó sajátvektorok v1, v2, …vp Ezek után számítsuk ki a főkomponenseket:
9
Dimenzió csökkentés A főkomponens analízis geometriai jelentése
10
Dimenzió csökkentés Mire jó mindez?
Az első főkomponens magába sűríti az adatrendszer varianciáinak jelentős részét Optimális adatvesztés mellett helyettesíthetjük vele az adatrendszert Az első főkomponensre készítsünk tematikus térképet, ha több adatféleséget is figyelembe kívánunk venni.
11
Példák Népesség eloszlás szerinti csoportok
12
Példák Vendégéjszakák eloszlása szerinti csoportok
13
Példák Első főkomponens szerinti csoportok
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.