Adatbányászati módszerek a térinformatikában Elek István egyetemi docens ELTE Informatikai Kar
Szegmentálás tematikus térkép Egy kiragadott adatoszlop alapján készült. Nem optimális az adatvesztés.
Szegmentálás szemrevételezés Nem egzakt. Sok dimenziós adatbázisra egyáltalán nem alkalmazható.
Klaszterezés Cél: a nagy tömegű adathalmazokban való eligazodás. Klaszterezés: az adathalmaz pontjainak az adatrekordok hasonlósága alapján történő diszjunk csoportokba sorolása. Hasonlóság: hasonlóak azok a rekordok, amik közel vannak egymáshoz (az attributum adatok alapján) Távolság definició: euklideszi távolság fogalom
Távolság mátrix u,v két adatpont, távolságuk d(u,v) d ij az i-edik és a j-edik adatpont távolsága Mi a baj a távolság mátrixszal? Ha ‘n’ nagy, akkor gyakorlatilag nem számítható ki a hasonlóság.
Particionáló eljárások A klaszter súlypont és az új adatpontok távolságának vizsgálata. Az új pont abba a klaszterbe kerül, amelynek súlypontjához a legközelebb van. Újra kiszámítjuk a súlypontot, újra nézzük a távolságokat, … Hierarchikus eljárások Az adatelemeket fákba rendezik. Az adatok a levelekben helyezkednek el, míg a fa minden belső pontja megfelel egy klaszternek. Felhalmozó és lebontó algoritmusok: Kezdetben minden adat egy klaszter Kezdetben egy klaszter van benne az összes adattal
Dimenzió csökkentés Legyen ‘p’ számú megfigyelési egységünk ‘n’ számú adattal. Standardizálás
Dimenzió csökkentés R v = λv Határozzuk meg a korrelációs mátrix sajátértékeit és sajátvektorait, vagyis oldjuk meg a következő sajátérték egyenletet: R v = λv A λ1, λ2,.. λp sajátértékekhez tartozó sajátvektorok v1, v2, …vp Ezek után számítsuk ki a főkomponenseket:
Dimenzió csökkentés A főkomponens analízis geometriai jelentése
Dimenzió csökkentés Mire jó mindez? Az első főkomponens magába sűríti az adatrendszer varianciáinak jelentős részét Optimális adatvesztés mellett helyettesíthetjük vele az adatrendszert Az első főkomponensre készítsünk tematikus térképet, ha több adatféleséget is figyelembe kívánunk venni.
Példák Népesség eloszlás szerinti csoportok
Példák Vendégéjszakák eloszlása szerinti csoportok
Példák Első főkomponens szerinti csoportok