Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbányászati módszerek a térinformatikában Elek István egyetemi docens ELTE Informatikai Kar.

Hasonló előadás


Az előadások a következő témára: "Adatbányászati módszerek a térinformatikában Elek István egyetemi docens ELTE Informatikai Kar."— Előadás másolata:

1 Adatbányászati módszerek a térinformatikában Elek István egyetemi docens ELTE Informatikai Kar

2 Szegmentálás  tematikus térkép Egy kiragadott adatoszlop alapján készült. Nem optimális az adatvesztés.

3 Szegmentálás  szemrevételezés Nem egzakt. Sok dimenziós adatbázisra egyáltalán nem alkalmazható.

4 Klaszterezés Cél: a nagy tömegű adathalmazokban való eligazodás. Klaszterezés: az adathalmaz pontjainak az adatrekordok hasonlósága alapján történő diszjunk csoportokba sorolása. Hasonlóság: hasonlóak azok a rekordok, amik közel vannak egymáshoz (az attributum adatok alapján) Távolság definició: euklideszi távolság fogalom

5 Távolság mátrix u,v két adatpont, távolságuk d(u,v) d ij az i-edik és a j-edik adatpont távolsága Mi a baj a távolság mátrixszal? Ha ‘n’ nagy, akkor gyakorlatilag nem számítható ki a hasonlóság.

6 Particionáló eljárások Hierarchikus eljárások A klaszter súlypont és az új adatpontok távolságának vizsgálata. Az új pont abba a klaszterbe kerül, amelynek súlypontjához a legközelebb van. Újra kiszámítjuk a súlypontot, újra nézzük a távolságokat, … Az adatelemeket fákba rendezik. Az adatok a levelekben helyezkednek el, míg a fa minden belső pontja megfelel egy klaszternek. Felhalmozó és lebontó algoritmusok: Kezdetben minden adat egy klaszter Kezdetben egy klaszter van benne az összes adattal

7 Dimenzió csökkentés Legyen ‘p’ számú megfigyelési egységünk ‘n’ számú adattal. Standardizálás

8 Dimenzió csökkentés Határozzuk meg a korrelációs mátrix sajátértékeit és sajátvektorait, vagyis oldjuk meg a következő sajátérték egyenletet: R v = λ v A λ 1, λ 2,.. λ p sajátértékekhez tartozó sajátvektorok v 1, v 2, …v p Ezek után számítsuk ki a főkomponenseket:

9 Dimenzió csökkentés A főkomponens analízis geometriai jelentése

10 Dimenzió csökkentés Mire jó mindez? Az első főkomponens magába sűríti az adatrendszer varianciáinak jelentős részét Optimális adatvesztés mellett helyettesíthetjük vele az adatrendszert Az első főkomponensre készítsünk tematikus térképet, ha több adatféleséget is figyelembe kívánunk venni.

11 Példák Népesség eloszlás szerinti csoportok

12 Példák Vendégéjszakák eloszlása szerinti csoportok

13 Példák Első főkomponens szerinti csoportok


Letölteni ppt "Adatbányászati módszerek a térinformatikában Elek István egyetemi docens ELTE Informatikai Kar."

Hasonló előadás


Google Hirdetések