Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Nevezetes algoritmusok
I. előadás.
Statisztika II. I. Dr. Szalka Éva, Ph.D..
Fejmozgás alapú gesztusok felismerése
A normalizálás az adatbázis-tervezés egyik módszere
Gazdaságelemzési és Statisztikai Tanszék
ZENEELMÉLEt.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Készítette / Author: Tuska Katalin
Non-profit szervezetek bevételi szerkezetének elemzése.
Csoportosítás megadása: Δx – csoport szélesség
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
1 A magyar gazdaság helyzete, perspektívái 2008 tavaszán Dr. Papanek Gábor Előadás Egerben május 7.-én.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Papp Róbert, Blaskovics Viktor, Hantos Norbert
Rendszer és modell szeptember-december Előadó: Bornemisza Imre egyetemi adjunktus.
Mintavételes eljárások
Integrálszámítás Mire fogjuk használni az integrálszámítást a matematikában, hova szeretnénk eljutni? Hol használható és mire az integrálszámítás? (már.
A középérték mérőszámai
Regresszióanalízis 10. gyakorlat.
Hierarchikus klaszteranalízis
K-közepű és kétlépéses klaszteranalízis (3. fejezet)
Excel Hivatkozások, függvények használata
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Az Alakfelismerés és gépi tanulás ELEMEI
Hozzászólás Hermann Zoltán: Az iskolatípus hatása a tanulói teljesítményekre Lovász Anna Szirák november 9.
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Matematikai alapok és valószínűségszámítás
Egytényezős variancia-analízis
Az F-próba szignifikáns
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Emberi Erőforrás Menedzsment Munkakör-értékelés EEM.4.
Szükségünk lesz valamilyen spreadsheet / táblázat kezelő programra
Kvantitatív Módszerek
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Szemiotika – Jeltan A Rendszer B Rendszer Kommunikáció Jel.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
Két kvantitatív változó kapcsolatának vizsgálata
A... TANTÁRGY OKTATÁSA KÍSÉRLETI/PROJEKT FORMÁBAN Projekt/kísérlet konkrét címe Név | Tanár neve | Iskola.
Többszempontos ANOVA (I
Jegyzet Készítette: Nikli Károly 2013
Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) II. Hanyecz Lajos.
I. előadás.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Mesterséges Intelligencia 1. Eddig a környezet teljesen megfigyelhető és determinisztikus volt, az ágens tisztában volt minden cselekvésének következményével.
Valószínűségszámítás II.
Készítette: Mátyás István agrár mérnöktanár szakos hallgató,
A számítógépes elemzés alapjai
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Pedagógiai hozzáadott érték „Őrült beszéd, de van benne rendszer” Nahalka István
A számítógépes elemzés alapjai
I. Előadás bgk. uni-obuda
Előadás másolata:

Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek közötti hasonlóság vagy távolság. egy n elemű adatbázisban minden egyes elemhez p darab változó értékei kapcsolódnak; alakítsunk az elemekből csoportokat úgy, hogy a „hasonlóak” egy csoportba kerüljenek. Minden klaszter elemei viszonylag hasonlók egymáshoz, de különböznek más klaszterek elemeitől. Az eljárásnak teljes mértékben számszerűnek kell lennie, a csoportok száma pedig előzetesen nem ismert. Így nehezebb problémával állunk szemben, mint a diszkriminancia-analízis esetében, hiszen ez utóbbi esetben a csoporttagságok ismertek. A klaszteranalízis és a diszkriminancia-analízis is csoportosítással foglalkozik. A diszkriminancia-analízis megköveteli a klaszterekbe tartozás előzetes ismeretét, s ez alapján kialakít egy csoportosító szabályt. Ezzel szemben a klaszteranalízisnél nem rendelkezünk előzetes ismerettel, a csoportok az adatok alapján alakulnak ki. http://nti.btk.pte.hu/dogitamas/BHF_FILES/html/08Munnich/pages/toc.html

Hierarchikus eljárások - A hierarchikus eljárások az egyes személyek, objektumok, esetek közötti távolság meghatározásával kezdődnek. A csoportok, klaszterek kialakítása történhet összevonáson vagy felosztáson alapuló módszerekkel. Az összevonó módszerek abból indulnak ki, hogy minden egyes elem egy önálló csoportot alkot, majd fokozatosan vonják össze az egyelemes csoportokat egyetlen nagy csoportba. Ezzel szemben a lebontó módszerben az összes elem egyetlen csoportba tartozik, és ezt a csoportot osztjuk fel kettő, majd egyre több csoportra addig, amíg minden elem egy önálló csoportot nem alkot. Az összevonó módszernél kezdetben minden egyes elem külön klasztert alkot. A klaszterek a megfigyelési egységek egyre nagyobb klaszeterekbe csoportosításával alakulnak ki. A folyamat addig folytatódik, amíg egyetlen klaszter lesz az egész.

Átlagos távolság: A két klaszter távolsága az összes megfigyelési egység páronkénti távolságának átlaga. Variancia-módszerek: A varianaciamódszerek a klaszteren belüli szórásnégyzet minimalizálásával állítunk elő klasztereket Ward-féle eljárás: Első lépésként minden egyes klaszterre kiszámoljuk az összes változó átlagát. Ezután a klaszterátlaghoz képest kiszámítjuk a négyzetes euklideszi távolságot minden elemre. Ezeket megfigyelési egységenként összegezzük. Minden lépésnél azt a két klasztert vonjuk össze, amely a klaszteren belüli szórásnégyzetet a legkevésbé növeli. Centroidmódszerek: A centroid a klaszter összes változójának átlaga. Két klaszter közötti távolságot a centroidjuk közötti távolság határozza meg. Az egységeket csoportosítjuk, az átlagokat kiszámítjuk, és a legkisebb távolságot keressük az összevonáshoz. Szekvenciális küszöbérték módszer: Kiválasztjuk a klaszter-középpontot, és minden egység, ami a középponttól egy előre meghatározott küszöbértéken belülre esik egy klaszterbe kerül. Ezután új középpontot választunk és csoportosítjuk a fennmaradó egységeket (egy egységet csak egy klaszter-középponttal lehet csoportosítani). Párhuzamos küszöbérték módszer: A klaszter-középpontokat itt egyidejűleg választjuk ki, a küszöbértéken belüli egységeket pedig a legközelebb eső középponthoz rendeljük. Optimális felosztás módszere: A megfigyelési egységeket a folyamat során újra hozzárendeljük más klaszterekhez is, hogy egy általános kritériumot optimalizálhassunk (pl.: adott számú klaszterre a klaszteren belüli távolságok átlagát).

K-középpontú klaszteranalízis Adjuk meg a kezdeti klaszterek számát Minden elemet besorolunk a hozzá legközelebb eső klaszterbe Határozzuk meg a klasztercentroidokat Az elemeket átsoroljuk úgy, hogy a csökkenjen az elemek és a centroidok közötti távolság A 3-4. lépés ismétlése addig, amíg a klaszterek nem állandósulnak.

Nincsenek szabályok, csupán elméleti, gyakorlati megfontolások Klaszterek száma Nincsenek szabályok, csupán elméleti, gyakorlati megfontolások Hierarchikus klaszterelemzés esetén az összevonásra alkalmazott távolság értéke segíthet A nem hierarchikus klaszterelemzésnél a belső és külső variancia hányadosát ábrázoljuk a klaszterek számának függvényében és az a pont ahol éles törés látható, a megfelelő klaszterszámra utal (e ponton túl nem érdemes a klaszterek számát növelni, lásd 5.3.2. fejezet) A klaszterek egymáshoz viszonyított méretét is érdemes figyelembe venni: nagy elemszámú klaszterek mellett egy 1-2 elemű klaszternek gyakran nincs túl sok értelme

Diszkriminancia-analízis Számos olyan helyzet van, amikor szeretnénk tudni, hogy az emberek milyen csoportba tartoznak, vagy fognak tartozni. A csoportot itt igen tágan értelmezhetjük. Tulajdonképpen bármilyen csoportosítást kialakíthatunk, amelyet (értelmesen) vizsgálni lehet: megfelelő-e egy jelölt az állásra vagy sem, hajlamos-e depresszióra vagy nem, visszaeső bűnöző lesz-e a személy vagy a büntetés után feladja a bűnözői karrierjét. Hogy a csoporttagságokat előre tudjuk jelezni, valamilyen jellemző vagy képesség vizsgálata szükséges, mely vagy melyek alapján a becslésünket meg tudjuk tenni. Például a jelölt alkalmasságának vizsgálatához tesztelhetjük a munkavégzés szempontjából kulcsfontosságú képességeit. A depresszióra való hajlam vizsgálatánál megnézhetjük a családbeli előfordulását a depressziónak, nézhetjük a személyt érő stressz mennyiségét, stb. Mindezek, és ehhez hasonló vizsgálatok végrehajtásához alkalmas eljárás a diszkriminancia-analízis. A diszkriminancia-analízisben tehát azt a problémát járjuk körül, hogyan lehet az emberek egyes csoportjait valamilyen vizsgált jellemzők alapján szétválasztani, az egyes csoportokat azonosítani, valamint a csoporttagságokat az előbb említett vizsgált jellemzők alapján előrejelezni.

Szalagmunkások vizsgálata Képzeljünk el, hogy szalagmunkásokkal végeznek alkalmasság-vizsgálatot. A szalagmunka általában sok figyelmet igényel, ugyanakkor meglehetősen monoton munka, éppen ezért jó figyelmi képességek és monotónia tűrés szükséges hozzá. A 4.1. táblázat 10 személy adatait tartalmazza, akik szalagmunkára való jelentkezéskor vizsgáltak: figyelmi képességükre és monotónia-tűrésükre vonatkozóan találunk információkat, melyeket egy 7 fokú skálán értékeltek (ahol a magasabb érték jobb képességeket jelent), valamint azt az információt is láthatjuk, hogy később beváltak-e vagy sem. A 4.1. táblázat alapján azt kellene megmutatnunk, hogy a figyelem és a monotónia-tűrés pontszámai alapján következtetést lehet levonni a személy beválását illetően. Ha ezt sikerül egy objektív statisztikai módszerrel is igazolnunk, akkor az ezt követően szalagmunkára jelentkezőket figyelem és monotónia tűréssel vizsgálva tesztelhetjük, és egész jól ki lehet válogatni az alkalmasabb jelölteket. A diszkriminacia-analízis egy ilyen objektív statisztikai módszert jelent.

4.3 A diszkriminancia-analízis felhasználási köre A diszkriminancia-analízis számos célra felhasználható: Megfigyelési egységek csoportokba sorolása egy diszkriminancia-egyenlet előrejelzése alapján Elmélet tesztelése annak megfigyelése alapján, hogy a megfigyelési egységek csoportba tartozása valóban az előjelzés alapján alakul-e Csoporton belüli és csoportok közötti különbségek vizsgálata A „leggazdaságosabb” módszer kialakítása a csoportok közötti különbségek meghatározására Annak meghatározása, hogy a független változók a függő változó varianciájának hány százalékát magyarázzák Független változók relatív fontosságának meghatározása a csoportok szétválasztásának szempontjából A csekély diszkriminatív értékkel bíró változók eltávolítása