Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek közötti hasonlóság vagy távolság. egy n elemű adatbázisban minden egyes elemhez p darab változó értékei kapcsolódnak; alakítsunk az elemekből csoportokat úgy, hogy a „hasonlóak” egy csoportba kerüljenek. Minden klaszter elemei viszonylag hasonlók egymáshoz, de különböznek más klaszterek elemeitől. Az eljárásnak teljes mértékben számszerűnek kell lennie, a csoportok száma pedig előzetesen nem ismert. Így nehezebb problémával állunk szemben, mint a diszkriminancia-analízis esetében, hiszen ez utóbbi esetben a csoporttagságok ismertek. A klaszteranalízis és a diszkriminancia-analízis is csoportosítással foglalkozik. A diszkriminancia-analízis megköveteli a klaszterekbe tartozás előzetes ismeretét, s ez alapján kialakít egy csoportosító szabályt. Ezzel szemben a klaszteranalízisnél nem rendelkezünk előzetes ismerettel, a csoportok az adatok alapján alakulnak ki. http://nti.btk.pte.hu/dogitamas/BHF_FILES/html/08Munnich/pages/toc.html
Hierarchikus eljárások - A hierarchikus eljárások az egyes személyek, objektumok, esetek közötti távolság meghatározásával kezdődnek. A csoportok, klaszterek kialakítása történhet összevonáson vagy felosztáson alapuló módszerekkel. Az összevonó módszerek abból indulnak ki, hogy minden egyes elem egy önálló csoportot alkot, majd fokozatosan vonják össze az egyelemes csoportokat egyetlen nagy csoportba. Ezzel szemben a lebontó módszerben az összes elem egyetlen csoportba tartozik, és ezt a csoportot osztjuk fel kettő, majd egyre több csoportra addig, amíg minden elem egy önálló csoportot nem alkot. Az összevonó módszernél kezdetben minden egyes elem külön klasztert alkot. A klaszterek a megfigyelési egységek egyre nagyobb klaszeterekbe csoportosításával alakulnak ki. A folyamat addig folytatódik, amíg egyetlen klaszter lesz az egész.
Átlagos távolság: A két klaszter távolsága az összes megfigyelési egység páronkénti távolságának átlaga. Variancia-módszerek: A varianaciamódszerek a klaszteren belüli szórásnégyzet minimalizálásával állítunk elő klasztereket Ward-féle eljárás: Első lépésként minden egyes klaszterre kiszámoljuk az összes változó átlagát. Ezután a klaszterátlaghoz képest kiszámítjuk a négyzetes euklideszi távolságot minden elemre. Ezeket megfigyelési egységenként összegezzük. Minden lépésnél azt a két klasztert vonjuk össze, amely a klaszteren belüli szórásnégyzetet a legkevésbé növeli. Centroidmódszerek: A centroid a klaszter összes változójának átlaga. Két klaszter közötti távolságot a centroidjuk közötti távolság határozza meg. Az egységeket csoportosítjuk, az átlagokat kiszámítjuk, és a legkisebb távolságot keressük az összevonáshoz. Szekvenciális küszöbérték módszer: Kiválasztjuk a klaszter-középpontot, és minden egység, ami a középponttól egy előre meghatározott küszöbértéken belülre esik egy klaszterbe kerül. Ezután új középpontot választunk és csoportosítjuk a fennmaradó egységeket (egy egységet csak egy klaszter-középponttal lehet csoportosítani). Párhuzamos küszöbérték módszer: A klaszter-középpontokat itt egyidejűleg választjuk ki, a küszöbértéken belüli egységeket pedig a legközelebb eső középponthoz rendeljük. Optimális felosztás módszere: A megfigyelési egységeket a folyamat során újra hozzárendeljük más klaszterekhez is, hogy egy általános kritériumot optimalizálhassunk (pl.: adott számú klaszterre a klaszteren belüli távolságok átlagát).
K-középpontú klaszteranalízis Adjuk meg a kezdeti klaszterek számát Minden elemet besorolunk a hozzá legközelebb eső klaszterbe Határozzuk meg a klasztercentroidokat Az elemeket átsoroljuk úgy, hogy a csökkenjen az elemek és a centroidok közötti távolság A 3-4. lépés ismétlése addig, amíg a klaszterek nem állandósulnak.
Nincsenek szabályok, csupán elméleti, gyakorlati megfontolások Klaszterek száma Nincsenek szabályok, csupán elméleti, gyakorlati megfontolások Hierarchikus klaszterelemzés esetén az összevonásra alkalmazott távolság értéke segíthet A nem hierarchikus klaszterelemzésnél a belső és külső variancia hányadosát ábrázoljuk a klaszterek számának függvényében és az a pont ahol éles törés látható, a megfelelő klaszterszámra utal (e ponton túl nem érdemes a klaszterek számát növelni, lásd 5.3.2. fejezet) A klaszterek egymáshoz viszonyított méretét is érdemes figyelembe venni: nagy elemszámú klaszterek mellett egy 1-2 elemű klaszternek gyakran nincs túl sok értelme
Diszkriminancia-analízis Számos olyan helyzet van, amikor szeretnénk tudni, hogy az emberek milyen csoportba tartoznak, vagy fognak tartozni. A csoportot itt igen tágan értelmezhetjük. Tulajdonképpen bármilyen csoportosítást kialakíthatunk, amelyet (értelmesen) vizsgálni lehet: megfelelő-e egy jelölt az állásra vagy sem, hajlamos-e depresszióra vagy nem, visszaeső bűnöző lesz-e a személy vagy a büntetés után feladja a bűnözői karrierjét. Hogy a csoporttagságokat előre tudjuk jelezni, valamilyen jellemző vagy képesség vizsgálata szükséges, mely vagy melyek alapján a becslésünket meg tudjuk tenni. Például a jelölt alkalmasságának vizsgálatához tesztelhetjük a munkavégzés szempontjából kulcsfontosságú képességeit. A depresszióra való hajlam vizsgálatánál megnézhetjük a családbeli előfordulását a depressziónak, nézhetjük a személyt érő stressz mennyiségét, stb. Mindezek, és ehhez hasonló vizsgálatok végrehajtásához alkalmas eljárás a diszkriminancia-analízis. A diszkriminancia-analízisben tehát azt a problémát járjuk körül, hogyan lehet az emberek egyes csoportjait valamilyen vizsgált jellemzők alapján szétválasztani, az egyes csoportokat azonosítani, valamint a csoporttagságokat az előbb említett vizsgált jellemzők alapján előrejelezni.
Szalagmunkások vizsgálata Képzeljünk el, hogy szalagmunkásokkal végeznek alkalmasság-vizsgálatot. A szalagmunka általában sok figyelmet igényel, ugyanakkor meglehetősen monoton munka, éppen ezért jó figyelmi képességek és monotónia tűrés szükséges hozzá. A 4.1. táblázat 10 személy adatait tartalmazza, akik szalagmunkára való jelentkezéskor vizsgáltak: figyelmi képességükre és monotónia-tűrésükre vonatkozóan találunk információkat, melyeket egy 7 fokú skálán értékeltek (ahol a magasabb érték jobb képességeket jelent), valamint azt az információt is láthatjuk, hogy később beváltak-e vagy sem. A 4.1. táblázat alapján azt kellene megmutatnunk, hogy a figyelem és a monotónia-tűrés pontszámai alapján következtetést lehet levonni a személy beválását illetően. Ha ezt sikerül egy objektív statisztikai módszerrel is igazolnunk, akkor az ezt követően szalagmunkára jelentkezőket figyelem és monotónia tűréssel vizsgálva tesztelhetjük, és egész jól ki lehet válogatni az alkalmasabb jelölteket. A diszkriminacia-analízis egy ilyen objektív statisztikai módszert jelent.
4.3 A diszkriminancia-analízis felhasználási köre A diszkriminancia-analízis számos célra felhasználható: Megfigyelési egységek csoportokba sorolása egy diszkriminancia-egyenlet előrejelzése alapján Elmélet tesztelése annak megfigyelése alapján, hogy a megfigyelési egységek csoportba tartozása valóban az előjelzés alapján alakul-e Csoporton belüli és csoportok közötti különbségek vizsgálata A „leggazdaságosabb” módszer kialakítása a csoportok közötti különbségek meghatározására Annak meghatározása, hogy a független változók a függő változó varianciájának hány százalékát magyarázzák Független változók relatív fontosságának meghatározása a csoportok szétválasztásának szempontjából A csekély diszkriminatív értékkel bíró változók eltávolítása