MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb: lineáris függvények: g(x) = w t x + w 0
MI 2003/ Két osztály esete: az előző lineáris diszkriminancia függvény segítségével dönthetünk - az első osztályt választjuk ( 1 ), ha g(x) > 0, különben a másodikat. A g(x) = 0 egy felületet definiál (döntési felület), ami itt egy hipersík. Két, a hipersíkon levő x 1 illetve x 2 pontra:
MI 2003/ w t x 1 + w 0 = w t x 2 + w 0 vagyis w t (x 1 - x 2 ) = 0, tehát w merőleges a hipersíkban levő vektorokra. Itt valójában a teret ezzel a hipersíkkal két fél-térre bontjuk, az egyikhez tartozás az 1 osztályhoz tartozást jelenti, a másikhoz való az 2 -höz valót.
MI 2003/ Több osztály esete. Itt mind a c osztályhoz definiáltunk egy g i (x) = w i t x + w i0 diszkriminancia függvényt, és azt az osztályt választjuk, amelyikre g i (x) maximális. A teljes teret itt c osztályra bontjuk a g i (x) = g j (x) -ből meghatározható hipersíkokkal.
MI 2003/ A három- illetve öt osztály esete
MI 2003/ Bonyolultabb eset: másod- illetve magasabb fokú diszkriminancia függvények, hasonlóan bonyolultabb határfelületekkel. Vissza a két osztály esetéhez, ott is egy egyszerűbb esethez: a tanítópontok szeparálhatók
MI 2003/ Tegyük fel, hogy egy n elemű mintánk van, y 1, y 2, …, y n, ezek egy része 1 -gyel, másik része 2 -vel van címkézve. Tegyük fel, hogy a diszkriminancia függvényünket homogén alakba írtuk fel, azaz
MI 2003/ Vagyis a g(x) = a t x együtthatóit szeretnénk a mintának megfelelően meghatározni. Két osztály esetében egyszerűsítés: ha a második mintához tartozó pontok negatívját vesszük, akkor valamennyi pontra az a t x > 0 feltételnek kell teljesülnie. Az ennek meg- felelő a vektorokat megoldásvektoroknak (szeparáló vektoroknak) hívjuk.
MI 2003/ Olyan hipersíko(ka)t keresünk, hogy valamennyi mintaelem azonos oldalukon legyen. Általában nem gyertelműen meghatározott - további feltételt tehetünk: - maximalizáljuk a minimális, hipersíktól való távolságot, - legyen a t y i b > 0 minden pontra.
MI 2003/ Gradiens módszer: az a t y i > 0 egyenlőtlenségrendszer megoldásához definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldás. Alapmódszer: legyen a(1) tetszőleges, és legyen a gradiens J(a(1)), akkor: a(k+1) = a(k) - (k) J(a(k)), k = 1, 2,.... Itt pozitív (skálázási faktor vagy tanulási arány - túl kicsi, túl nagy).
MI 2003/ Ha a kritériumfüggvény jól közelíthető a másodrendű sorfejtésével, akkor (k) = J 2 / ( J t H J) jó megoldást ad (H a Hess mátrixot jelenti). Egy ismert módszer: Newton eljárás. Ennél: a(k+1) = a(k) - H -1 J.
MI 2003/ Térjünk vissza a két osztály esetére. Itt egy természetes kritériumfüggvény lehetne a rosszul osztályozott minták száma - ez lépcsős függvény, helyette: J P (a) = y (-a t y), ahol a rosszul osztályozott pontok halmazát jelöli. Ezt nevezik PERCEPTRON kritériumfüggvénynek.
MI 2003/ A rosszul osztályozottakra a t y 0, így J P (a) soha nem negatív (egyébként arányos a rosszul osztályzott elemeknek a hipersíktól vett távolságösszegével). A J P gradiensének j-dik komponense J P / a j, vagyis J P = y (-y), ahonnan a(k+1) = a(k) + (k) y y
MI 2003/ Példa
MI 2003/ Alaptétel. Ha a minta lineárisan szeparálható, akkor a perceptron eljárás megoldásvektorhoz konvergál. Bizonyítást nem adunk (egyszerűsítés: soros eljárás, lépésenkénti alkalmazással). Több általánosítás - ezeket sem nézzük.
MI 2003/ Relaxációs eljárások - további kritériumfüggvények: J q (a) = y (-a t y) 2, ennek vannak rosszabb tulajdonságai is, ezért inkább:
MI 2003/ ahol most az Y halmaz azon pontokat jelöli, amelyekre a t y b teljesül. Ekkor a gradiens és az iteráció:
MI 2003/ Ez is konvergens, ezt sem bizonyítjuk. Nem-szeparálható minták esete: ha a mintaszám kicsi, várhatóan szeparálhatóak (betanítás - tesztelés), amennyiben nagy, majdnem biztosan nem azok. Módosítás: (k)-t változónak (csökkenőnek) választjuk.
MI 2003/ Legkisebb négyzetek módszere (már nem egy elválasztó hipersíkot keresünk, mert ilyen nincs - nemszeparálható esetnél vagyunk). Itt az Ya = b egyenlet megoldását keressük (továbbra is inhomogén koordináták) - általában Y sorainak száma >> oszlopok száma
MI 2003/ Olyan megoldást keresünk, amelyik az e = Ya - b hibát minimálizálja. Megfelelő kritérium: J s (a) = n i=1 (a t y i -b i ) 2 Ennek gradiense: J s = n i=1 2(a t y i -b i ) y i = 2Y t (Ya-b) Megoldás szükséges feltétele: Y t Ya = Y t b - itt jobb az esély.
MI 2003/ Ha Y t Y nemszinguláris, akkor egyértelmű megoldás: a = (Y t Y) -1 Y t b = Y † b ahol Y † = (Y t Y) -1 Y t. Természetesen függ a b választásától! Példa