Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

MI 2003/10 - 1 A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:

Hasonló előadás


Az előadások a következő témára: "MI 2003/10 - 1 A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:"— Előadás másolata:

1 MI 2003/10 - 1 A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb: lineáris függvények: g(x) = w t x + w 0

2 MI 2003/10 - 2 Két osztály esete: az előző lineáris diszkriminancia függvény segítségével dönthetünk - az első osztályt választjuk (  1 ), ha g(x) > 0, különben a másodikat. A g(x) = 0 egy felületet definiál (döntési felület), ami itt egy hipersík. Két, a hipersíkon levő x 1 illetve x 2 pontra:

3 MI 2003/10 - 3 w t x 1 + w 0 = w t x 2 + w 0 vagyis w t (x 1 - x 2 ) = 0, tehát w merőleges a hipersíkban levő vektorokra. Itt valójában a teret ezzel a hipersíkkal két fél-térre bontjuk, az egyikhez tartozás az  1 osztályhoz tartozást jelenti, a másikhoz való az  2 -höz valót.

4 MI 2003/10 - 4 Több osztály esete. Itt mind a c osztályhoz definiáltunk egy g i (x) = w i t x + w i0 diszkriminancia függvényt, és azt az osztályt választjuk, amelyikre g i (x) maximális. A teljes teret itt c osztályra bontjuk a g i (x) = g j (x) -ből meghatározható hipersíkokkal.

5 MI 2003/10 - 5 A három- illetve öt osztály esete

6 MI 2003/10 - 6 Bonyolultabb eset: másod- illetve magasabb fokú diszkriminancia függvények, hasonlóan bonyolultabb határfelületekkel. Vissza a két osztály esetéhez, ott is egy egyszerűbb esethez: a tanítópontok szeparálhatók

7 MI 2003/10 - 7 Tegyük fel, hogy egy n elemű mintánk van, y 1, y 2, …, y n, ezek egy része  1 -gyel, másik része  2 -vel van címkézve. Tegyük fel, hogy a diszkriminancia függvényünket homogén alakba írtuk fel, azaz

8 MI 2003/10 - 8 Vagyis a g(x) = a t x együtthatóit szeretnénk a mintának megfelelően meghatározni. Két osztály esetében egyszerűsítés: ha a második mintához tartozó pontok negatívját vesszük, akkor valamennyi pontra az a t x > 0 feltételnek kell teljesülnie. Az ennek meg- felelő a vektorokat megoldásvektoroknak (szeparáló vektoroknak) hívjuk.

9 MI 2003/10 - 9 Olyan hipersíko(ka)t keresünk, hogy valamennyi mintaelem azonos oldalukon legyen. Általában nem gyertelműen meghatározott - további feltételt tehetünk: - maximalizáljuk a minimális, hipersíktól való távolságot, - legyen a t y i  b > 0 minden pontra.

10 MI 2003/10 - 10 Gradiens módszer: az a t y i > 0 egyenlőtlenségrendszer megoldásához definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldás. Alapmódszer: legyen a(1) tetszőleges, és legyen a gradiens  J(a(1)), akkor: a(k+1) = a(k) -  (k)  J(a(k)), k = 1, 2,.... Itt  pozitív (skálázási faktor vagy tanulási arány - túl kicsi, túl nagy).

11 MI 2003/10 - 11 Ha a kritériumfüggvény jól közelíthető a másodrendű sorfejtésével, akkor  (k) =  J  2 / (  J t H  J) jó megoldást ad (H a Hess mátrixot jelenti). Egy ismert módszer: Newton eljárás. Ennél: a(k+1) = a(k) - H -1  J.

12 MI 2003/10 - 12 Térjünk vissza a két osztály esetére. Itt egy természetes kritériumfüggvény lehetne a rosszul osztályozott minták száma - ez lépcsős függvény, helyette: J P (a) =  y  (-a t y), ahol  a rosszul osztályozott pontok halmazát jelöli. Ezt nevezik PERCEPTRON kritériumfüggvénynek.

13 MI 2003/10 - 13 A rosszul osztályozottakra a t y  0, így J P (a) soha nem negatív (egyébként arányos a rosszul osztályzott elemeknek a hipersíktól vett távolságösszegével). A J P gradiensének j-dik komponense  J P /  a j, vagyis  J P =  y  (-y), ahonnan a(k+1) = a(k) +  (k)  y  y

14 MI 2003/10 - 14 Példa

15 MI 2003/10 - 15 Alaptétel. Ha a minta lineárisan szeparálható, akkor a perceptron eljárás megoldásvektorhoz konvergál. Bizonyítást nem adunk (egyszerűsítés: soros eljárás, lépésenkénti alkalmazással). Több általánosítás - ezeket sem nézzük.

16 MI 2003/10 - 16 Relaxációs eljárások - további kritériumfüggvények: J q (a) =  y  (-a t y) 2, ennek vannak rosszabb tulajdonságai is, ezért inkább:

17 MI 2003/10 - 17 ahol most az Y halmaz azon pontokat jelöli, amelyekre a t y  b teljesül. Ekkor a gradiens és az iteráció:

18 MI 2003/10 - 18 Ez is konvergens, ezt sem bizonyítjuk. Nem-szeparálható minták esete: ha a mintaszám kicsi, várhatóan szeparálhatóak (betanítás - tesztelés), amennyiben nagy, majdnem biztosan nem azok. Módosítás:  (k)-t változónak (csökkenőnek) választjuk.

19 MI 2003/10 - 19 Legkisebb négyzetek módszere (már nem egy elválasztó hipersíkot keresünk, mert ilyen nincs - nemszeparálható esetnél vagyunk). Itt az Ya = b egyenlet megoldását keressük (továbbra is inhomogén koordináták) - általában Y sorainak száma >> oszlopok száma

20 MI 2003/10 - 20 Olyan megoldást keresünk, amelyik az e = Ya - b hibát minimálizálja. Megfelelő kritérium: J s (a) =  n i=1 (a t y i -b i ) 2 Ennek gradiense:  J s =  n i=1 2(a t y i -b i ) y i = 2Y t (Ya-b) Megoldás szükséges feltétele: Y t Ya = Y t b - itt jobb az esély.

21 MI 2003/10 - 21 Ha Y t Y nemszinguláris, akkor egyértelmű megoldás: a = (Y t Y) -1 Y t b = Y † b ahol Y † = (Y t Y) -1 Y t. Természetesen függ a b választásától! Példa


Letölteni ppt "MI 2003/10 - 1 A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:"

Hasonló előadás


Google Hirdetések