Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Lineáris regressziós MODELLEK

Hasonló előadás


Az előadások a következő témára: "Lineáris regressziós MODELLEK"— Előadás másolata:

1 Lineáris regressziós MODELLEK
Adatbányászati alkalmazások Lineáris regressziós MODELLEK

2 Lineáris bázis függvény modellek (1)
Példa: Polinom görbe illesztése

3 Lineáris bázis függvény modellek (2)
Általában ahol Áj(x) elnevezése bázis függvény. Rendszerint, Á0(x) = 1, így w0 a torzítás. A legegyszerűbb esetben lineáris bázis függvényeket használunk : Ád(x) = xd.

4 Lineáris bázis függvény modellek (3)
Polinom bázis függvények: Globális: kis x –beli változás az összes bázis függvényre kihat.

5 Lineáris bázis függvény modellek (4)
Gaussian bázis függvények: Lokális: kis változás x –ben csak a közeli bázis függvények- re hat ki. ¹j és s a helyet és a skálát (szélesség) kontrollálja.

6 Lineáris bázis függvény modellek (5)
Szigmoid bázis függvény: ahol Szintén lokális: kis változás x –ben csak a közeli bázis függvé-nyekre hat ki. ¹j és s a helyet és a skálát (dőlés) kontrollálja.

7 Maximum likelihood és legkisebb négyzetek (1)
Legyenek adottak megfigyelések egy determinisztikus függvény és egy Gauss zaj összegéből: Ez megegyezik azzal, hogy Adott , megfigyelt input és output esetén kapjuk a likelihood fv.-t ahol

8 Maximum likelihood és legkisebb négyzetek (2)
Logaritmust véve kapjuk ahol A négyzetösszeg hiba.

9 Maximum likelihood és legkisebb négyzetek (3)
Deriváltat (gradiens) véve és 0-val egyenlővé téve: Majd w-re megoldva ahol Moore-Penrose pszeudo-inverz,

10 Maximum likelihood és legkisebb négyzetek (4)
Ha magára a w0 torzításra maximalizálunk kapjuk, hogy A ¯ paraméterre is maximalizálhatunk. Kapjuk, hogy

11 A legkisebb négyzetek geometriája
Tekintsük Az S síkot a vektorok feszítik ki. wML azt távolságot minimalizálja, amely t és az S –re való ortogonális vetülete, y között van. N-dimenziós M-dimenziós

12 Szekvenciális tanulás
Az adatrekordokat egyenként is tekinthetjük (online tanulás); alkalmazzunk sztochasztikus (szekvenciális) leszálló gradienst: Ez legkisebb átlagos négyzetek (LMS) algoritmusként ismert. Kérdés: hogyan válasszuk ´ -t?

13 Regularizált legkisebb négyzetek (1)
Tekintsük az alábbi hiba függvényt: Négyzetes hibafüggvénnyel és kvadratikus regulátorral azt kapjuk, hogy amelyet az alábbi minimalizál: Adatok + Regularizáció ¸ regularizációs együttható.

14 Regularizált legkisebb négyzetek (2)
Általánosabb regularizálóval kapjuk, hogy Lasso Kvadratikus

15 Regularizált legkisebb négyzetek (3)
Lasso hajlamos ritkább megoldásokat előállítani mint a kvadratikus regularizáló.

16 Többdimenziós output (1)
Az egydimenziós output mintájára legyen: Adott megfigyelt output és output esetén a log likelihood:

17 Többdimenziós output (2)
Ha maximalizálunk W-re, akkor kapjuk Ha egydimenziós, tk, célváltozót tekintünk, akkor Ahol , ami megegyezik az egydimenziós output esetével.

18 Torzítás-variancia felbontás (1)
Emlékeztetünk a várható négyzetes veszteségre, ahol E[L] második tagja megfelel a t véletlen változóban lévő zajnak (hibának). Mi van az első taggal?

19 Torzítás-variancia felbontás (2)
Tegyük fel, hogy adott több adatállomány, mindegyik mérete N. Minden D esetén legyen adott a y(x;D) függvény. Ekkor kapjuk, hogy

20 Torzítás-variancia felbontás (3)
Átlagot véve D felett kapjuk, hogy

21 Torzítás-variancia felbontás (4)
Így azt írhatjuk ahol

22 Torzítás-variancia felbontás (5)
Példa: 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.

23 Torzítás-variancia felbontás (6)
25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.

24 Torzítás-variancia felbontás (7)
25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.

25 Torzítás-szórás küszöb
Ezekből az ábrákból látható hogy egy túl-regularizált model (nagy ¸) nagy a torzítása, míg egy alul-regularizálté (kis ¸) nagy a varianciája.

26 Bayes-féle lineáris regresszió (1)
Definiáljunk a w paraméterek felett egy konjugált priort Ezt a likelihood függvénnyel kombinálva és használva a marginális és feltételes Gauss eloszlásokra vonatkozó eredményeket kapjuk az a poszteriori eloszlást ahol

27 Bayes-féle lineáris regresszió (2)

28 Bayes-féle lineáris regresszió (3)
0 adatot figyelünk meg Prior Data Space

29 Bayes-féle lineáris regresszió (4)
1 adatot figyelünk meg Likelihood Poszterior Adattér

30 Bayes-féle lineáris regresszió (5)
2 pontot figyelünk meg Likelihood Poszterior Adattér

31 Bayes-féle lineáris regresszió (6)
20 pontot figyelünk meg Likelihood Poszterior Adattér

32 Prediktív (előrejelző) eloszlások (1)
Jelezzük előre t egy új x érték eseténby w felett integrálva: ahol

33 Prediktív (előrejelző) eloszlások (2)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 1 adat pont

34 Prediktív (előrejelző) eloszlások (3)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 2 adat pont

35 Prediktív (előrejelző) eloszlások (4)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 4 adat pont

36 Prediktív (előrejelző) eloszlások (5)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 25 adat pont

37 Ekvivalens kernel (1) Az előrejelzés átlaga úgy írható mint Ez a tn célértékek súlyozott átlaga. Ekvivalens kernel vagy simító mátrix.

38 Ekvivalens kernel (2) A tn célérték súlya függ az x és az xn közötti távolságtól, közeli xn nagyobb súlyt kap.

39 Ekvivalens kernel (3) Nem lokális bázis függvénynek lokális ekvivalens magja van: Polinom Szigmoid

40 Ekvivalens kernel (4) A kernel mint kovariancia függvény: El tudjuk kerülni a bázis függvények használa-tát és közvetlenül definiálhatjuk a kernel függvényt. Ez az út a Gauss folyamatokhoz vezet.

41 Ekvivalens kernel (5) minden x-re azonban az ekvivalens kernel lehet negatív is bizonyos x értékekre. Mint minden kernel függvény az ekvivalens kernel is kifejezhető belső szorzatként: ahol .

42 Bayes-féle modell összehasonlítás (1)
Hogyan válasszuk ki a ‘helyes’ modellt? Tegyük fel, hogy össze akarjuk hasonlítani az Mi, i=1, …,L, modelleket a D adatok alapján: Bayes faktor: két modell evidencia hányadosa Poszterior Prior Modell evidencia vagy marginális likelihood

43 Bayes-féle modell összehasonlítás (2)
Kiszámolva p(MijD)-t meg tudjuk határozni a prediktív (keverék) eloszlást Egy egyszerű megközelítés, modell szelekció-ként ismert, ha a legnagyobb evidenciájú modellt használjuk.

44 Bayes-féle modell összehasonlítás (3)
Egy w paraméterekkel bíró modell esetén a modell evidenciát w feletti marginalizálás adja Megjegyezzük, hogy

45 Bayes-féle modell összehasonlítás (4)
Egy adott egyszerű w para-méterű modellre tekintsük az alábbi approximációt Ahol az a poszterioriról feltesszük, hogy erősen csúcsos.

46 Bayes-féle modell összehasonlítás (5)
Logaritmust véve kapjuk, hogy M paraméterrel mindnél ugyanazt a hányadost feltéve kapjuk Negatív Negatív és lineáris M-ben.

47 Bayes-féle modell összehasonlítás (6)
Az adat és modell komplexitás összeillesztése

48 Evidencia approximáció (1)
A teljes Bayes-féle prediktív eloszlás: De ez az integrál kezelhetetlen. Közelítsünk Ahol módusza a eloszlásnak, amelyről feltételezzük, hogy erősen csúcsos: empirikus Bayes, II. típusú vagy általánosított maximum likelihood, vagy evidencia közelítés.

49 Evidencia approximáció (2)
Bayes tételből kapjuk, hogy És ha feltételezzük, hogy p(®,¯) lapos, láthatjuk, hogy Gauss integrálokra az általános eredmény:

50 Evidencia approximáció (3)
Példa: szinusz adatok, M ed fokú polinom,

51 Az evidencia függvény maximalizálása (1)
Ha maximalizáljuk ® -ra és ¯-ra, akkor az alábbi sajátvektor egyenletet lép fel: Így sajátértékei ¸i + ®.

52 Az evidencia függvény maximalizálása (2)
Ezután már tudjuk differenciálni -t ® -ra és ¯-ra nézve, majd az eredményt 0-val egyenlővé téve ahol N.B. ° egyaránt függ ® -tól és ¯-tól.

53 Paraméterek effektív száma (1)
w1 nem jól meghatározott a likelihood által w2 jól meghatározott a likelihood által ° a jól meghatározott paraméterek száma Likelihood Prior

54 Paraméterek effektív száma (2)
Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.

55 Paraméterek effektív száma (3)
Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1. Test set error

56 Paraméterek effektív száma (4)
Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.

57 Paraméterek effektív száma (5)
Hatátértéket véve , ° = M tekinthetjük az alábbi könnyen számolható approximációt

58 Rögzített bázis függvények korlátai
M bázis függvény a D-dimenziós input tér minden dimenziója mentén MD bázis függvényt igényel: dimenzió probléma. Később módszereket látunk arra, hogy szorítkozhatunk kevesebb bázis függvényre úgy választva közülük, hogy a tanuló adatokat használjuk.


Letölteni ppt "Lineáris regressziós MODELLEK"

Hasonló előadás


Google Hirdetések