Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Lineáris regressziós MODELLEK
Adatbányászati alkalmazások Lineáris regressziós MODELLEK
2
Lineáris bázis függvény modellek (1)
Példa: Polinom görbe illesztése
3
Lineáris bázis függvény modellek (2)
Általában ahol Áj(x) elnevezése bázis függvény. Rendszerint, Á0(x) = 1, így w0 a torzítás. A legegyszerűbb esetben lineáris bázis függvényeket használunk : Ád(x) = xd.
4
Lineáris bázis függvény modellek (3)
Polinom bázis függvények: Globális: kis x –beli változás az összes bázis függvényre kihat.
5
Lineáris bázis függvény modellek (4)
Gaussian bázis függvények: Lokális: kis változás x –ben csak a közeli bázis függvények- re hat ki. ¹j és s a helyet és a skálát (szélesség) kontrollálja.
6
Lineáris bázis függvény modellek (5)
Szigmoid bázis függvény: ahol Szintén lokális: kis változás x –ben csak a közeli bázis függvé-nyekre hat ki. ¹j és s a helyet és a skálát (dőlés) kontrollálja.
7
Maximum likelihood és legkisebb négyzetek (1)
Legyenek adottak megfigyelések egy determinisztikus függvény és egy Gauss zaj összegéből: Ez megegyezik azzal, hogy Adott , megfigyelt input és output esetén kapjuk a likelihood fv.-t ahol
8
Maximum likelihood és legkisebb négyzetek (2)
Logaritmust véve kapjuk ahol A négyzetösszeg hiba.
9
Maximum likelihood és legkisebb négyzetek (3)
Deriváltat (gradiens) véve és 0-val egyenlővé téve: Majd w-re megoldva ahol Moore-Penrose pszeudo-inverz,
10
Maximum likelihood és legkisebb négyzetek (4)
Ha magára a w0 torzításra maximalizálunk kapjuk, hogy A ¯ paraméterre is maximalizálhatunk. Kapjuk, hogy
11
A legkisebb négyzetek geometriája
Tekintsük Az S síkot a vektorok feszítik ki. wML azt távolságot minimalizálja, amely t és az S –re való ortogonális vetülete, y között van. N-dimenziós M-dimenziós
12
Szekvenciális tanulás
Az adatrekordokat egyenként is tekinthetjük (online tanulás); alkalmazzunk sztochasztikus (szekvenciális) leszálló gradienst: Ez legkisebb átlagos négyzetek (LMS) algoritmusként ismert. Kérdés: hogyan válasszuk ´ -t?
13
Regularizált legkisebb négyzetek (1)
Tekintsük az alábbi hiba függvényt: Négyzetes hibafüggvénnyel és kvadratikus regulátorral azt kapjuk, hogy amelyet az alábbi minimalizál: Adatok + Regularizáció ¸ regularizációs együttható.
14
Regularizált legkisebb négyzetek (2)
Általánosabb regularizálóval kapjuk, hogy Lasso Kvadratikus
15
Regularizált legkisebb négyzetek (3)
Lasso hajlamos ritkább megoldásokat előállítani mint a kvadratikus regularizáló.
16
Többdimenziós output (1)
Az egydimenziós output mintájára legyen: Adott megfigyelt output és output esetén a log likelihood:
17
Többdimenziós output (2)
Ha maximalizálunk W-re, akkor kapjuk Ha egydimenziós, tk, célváltozót tekintünk, akkor Ahol , ami megegyezik az egydimenziós output esetével.
18
Torzítás-variancia felbontás (1)
Emlékeztetünk a várható négyzetes veszteségre, ahol E[L] második tagja megfelel a t véletlen változóban lévő zajnak (hibának). Mi van az első taggal?
19
Torzítás-variancia felbontás (2)
Tegyük fel, hogy adott több adatállomány, mindegyik mérete N. Minden D esetén legyen adott a y(x;D) függvény. Ekkor kapjuk, hogy
20
Torzítás-variancia felbontás (3)
Átlagot véve D felett kapjuk, hogy
21
Torzítás-variancia felbontás (4)
Így azt írhatjuk ahol
22
Torzítás-variancia felbontás (5)
Példa: 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.
23
Torzítás-variancia felbontás (6)
25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.
24
Torzítás-variancia felbontás (7)
25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.
25
Torzítás-szórás küszöb
Ezekből az ábrákból látható hogy egy túl-regularizált model (nagy ¸) nagy a torzítása, míg egy alul-regularizálté (kis ¸) nagy a varianciája.
26
Bayes-féle lineáris regresszió (1)
Definiáljunk a w paraméterek felett egy konjugált priort Ezt a likelihood függvénnyel kombinálva és használva a marginális és feltételes Gauss eloszlásokra vonatkozó eredményeket kapjuk az a poszteriori eloszlást ahol
27
Bayes-féle lineáris regresszió (2)
28
Bayes-féle lineáris regresszió (3)
0 adatot figyelünk meg Prior Data Space
29
Bayes-féle lineáris regresszió (4)
1 adatot figyelünk meg Likelihood Poszterior Adattér
30
Bayes-féle lineáris regresszió (5)
2 pontot figyelünk meg Likelihood Poszterior Adattér
31
Bayes-féle lineáris regresszió (6)
20 pontot figyelünk meg Likelihood Poszterior Adattér
32
Prediktív (előrejelző) eloszlások (1)
Jelezzük előre t egy új x érték eseténby w felett integrálva: ahol
33
Prediktív (előrejelző) eloszlások (2)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 1 adat pont
34
Prediktív (előrejelző) eloszlások (3)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 2 adat pont
35
Prediktív (előrejelző) eloszlások (4)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 4 adat pont
36
Prediktív (előrejelző) eloszlások (5)
Példa: Szinusz adatok, 9 Gauss bázis függvény, 25 adat pont
37
Ekvivalens kernel (1) Az előrejelzés átlaga úgy írható mint Ez a tn célértékek súlyozott átlaga. Ekvivalens kernel vagy simító mátrix.
38
Ekvivalens kernel (2) A tn célérték súlya függ az x és az xn közötti távolságtól, közeli xn nagyobb súlyt kap.
39
Ekvivalens kernel (3) Nem lokális bázis függvénynek lokális ekvivalens magja van: Polinom Szigmoid
40
Ekvivalens kernel (4) A kernel mint kovariancia függvény: El tudjuk kerülni a bázis függvények használa-tát és közvetlenül definiálhatjuk a kernel függvényt. Ez az út a Gauss folyamatokhoz vezet.
41
Ekvivalens kernel (5) minden x-re azonban az ekvivalens kernel lehet negatív is bizonyos x értékekre. Mint minden kernel függvény az ekvivalens kernel is kifejezhető belső szorzatként: ahol .
42
Bayes-féle modell összehasonlítás (1)
Hogyan válasszuk ki a ‘helyes’ modellt? Tegyük fel, hogy össze akarjuk hasonlítani az Mi, i=1, …,L, modelleket a D adatok alapján: Bayes faktor: két modell evidencia hányadosa Poszterior Prior Modell evidencia vagy marginális likelihood
43
Bayes-féle modell összehasonlítás (2)
Kiszámolva p(MijD)-t meg tudjuk határozni a prediktív (keverék) eloszlást Egy egyszerű megközelítés, modell szelekció-ként ismert, ha a legnagyobb evidenciájú modellt használjuk.
44
Bayes-féle modell összehasonlítás (3)
Egy w paraméterekkel bíró modell esetén a modell evidenciát w feletti marginalizálás adja Megjegyezzük, hogy
45
Bayes-féle modell összehasonlítás (4)
Egy adott egyszerű w para-méterű modellre tekintsük az alábbi approximációt Ahol az a poszterioriról feltesszük, hogy erősen csúcsos.
46
Bayes-féle modell összehasonlítás (5)
Logaritmust véve kapjuk, hogy M paraméterrel mindnél ugyanazt a hányadost feltéve kapjuk Negatív Negatív és lineáris M-ben.
47
Bayes-féle modell összehasonlítás (6)
Az adat és modell komplexitás összeillesztése
48
Evidencia approximáció (1)
A teljes Bayes-féle prediktív eloszlás: De ez az integrál kezelhetetlen. Közelítsünk Ahol módusza a eloszlásnak, amelyről feltételezzük, hogy erősen csúcsos: empirikus Bayes, II. típusú vagy általánosított maximum likelihood, vagy evidencia közelítés.
49
Evidencia approximáció (2)
Bayes tételből kapjuk, hogy És ha feltételezzük, hogy p(®,¯) lapos, láthatjuk, hogy Gauss integrálokra az általános eredmény:
50
Evidencia approximáció (3)
Példa: szinusz adatok, M ed fokú polinom,
51
Az evidencia függvény maximalizálása (1)
Ha maximalizáljuk ® -ra és ¯-ra, akkor az alábbi sajátvektor egyenletet lép fel: Így sajátértékei ¸i + ®.
52
Az evidencia függvény maximalizálása (2)
Ezután már tudjuk differenciálni -t ® -ra és ¯-ra nézve, majd az eredményt 0-val egyenlővé téve ahol N.B. ° egyaránt függ ® -tól és ¯-tól.
53
Paraméterek effektív száma (1)
w1 nem jól meghatározott a likelihood által w2 jól meghatározott a likelihood által ° a jól meghatározott paraméterek száma Likelihood Prior
54
Paraméterek effektív száma (2)
Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.
55
Paraméterek effektív száma (3)
Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1. Test set error
56
Paraméterek effektív száma (4)
Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.
57
Paraméterek effektív száma (5)
Hatátértéket véve , ° = M tekinthetjük az alábbi könnyen számolható approximációt
58
Rögzített bázis függvények korlátai
M bázis függvény a D-dimenziós input tér minden dimenziója mentén MD bázis függvényt igényel: dimenzió probléma. Később módszereket látunk arra, hogy szorítkozhatunk kevesebb bázis függvényre úgy választva közülük, hogy a tanuló adatokat használjuk.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.