Lineáris regressziós MODELLEK Adatbányászati alkalmazások Lineáris regressziós MODELLEK
Lineáris bázis függvény modellek (1) Példa: Polinom görbe illesztése
Lineáris bázis függvény modellek (2) Általában ahol Áj(x) elnevezése bázis függvény. Rendszerint, Á0(x) = 1, így w0 a torzítás. A legegyszerűbb esetben lineáris bázis függvényeket használunk : Ád(x) = xd.
Lineáris bázis függvény modellek (3) Polinom bázis függvények: Globális: kis x –beli változás az összes bázis függvényre kihat.
Lineáris bázis függvény modellek (4) Gaussian bázis függvények: Lokális: kis változás x –ben csak a közeli bázis függvények- re hat ki. ¹j és s a helyet és a skálát (szélesség) kontrollálja.
Lineáris bázis függvény modellek (5) Szigmoid bázis függvény: ahol Szintén lokális: kis változás x –ben csak a közeli bázis függvé-nyekre hat ki. ¹j és s a helyet és a skálát (dőlés) kontrollálja.
Maximum likelihood és legkisebb négyzetek (1) Legyenek adottak megfigyelések egy determinisztikus függvény és egy Gauss zaj összegéből: Ez megegyezik azzal, hogy Adott , megfigyelt input és output esetén kapjuk a likelihood fv.-t ahol
Maximum likelihood és legkisebb négyzetek (2) Logaritmust véve kapjuk ahol A négyzetösszeg hiba.
Maximum likelihood és legkisebb négyzetek (3) Deriváltat (gradiens) véve és 0-val egyenlővé téve: Majd w-re megoldva ahol Moore-Penrose pszeudo-inverz, .
Maximum likelihood és legkisebb négyzetek (4) Ha magára a w0 torzításra maximalizálunk kapjuk, hogy A ¯ paraméterre is maximalizálhatunk. Kapjuk, hogy
A legkisebb négyzetek geometriája Tekintsük Az S síkot a vektorok feszítik ki. wML azt távolságot minimalizálja, amely t és az S –re való ortogonális vetülete, y között van. N-dimenziós M-dimenziós
Szekvenciális tanulás Az adatrekordokat egyenként is tekinthetjük (online tanulás); alkalmazzunk sztochasztikus (szekvenciális) leszálló gradienst: Ez legkisebb átlagos négyzetek (LMS) algoritmusként ismert. Kérdés: hogyan válasszuk ´ -t?
Regularizált legkisebb négyzetek (1) Tekintsük az alábbi hiba függvényt: Négyzetes hibafüggvénnyel és kvadratikus regulátorral azt kapjuk, hogy amelyet az alábbi minimalizál: Adatok + Regularizáció ¸ regularizációs együttható.
Regularizált legkisebb négyzetek (2) Általánosabb regularizálóval kapjuk, hogy Lasso Kvadratikus
Regularizált legkisebb négyzetek (3) Lasso hajlamos ritkább megoldásokat előállítani mint a kvadratikus regularizáló.
Többdimenziós output (1) Az egydimenziós output mintájára legyen: Adott megfigyelt output és output esetén a log likelihood:
Többdimenziós output (2) Ha maximalizálunk W-re, akkor kapjuk Ha egydimenziós, tk, célváltozót tekintünk, akkor Ahol , ami megegyezik az egydimenziós output esetével.
Torzítás-variancia felbontás (1) Emlékeztetünk a várható négyzetes veszteségre, ahol E[L] második tagja megfelel a t véletlen változóban lévő zajnak (hibának). Mi van az első taggal?
Torzítás-variancia felbontás (2) Tegyük fel, hogy adott több adatállomány, mindegyik mérete N. Minden D esetén legyen adott a y(x;D) függvény. Ekkor kapjuk, hogy
Torzítás-variancia felbontás (3) Átlagot véve D felett kapjuk, hogy
Torzítás-variancia felbontás (4) Így azt írhatjuk ahol
Torzítás-variancia felbontás (5) Példa: 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.
Torzítás-variancia felbontás (6) 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.
Torzítás-variancia felbontás (7) 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.
Torzítás-szórás küszöb Ezekből az ábrákból látható hogy egy túl-regularizált model (nagy ¸) nagy a torzítása, míg egy alul-regularizálté (kis ¸) nagy a varianciája.
Bayes-féle lineáris regresszió (1) Definiáljunk a w paraméterek felett egy konjugált priort Ezt a likelihood függvénnyel kombinálva és használva a marginális és feltételes Gauss eloszlásokra vonatkozó eredményeket kapjuk az a poszteriori eloszlást ahol
Bayes-féle lineáris regresszió (2)
Bayes-féle lineáris regresszió (3) 0 adatot figyelünk meg Prior Data Space
Bayes-féle lineáris regresszió (4) 1 adatot figyelünk meg Likelihood Poszterior Adattér
Bayes-féle lineáris regresszió (5) 2 pontot figyelünk meg Likelihood Poszterior Adattér
Bayes-féle lineáris regresszió (6) 20 pontot figyelünk meg Likelihood Poszterior Adattér
Prediktív (előrejelző) eloszlások (1) Jelezzük előre t egy új x érték eseténby w felett integrálva: ahol
Prediktív (előrejelző) eloszlások (2) Példa: Szinusz adatok, 9 Gauss bázis függvény, 1 adat pont
Prediktív (előrejelző) eloszlások (3) Példa: Szinusz adatok, 9 Gauss bázis függvény, 2 adat pont
Prediktív (előrejelző) eloszlások (4) Példa: Szinusz adatok, 9 Gauss bázis függvény, 4 adat pont
Prediktív (előrejelző) eloszlások (5) Példa: Szinusz adatok, 9 Gauss bázis függvény, 25 adat pont
Ekvivalens kernel (1) Az előrejelzés átlaga úgy írható mint Ez a tn célértékek súlyozott átlaga. Ekvivalens kernel vagy simító mátrix.
Ekvivalens kernel (2) A tn célérték súlya függ az x és az xn közötti távolságtól, közeli xn nagyobb súlyt kap.
Ekvivalens kernel (3) Nem lokális bázis függvénynek lokális ekvivalens magja van: Polinom Szigmoid
Ekvivalens kernel (4) A kernel mint kovariancia függvény: El tudjuk kerülni a bázis függvények használa-tát és közvetlenül definiálhatjuk a kernel függvényt. Ez az út a Gauss folyamatokhoz vezet.
Ekvivalens kernel (5) minden x-re azonban az ekvivalens kernel lehet negatív is bizonyos x értékekre. Mint minden kernel függvény az ekvivalens kernel is kifejezhető belső szorzatként: ahol .
Bayes-féle modell összehasonlítás (1) Hogyan válasszuk ki a ‘helyes’ modellt? Tegyük fel, hogy össze akarjuk hasonlítani az Mi, i=1, …,L, modelleket a D adatok alapján: Bayes faktor: két modell evidencia hányadosa Poszterior Prior Modell evidencia vagy marginális likelihood
Bayes-féle modell összehasonlítás (2) Kiszámolva p(MijD)-t meg tudjuk határozni a prediktív (keverék) eloszlást Egy egyszerű megközelítés, modell szelekció-ként ismert, ha a legnagyobb evidenciájú modellt használjuk.
Bayes-féle modell összehasonlítás (3) Egy w paraméterekkel bíró modell esetén a modell evidenciát w feletti marginalizálás adja Megjegyezzük, hogy
Bayes-féle modell összehasonlítás (4) Egy adott egyszerű w para-méterű modellre tekintsük az alábbi approximációt Ahol az a poszterioriról feltesszük, hogy erősen csúcsos.
Bayes-féle modell összehasonlítás (5) Logaritmust véve kapjuk, hogy M paraméterrel mindnél ugyanazt a hányadost feltéve kapjuk Negatív Negatív és lineáris M-ben.
Bayes-féle modell összehasonlítás (6) Az adat és modell komplexitás összeillesztése
Evidencia approximáció (1) A teljes Bayes-féle prediktív eloszlás: De ez az integrál kezelhetetlen. Közelítsünk Ahol módusza a eloszlásnak, amelyről feltételezzük, hogy erősen csúcsos: empirikus Bayes, II. típusú vagy általánosított maximum likelihood, vagy evidencia közelítés.
Evidencia approximáció (2) Bayes tételből kapjuk, hogy És ha feltételezzük, hogy p(®,¯) lapos, láthatjuk, hogy Gauss integrálokra az általános eredmény:
Evidencia approximáció (3) Példa: szinusz adatok, M ed fokú polinom,
Az evidencia függvény maximalizálása (1) Ha maximalizáljuk ® -ra és ¯-ra, akkor az alábbi sajátvektor egyenletet lép fel: Így sajátértékei ¸i + ®.
Az evidencia függvény maximalizálása (2) Ezután már tudjuk differenciálni -t ® -ra és ¯-ra nézve, majd az eredményt 0-val egyenlővé téve ahol N.B. ° egyaránt függ ® -tól és ¯-tól.
Paraméterek effektív száma (1) w1 nem jól meghatározott a likelihood által w2 jól meghatározott a likelihood által ° a jól meghatározott paraméterek száma Likelihood Prior
Paraméterek effektív száma (2) Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.
Paraméterek effektív száma (3) Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1. Test set error
Paraméterek effektív száma (4) Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.
Paraméterek effektív száma (5) Hatátértéket véve , ° = M tekinthetjük az alábbi könnyen számolható approximációt
Rögzített bázis függvények korlátai M bázis függvény a D-dimenziós input tér minden dimenziója mentén MD bázis függvényt igényel: dimenzió probléma. Később módszereket látunk arra, hogy szorítkozhatunk kevesebb bázis függvényre úgy választva közülük, hogy a tanuló adatokat használjuk.