Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbányászati alkalmazások LINEÁRIS REGRESSZIÓS MODELLEK.

Hasonló előadás


Az előadások a következő témára: "Adatbányászati alkalmazások LINEÁRIS REGRESSZIÓS MODELLEK."— Előadás másolata:

1 Adatbányászati alkalmazások LINEÁRIS REGRESSZIÓS MODELLEK

2 Lineáris bázis függvény modellek (1) Példa: Polinom görbe illesztése

3 Lineáris bázis függvény modellek (2) Általában ahol Á j (x) elnevezése bázis függvény. Rendszerint, Á 0 (x) = 1, így w 0 a torzítás. A legegyszerűbb esetben lineáris bázis függvényeket használunk : Á d (x) = x d.

4 Lineáris bázis függvény modellek (3) Polinom bázis függvények: Globális: kis x –beli változás az összes bázis függvényre kihat.

5 Lineáris bázis függvény modellek (4) Gaussian bázis függvények: Lokális: kis változás x –ben csak a közeli bázis függvények- re hat ki. ¹ j és s a helyet és a skálát (szélesség) kontrollálja.

6 Lineáris bázis függvény modellek (5) Szigmoid bázis függvény: ahol Szintén lokális: kis változás x – ben csak a közeli bázis függvé- nyekre hat ki. ¹ j és s a helyet és a skálát (dőlés) kontrollálja.

7 Maximum likelihood és legkisebb négyzetek (1) Legyenek adottak megfigyelések egy determinisztikus függvény és egy Gauss zaj összegéből: Ez megegyezik azzal, hogy Adott, megfigyelt input és output esetén kapjuk a likelihood fv.-t ahol

8 Maximum likelihood és legkisebb négyzetek (2) Logaritmust véve kapjuk ahol A négyzetösszeg hiba.

9 Deriváltat (gradiens) véve és 0-val egyenlővé téve: Majd w -re megoldva ahol Maximum likelihood és legkisebb négyzetek (3) Moore-Penrose pszeudo-inverz,.

10 Maximum likelihood és legkisebb négyzetek (4) Ha magára a w 0 torzításra maximalizálunk kapjuk, hogy A ¯ paraméterre is maximalizálhatunk. Kapjuk, hogy

11 A legkisebb négyzetek geometriája Tekintsük Az S síkot a vektorok feszítik ki. w ML azt távolságot minimalizálja, amely t és az S –re való ortogonális vetülete, y között van. N -dimenziós M -dimenziós

12 Szekvenciális tanulás Az adatrekordokat egyenként is tekinthetjük (online tanulás); alkalmazzunk sztochasztikus (szekvenciális) leszálló gradienst: Ez legkisebb átlagos négyzetek (LMS) algoritmusként ismert. Kérdés: hogyan válasszuk ´ -t?

13 Regularizált legkisebb négyzetek (1) Tekintsük az alábbi hiba függvényt: Négyzetes hibafüggvénnyel és kvadratikus regulátorral azt kapjuk, hogy amelyet az alábbi minimalizál: Adatok + Regularizáció ¸ regularizációs együttható.

14 Regularizált legkisebb négyzetek (2) Általánosabb regularizálóval kapjuk, hogy LassoKvadratikus

15 Regularizált legkisebb négyzetek (3) Lasso hajlamos ritkább megoldásokat előállítani mint a kvadratikus regularizáló.

16 Többdimenziós output (1) Az egydimenziós output mintájára legyen: Adott megfigyelt output és output esetén a log likelihood:

17 Többdimenziós output (2) Ha maximalizálunk W -re, akkor kapjuk Ha egydimenziós, t k, célváltozót tekintünk, akkor Ahol, ami megegyezik az egydimenziós output esetével.

18 Torzítás-variancia felbontás (1) Emlékeztetünk a várható négyzetes veszteségre, ahol E [L] második tagja megfelel a t véletlen változóban lévő zajnak (hibának). Mi van az első taggal?

19 Torzítás-variancia felbontás (2) Tegyük fel, hogy adott több adatállomány, mindegyik mérete N. Minden D esetén legyen adott a y(x; D ) függvény. Ekkor kapjuk, hogy

20 Torzítás-variancia felbontás (3) Átlagot véve D felett kapjuk, hogy

21 Torzítás-variancia felbontás (4) Így azt írhatjuk ahol

22 Torzítás-variancia felbontás (5) Példa: 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.

23 Torzítás-variancia felbontás (6) 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.

24 Torzítás-variancia felbontás (7) 25 adatállomány egy szinusz görbéből, eltérő ¸ regularizációs együtthatóval.

25 Torzítás-szórás küszöb Ezekből az ábrákból látható hogy egy túl-regularizált model (nagy ¸ ) nagy a torzítása, míg egy alul- regularizálté (kis ¸ ) nagy a varianciája.

26 Bayes-féle lineáris regresszió (1) Definiáljunk a w paraméterek felett egy konjugált priort Ezt a likelihood függvénnyel kombinálva és használva a marginális és feltételes Gauss eloszlásokra vonatkozó eredményeket kapjuk az a poszteriori eloszlást ahol

27 Bayes-féle lineáris regresszió (2)

28 Bayes-féle lineáris regresszió (3) 0 adatot figyelünk meg Prior Data Space

29 Bayes-féle lineáris regresszió (4) 1 adatot figyelünk meg LikelihoodPoszterior Adattér

30 Bayes-féle lineáris regresszió (5) 2 pontot figyelünk meg LikelihoodPoszterior Adattér

31 Bayes-féle lineáris regresszió (6) 20 pontot figyelünk meg LikelihoodPoszterior Adattér

32 Prediktív (előrejelző) eloszlások (1) Jelezzük előre t egy új x érték eseténby w felett integrálva: ahol

33 Prediktív (előrejelző) eloszlások (2) Példa: Szinusz adatok, 9 Gauss bázis függvény, 1 adat pont

34 Prediktív (előrejelző) eloszlások (3) Példa: Szinusz adatok, 9 Gauss bázis függvény, 2 adat pont

35 Prediktív (előrejelző) eloszlások (4) Példa: Szinusz adatok, 9 Gauss bázis függvény, 4 adat pont

36 Prediktív (előrejelző) eloszlások (5) Példa: Szinusz adatok, 9 Gauss bázis függvény, 25 adat pont

37 Ekvivalens kernel (1) Az előrejelzés átlaga úgy írható mint Ez a t n célértékek súlyozott átlaga. Ekvivalens kernel vagy simító mátrix.

38 Ekvivalens kernel (2) A t n célérték súlya függ az x és az x n közötti távolságtól, közeli x n nagyobb súlyt kap.

39 Ekvivalens kernel (3) Nem lokális bázis függvénynek lokális ekvivalens magja van: PolinomSzigmoid

40 Ekvivalens kernel (4) A kernel mint kovariancia függvény: El tudjuk kerülni a bázis függvények használa- tát és közvetlenül definiálhatjuk a kernel függvényt. Ez az út a Gauss folyamatokhoz vezet.

41 Ekvivalens kernel (5) minden x- re azonban az ekvivalens kernel lehet negatív is bizonyos x értékekre. Mint minden kernel függvény az ekvivalens kernel is kifejezhető belső szorzatként: ahol.

42 Bayes-féle modell összehasonlítás (1) Hogyan válasszuk ki a ‘helyes’ modellt? Tegyük fel, hogy össze akarjuk hasonlítani az M i, i=1, …,L, modelleket a D adatok alapján: Bayes faktor: két modell evidencia hányadosa PoszteriorPrior Modell evidencia vagy marginális likelihood

43 Bayes-féle modell összehasonlítás (2) Kiszámolva p( M i jD ) -t meg tudjuk határozni a prediktív (keverék) eloszlást Egy egyszerű megközelítés, modell szelekció- ként ismert, ha a legnagyobb evidenciájú modellt használjuk.

44 Bayes-féle modell összehasonlítás (3) Egy w paraméterekkel bíró modell esetén a modell evidenciát w feletti marginalizálás adja Megjegyezzük, hogy

45 Bayes-féle modell összehasonlítás (4) Egy adott egyszerű w para- méterű modellre tekintsük az alábbi approximációt Ahol az a poszterioriról feltesszük, hogy erősen csúcsos.

46 Bayes-féle modell összehasonlítás (5) Logaritmust véve kapjuk, hogy M paraméterrel mindnél ugyanazt a hányadost feltéve kapjuk Negatív Negatív és lineáris M -ben.

47 Bayes-féle modell összehasonlítás (6) Az adat és modell komplexitás összeillesztése

48 Evidencia approximáció (1) A teljes Bayes-féle prediktív eloszlás: De ez az integrál kezelhetetlen. Közelítsünk Ahol módusza a eloszlásnak, amelyről feltételezzük, hogy erősen csúcsos: empirikus Bayes, II. típusú vagy általánosított maximum likelihood, vagy evidencia közelítés.

49 Evidencia approximáció (2) Bayes tételből kapjuk, hogy És ha feltételezzük, hogy p(®,¯) lapos, láthatjuk, hogy Gauss integrálokra az általános eredmény:

50 Evidencia approximáció (3) Példa: szinusz adatok, M ed fokú polinom,

51 Az evidencia függvény maximalizálása (1) Ha maximalizáljuk ® -ra és ¯ -ra, akkor az alábbi sajátvektor egyenletet lép fel: Így sajátértékei ¸ i + ®.

52 Az evidencia függvény maximalizálása (2) Ezután már tudjuk differenciálni -t ® -ra és ¯ -ra nézve, majd az eredményt 0-val egyenlővé téve ahol N.B. ° egyaránt függ ® -tól és ¯ -tól.

53 Paraméterek effektív száma (1) Likelihood Prior w 1 nem jól meghatározott a likelihood által w 2 jól meghatározott a likelihood által ° a jól meghatározott paraméterek száma

54 Paraméterek effektív száma (2) Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.

55 Paraméterek effektív száma (3) Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = Test set error

56 Paraméterek effektív száma (4) Példa: szinusz adatok, 9 Gauss bázis függvény, ¯ = 11.1.

57 Paraméterek effektív száma (5) Hatátértéket véve, ° = M tekinthetjük az alábbi könnyen számolható approximációt

58 Rögzített bázis függvények korlátai • M bázis függvény a D -dimenziós input tér minden dimenziója mentén M D bázis függvényt igényel: dimenzió probléma. • Később módszereket látunk arra, hogy szorítkozhatunk kevesebb bázis függvényre úgy választva közülük, hogy a tanuló adatokat használjuk.


Letölteni ppt "Adatbányászati alkalmazások LINEÁRIS REGRESSZIÓS MODELLEK."

Hasonló előadás


Google Hirdetések