Lineáris és nemlineáris regressziók, logisztikus regresszió

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Lineáris regressziós MODELLEK
Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.
Statisztika II. I. Dr. Szalka Éva, Ph.D..
Kvantitatív Módszerek
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Híranyagok tömörítése
Érzékenységvizsgálat
Regresszió számítás Mérnöki létesítmények ellenőrzése, terveknek megfelelése Geodéziai mérések – pontok helyzete, pontszerű információ Lineáris regresszió.
Csoportosítás megadása: Δx – csoport szélesség
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Általános lineáris modellek
Összefüggés vizsgálatok
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Differenciál számítás
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Matematika III. előadások MINB083, MILB083 Gépész és Villamosmérnök szak BSc képzés 2007/2008. őszi félév.
Mérnöki Fizika II előadás
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Készítette: Kosztyán Zsolt Tibor
Kvantitatív módszerek
Az Alakfelismerés és gépi tanulás ELEMEI
Egytényezős variancia-analízis
Gyengén nemlineáris rendszerek modellezése és mérése Készítette: Kis Gergely Konzulens: Dobrowieczki Tadeusz (MIT)
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
KÖRNYEZETI RENDSZEREK MODELLEZÉSE
Érzékenységvizsgálat
Méréstechnika.
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Lineáris regresszió.
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
A függvény deriváltja Digitális tananyag.
Határozatlan integrál
Adatelemzés számítógéppel

Petrovics Petra Doktorandusz
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Megerősítéses tanulás 8. előadás
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Technológiai folyamatok optimalizálása Ráduly Botond Mészáros Sándor MATLAB ® - Optimization Toolbox.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Korreláció, regresszió
Lineáris regressziós modellek
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
Valószínűségi változók együttes eloszlása
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Lineáris és nemlineáris regressziók, logisztikus regresszió

Regressziók, általános modell Input vektor: Output: Y (valós) Y-t jósoljuk egy f(X) függvény segítségével úgy, hogy a várható hiba minimális legyen. Négyzetes hiba: Minkowsky hiba: a kitevőben 2 helyett p

Lineáris egyváltozós regr.

Egy y^ = 0^+1^x egyenest keresünk Az input/output adatok nem feltétlenül esnek az egyenesre, a hiba ei yi = 0^ + 1^xi + ei A hibák négyzetösszegét akarjuk minimalizálni. ei véletlen zaj minimalizálnunk kell: Ez egy kvadratikus függvény, pontosan ott lesz minimális, ahol a 0 ittelve a 1 szerinti deriváltak nullák. Deriválás: táblán, órán. Eredmény:

Ha az ei hibák függetlenek és azonos szórású normál eloszlású val Ha az ei hibák függetlenek és azonos szórású normál eloszlású val. változók 0 várható értékkel, akkor az előbbi eredmény a legkisebb hibát adja, és Függ a tértranszformációktól. Másik verzió (egyenestől vett távolság): Mennyire jogos lineáris kapcsolat keresése x és z között? --> Korreláció számítás: megmutatja, hogy x és y változók mennyire függnek lineárisan. -1<=r<=1 A korrelációs együttható értékeinek jelentése: +1: azonosság 0: korrelálatlanság, nincs lineáris kapcsolat -1: pont ellenkező összefüggés van

Az r2 érték megmutatja a lineáris kapcsolat mértékét. Igaz továbbá a következő (biz. Hf.): Linearizálás módszere nem lineáris függés esetén segíthet: Az y = 0 +1x helyett az y’ = 0 +1x kapcsolatot keressük, ahol y’ = ln y. (Vagy, a logaritmikus skálára áttérést az x változóban is megtehetjük, feladat függő...)

Linearizálás, pl. Principal Component Regression Polinomial Regression

Többváltozós regresszió Az adatokat egy hipersíkkal közelítjük: A célfüggvény megegyezik: az ún. mean-squared error (MSE), amit minimalizálunk (LS, Least Squares, legkisebb négyzetek módszere, residual sum of squares (RSS): Egy kvadratikus szorzat deriváltja (biz.: Sz. F.):

Így: Ennek kell zérónak lennie: Tehát, ha XTX nem szinguláris: Ha szinguláris, akkor a mo. nem egyértelmű, de vannak eljárások...

Dimenziócsökkentő eljárások regresszióhoz (shrinking) Túl sok változós regresszió nem stabil kevés adat esetén Nem tudjuk, mely változók a fontosak. 2 heurisztikus algoritmust említünk meg: Ridge Regression Minimalizáljuk a négyzetes hibát a köv. feltétel mellett: The Lasso

Logisztikus regresszió Input lehet: valós érték, és kategória típus is. Output: valószínűség-érték becslés, (0,1) intervallumban mozog. A (0,1) intervallumra leképező fgv.: ahol z egy síktól vett távolságot definiál általában: teljesen ekvivalens a modell egy egyszerű perceptronnal, lásd később, a klasszifikációnál. Ez egy átvezetés is egyben az osztályozási feladatokhoz, amik sok esetben tulajdonképpen regressziós modellek, amikhez döntési szabályt veszünk hozzá.

További témák Függvény interpoláció Polinomokkal, stb. harmonikus approximáció, Fourier transzformáció, függvénysorok, …

Osztályozási és rangsorolási problémák Egyosztályos, kétosztályos, sokosztályos problémák.

Rangsorolási probléma 1. verzió Input: adott objektumok egy halmaza, és adott egy teszt „query” objektum Output: az előbbi objektumoknak egy rendezett listája, melynél a rendezés alapja, hogy mennyire hasonlítanak a „query”-re. Output még: a pontok (scores), amik a hasonlóságot mérik 2. Verzió Input, tanulóhalaz (train): adott egy tanító halmaz, ami kétféle jellemzővektorokból áll: pozitív és negatív (jellemzi az objektumot, ill., nem jellemzi azt). Output egy teszt halmazra: pontok (scores), amik megadják, hogy az adott tesztvektor mennyire jellemzi az objektumot, ill., mennyire tartozik a pozitív objektumok közé.

1. Verzió, példa: már volt a blast és fasta kapcsán, bioinformatikai felhasználás. Másik példa: weboldalak rangsorolása, pl. google. 2. Verzió: bináris, vagy egyosztályos klasszifikáció (osztályozás) alkalmazása rangsoroláshoz. Pl. indexelési feladatok. Pl. beszédfelismerés: rendezzük sorba (és indexáljuk) a hanganyagokat aszerint, hogy bennük a „bomba” szó milyen valószínűséggel hangzott el. Itt a beszédjelre bárhova illesztett „bomba” modellje alapján rangsorolhatjuk a bemondásokat, és kereshetjük meg azokban a lehetséges előfordulásokat.

Bináris és egyosztályos osztályozás Nagyon rokon terület a regresszióval. Emlékeztetőül, a regressziónál az általános feladat: Input vektor: Output: Y (valós) Y-t jósoljuk egy f(X) függvény segítségével úgy, hogy a várható hiba minimális legyen. Négyzetes hiba: A különbség: Y most {1,0} bináris értékű (1: az osztályhoz tartozik, 0: nem tartozik az osztályhoz) Másik különbség lehet: a hibafüggvény, amit minimalizálni szeretnénk. Neuronhálóknál marad a Least Squares Error (legkisebb nényzetes hiba) MCE (Minimum Classification Error): itt a tévesztések számát minimalizáljuk.

Bináris és egyosztályos osztályozás Bináris (diszkriminatív): a tanító halmaz tartalmaz egyaránt pozitív és negatív példákat is, amelyeket tanítás során felhasználunk. Pl. neuronháló, döntési fa, support vector machine, vector quantisation, ... Egyosztályos: tanítás során csak a pozitív (az osztályhoz tartozó) adatokat használjuk. One-Class Classification, Data Description, Outlier Detection,... „generatív” modellek: a tanító adatok statisztikai sűrűségét modellezik. (GMM (volt), más Mixture Model-ek, Parzen-becslő) „diszkriminatív” modellek: kb. „bekarikázzák” a pozitív példákat (azaz meghatároznak olyan döntési felületet, amelyen belül a példák pozitívak), azaz magát az eloszlást kevésbé veszik figyelembe, inkább az elhelyezkedést (kül. klaszterező eljárások, amik voltak az előadáson, Support-Vector Data Description).

Egyosztályos modellezés Sokféle modell létezik, amik egy „egybefüggő” (kompakt) osztály leírását célozzák meg. A következő csoportosítást vesszük (David M. J. Tax, 2001, Thesis: One-Class Classification): Sűrűség alapú modellek Normális eloszlás, GMM Parzen becslés Behatároló modellek („boundary methods”) K-közép módszerek legközelebbi szomszédok Support Vector Data Description Rekonstrukciós modellek k-means SOM PCA alapú modell

Sűrűség alapú modellek Gaussian Mixture Model: átbeszéltük a klaszterezésnél. A pozitív adatokat Gauss eloszlások súlyozott összegével modellezzük, és ezáltal kapunk egy valószínűségi modellt. Ezt használhatjuk fel rangsorolásra a tesztnél. Normális eloszlás: 1-GMM. Könnyen számolható. Parzen becslő: minden tanítópontba egy-egy egyforma (de megadható) szórású többváltozós Gauss sűrűségfüggvényt illeszt. Az inputot ezen sűrűségfüggvények összegével modellezi. (A szóráson v. szélességen sok múlhat. Egy normalizálás után már kevésbé.)

Behatároló módszerek K-center, vagy K-medoid módszerek: klaszterezésnél… NNDD (Nearest Neighbour Data Description, legközelebbi szomszéd alapú adatjellemzés): Itt NN(X) az X legközelebbi szomszédját jelenti, V(|| ||) pedig azt a cellatérfogatot, amely cellát a vektor meghatároz. Ez alapesetben a hagyományos euklideszi távolság. Ettől jelentősen el fog térni a többosztályos 1-NN algoritmus. k-NN kiterjesztés: k legközelebbi szomszédig megyünk (a train-ben), és (sűrűségalapú módon) a köv. mennyiséggel jellemezzük az X input adatot:

SVDD (Support Vector Data Description) A tanítóadatokat egy magasabb dimenziós ún. kernel térben „karikázza be”. Erről később lesz szó, az SVM-eknél, kernel módszernél.

„Rekonstrukciós” metódusok Az input adatokból előállítanak olyan -- jóval kevesebb számú -- jellemzővektort, melyek segítségével megadják az adatok legvalószínűbb elhelyezkedését. Pl. K-means: az adatokat a középvektorokkal jellemezzük. SOM: szintén. Csak a referencia vektorok a „súlyvektorok” LVQ: Learn Vector Quantization: ez már felügyelt tanulás (bináris, v. több osztályos), ott fogjuk részletesebben tárgyalni

Egyosztályos módszerek használata osztályozásra és rangsorolásra a p(x) függvény megad egy valószínűséget, vagy pontértéket. Eszerint kell rendezni az input vektorokat, példák p(x)-re: K-nn: K-means, k-centers, SOM: p(z) = -d(z), ahol A μk a klaszterek középpontját jelöli, SOM esetében a neuronok “súlyvektorát” (korábban ω-val jelöltük)

Egyosztályos osztályozás (Outlier Detection): az input pontokról kell tenni olyan kijelentést, hogy osztályhoz tartozóak-e, illetve nem -- azaz „outlier”-ek -- . Egyosztályos modellek építésénél csak a pozitív példákat vesszük figyelembe. Tehát a különbség a bináris és egyosztályos feladat között:

Hogyan határozzuk meg az elválasztó hiperfelületet? 1. Megadunk egy megbízhatósági küszöbértéket (pl. 95%, 99%), és keressük azt a score-küszöböt, hogy a pozitív tanulóminták 95%-a (99%-a, stb.) az osztályhoz tartozó, a maradék outlier legyen. Ilyenek pl. Gauss modellek, Parzen, k-means,… 2. 1-NN esetében:

Kiértékelés Később lesz róla szó (nemsokára), de Rangsorolásnál: ROC és AUC Osztályozásnál: Accuracy, Precision, F-meaure, ...