Gépi tanulási módszerek febr. 13.

Slides:



Advertisements
Hasonló előadás
Események formális leírása, műveletek
Advertisements

Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.

Valószínűségszámítás
Kvantitatív Módszerek
Erőállóképesség mérése Találjanak teszteket az irodalomban
MATEMATIKA Év eleji felmérés 3. évfolyam
Humánkineziológia szak
Mellár János 5. óra Március 12. v
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Műveletek logaritmussal
Elektromos mennyiségek mérése
Koordináta transzformációk
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Euklidészi gyűrűk Definíció.
A tételek eljuttatása az iskolákba
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Gépi tanulási módszerek
Gépi tanulási módszerek febr. 20.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
A diákat jészítette: Matthew Will
VÁLOGATÁS ISKOLÁNK ÉLETÉBŐL KÉPEKBEN.
Bizonytalanság A teljesen megbízható következtetést lehetővé tevő tudás hiánya Egy esemény bizonytalansága  objektív  szubjektív Módszerek  numerikus.
1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
A TERMÉSZETTUDOMÁNYOK ALAPJAI 1. Matematika
III. előadás.
Valós számok Def. Egy algebrai struktúra rendezett test, ha test és rendezett integritási tartomány. Def. Egy (T; +,  ;  ) rendezett test felső határ.
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
NOVÁK TAMÁS Nemzetközi Gazdaságtan
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Kvantitatív módszerek
Valószínűségszámítás
A közép- és emelt szintű vizsga tanári értékelése
1 TARTALOM: 0. Kombinatorika elemei (segédeszközök) 1. Eseményalgebra 2. A valószínűség: a) axiómák és következményeik b) klasszikus (=kombinatorikus)
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
Az Alakfelismerés és gépi tanulás ELEMEI
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
Az opciók értékelése Richard A. Brealey Stewart C. Myers MODERN VÁLLALATI PÉNZÜGYEK Panem, 2005 A diákat készítette: Matthew Will 21. fejezet McGraw Hill/Irwin.
Logikai szita Izsó Tímea 9.B.
Készítette: Horváth Zoltán (2012)
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Gazdaságstatisztika 11. előadás.
Alapsokaság (populáció)
Alapfogalmak.
Folytonos eloszlások.
Két kvantitatív változó kapcsolatának vizsgálata
IV. Terjeszkedés 2..
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Határozatlan integrál
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
2005. Információelmélet Nagy Szilvia 1. Az információelmélet alapfogalmai.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
előadások, konzultációk
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Gépi tanulási módszerek febr. 9.
Gépi tanulási módszerek febr. 11.
Gépi tanulási módszerek febr. 18.
Valószínűségi változók együttes eloszlása
Gépi tanulás.
Előadás másolata:

Gépi tanulási módszerek febr. 13. Bevezetés Gépi tanulási módszerek febr. 13.

Gépi tanulás Hogyan építhető olyan számítógépes rendszer, amelynek a teljesítménye automatikusan javul tapasztalatok gyűjtésével?

Teljesítés szóbeli vizsga 10 darab minikérdés az előadáson elégséges: a húzott tételhez kapcsolódó alapfogalmakat, magát a problémát érti, a megoldás alapjaival tisztában van közepes: a húzott tételt mélységében (fontosabb képletek is) érti jó: az egész anyagot átlátja, a tételen kívüli kérdésekre (összefüggések) is tud válaszolni jeles: matematikai mélységeket is ismeri (minden képlet, levezetések stb.) 10 darab minikérdés az előadáson (5 jó = +1 jegy)

Spam szűrés

arc/személy felismerés demo

Ajánló rendszerek

Robotika

Természetesnyelv-feldolgozás

Big Data

még alkalmazási területek Ujjlenyomatok azonosítása Kézírásos szövegek felismerése Objektumok felismerése képeken Beszédfelismerés DNS szekvenciák azonosítása Gyógyszerkutatás Banki adatok, tőzsde elemzése Folyamatoptimalizálás Pattern Classification, Chapter 1

Gépi tanulás jelen és jövő 11 Gépi tanulás jelen és jövő egyre több alkalmazásban van jelen „úszunk az adatban, miközben szomjazunk az információra” technológiai fejlettség és elterjedtség igény az egyre nagyobb fokú automatizálásra és perszonalizációra Vannak megoldott problémák, de számos nyitott kutatási kérdés is!

http://www.ml-class.org/course

Gépi tanulás definíciója 13 Gépi tanulás definíciója Tanulás (Mitchell): „a computer program said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”

Alakfelismerés Most of the materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors and the publisher

16 Példa Osztályozzunk halakat egy szállítószalagon, optikai érzékelőt használva! tengeri sügér (see bass) Fajok lazac (salmon) Modell (fogalmak és rendszerek szerkezeti leírása): itt a vizsgált objektumok leírása (pl. lazac – rövidebb) Pattern Classification, Chapter 1

17 Osztályozás (T) Felügyelt (induktív) tanulás (supervised learning): tanító halmaz (training examples, E) alapján olyan modell tanulása ami korábban nem látott példákon is helyesen működik. Osztályozás: előre definiált kategóriákba besorolás. Pattern Classification, Chapter 1

18 Pattern Classification, Chapter 1 18

Példa - előfeldolgozás 19 Példa - előfeldolgozás Használjunk valamilyen szegmentálót a halak egymástól és a háttértől való elválasztására Az egy halról meglevő információt egy információkinyerőnek küldjük, hogy bizonyos tulajdonságok kinyerésével (feature extraction) csökkentsük az adatok mennyiségét A tulajdonságokat egy osztályozónak adjuk tovább Pattern Classification, Chapter 1

Példa - tulajdonságok tulajdonság=jellemző (feature) 20 Példa - tulajdonságok tulajdonság=jellemző (feature) néhány lehetséges tulajdonság: Hossz Világosság Szélesség Az uszonyok száma és alakja A száj elhelyezkedése, stb Pattern Classification, Chapter 1

21 Pattern Classification, Chapter 1

22 Példa - tulajdonságok A hossz gyenge megkülönböztetési erővel rendelkezik. Válasszuk a fényességet egy második próbálkozáshoz tulajdonságként. Pattern Classification, Chapter 1

23 Pattern Classification, Chapter 1

Döntéselméleti feladat! 24 Hibafüggvény (P) fals pozitív/fals negatív hiba A kétfajta hiba azonos költségű? Például ha csökkentjük a döntési küszöbértéket csökken azon tengeri sügérek száma, amelyeket tévesen lazacnak osztályoztunk Döntéselméleti feladat! Pattern Classification, Chapter 1

Tulajdonságvektor A fényességet mellé vegyük a szélességét is 25 Tulajdonságvektor A fényességet mellé vegyük a szélességét is Hal xT = [x1, x2] Fényesség Szélesség Pattern Classification, Chapter 1

26 Pattern Classification, Chapter 1

27 Tulajdonságvektor További tulajdonságokat is vehetünk még hozzá. Óvatosnak kell lenni, hogy túl „zajos” (pl. mérési hiba) felesleges (pl. erősen korrelál másik tulajdonsággal) tulajdonságokkal ne rontsuk a rendszer hatékonyságát! Jól diszkrimináló tulajdonságokat keressünk! Erősen problémafüggőek lehetnek a tulajdonságok! Pattern Classification, Chapter 1

28 Pattern Classification, Chapter 1

29 Általánosítás Ez sajnos nem valószínű, hogy ideális lesz, hiszen eddig még nem látott inputokra kell jó osztályozást adnunk! Általánosítás vs. túltanulás/túlillesztés (overfitting) Pattern Classification, Chapter 1

30 Pattern Classification, Chapter 1

Reprezentáció Tulajdonságok száma? Egyszerű felület? Gyors döntés? 31 Reprezentáció Tulajdonságok száma? Egyszerű felület? Gyors döntés? A problémáról való ismeret beépítése csökkenti a komplexitást! Pattern Classification, Chapter 1

Példa - Gépi tanulás definíciója 32 Példa - Gépi tanulás definíciója Task (feladat): osztályozzunk kértdimenziós valós vektorokat két osztályba (lazac, tengeri sügér) Experience (tapasztalat): egy tanító halmaz, amelyikben ismert osztályba tartozó halaknál mért számpárok adottak Performance (hatékonyság): eddig nem látott halakhoz tartozó számpárok alapján helyes osztályozás aránya

Szabály-alapú rendszerek vs. gépi tanulás 33 Szabály-alapú rendszerek vs. gépi tanulás szakértőre szükség van szabályírás vagy tanítópéldák, tulajdonságok Melyik a költségesebb? szakértő tud szabályrendszert írni? tanító adatbázis költsége? mennyire specifikus a probléma?

A tervezési ciklus Adatgyűjtés Tulajdonság(ok) kiválasztása 34 A tervezési ciklus Adatgyűjtés Tulajdonság(ok) kiválasztása Modell választása Tanítás Kiértékelés Számítási bonyolultság Pattern Classification, Chapter 1

35 Pattern Classification, Chapter 1

36 Adatgyűjtés Honnan tudjuk, hogy elegendően nagy és reprezentatív mintát (példát, samples) gyűjtöttünk a rendszer tanításához és teszteléséhez? Pattern Classification, Chapter 1

Tulajdonság(ok) választása 37 Tulajdonság(ok) választása Erősen függ a megoldandó problémától. Könnyen kinyerhető, Transzformációkkal szemben invariáns Zajjal szemben nem érzékeny. A priori tudás beépítése Pattern Classification, Chapter 1

Modell kiválasztása és tanítás 38 Modell kiválasztása és tanítás A halak osztályozására eddig használt módszerrel elégedetlenek vagyunk, új módszer Az adatokat használjuk az osztályozó meghatározásához. Nagyon sok módszer az osztályozók tanítására és a modell választására… No free lunch! Pattern Classification, Chapter 1

Kiértékelés Kiértékelési metrika (pl. hibaarány kiszámítása) 39 Kiértékelés Kiértékelési metrika (pl. hibaarány kiszámítása) Túltanulás elkerülésére elkülönítünk egy teszt adathalmazt szimuláljuk a „nem ismert” példákat fejlesztői (developement) adatbázis Pattern Classification, Chapter 1

Tematika Osztályozás Regresszió Klaszterezés Ajánló rendszerek 40 Tematika Osztályozás Regresszió Klaszterezés Ajánló rendszerek Rangsorolás Struktúra előrejelzés Visszacsatolásos tanulás

Aktívan kutatott területek 41 Aktívan kutatott területek Komplex kimenetek (csoportok hierarchiái, sorozatok, gráfok) Tanulás kevesebb tanuló adatból félig felügyelt tanulás, egyosztályos tanulók… (inter)aktív tanulás Domain adaptáció Gépi tanulási rendszerek „big data” data privacy

Valószínűségszámítás felelevenítő

Valószínűségszámítás alapjai Eseménytér (), (elemi) események Axiómák: - 0 ≤ P(A) ≤ 1 - P()=1 - Ha A1, A2, … egymást páronként kizáró események (Ai ∩Aj = , ha i  j), akkor P(k Ak) =  k P(Ak) 43

Tételek - P(Ø) = 0 - P(¬A)=1-P(A) - P(A  B)=P(A)+P(B) – P(A∩B) - P(A) = P(A ∩ B)+P(A ∩¬B) Ha A  B, akkor P(A) ≤ P(B) és P(B-A) = P(B) – P(A) 44

Feltételes valószínűség Amennyiben B igaz, mekkora részben lesz A is igaz. P(A|B) = P(A∩B)/P(B) Következmény (lánc-szabály/szorzási szabály): P(A∩B) = P(A|B)·P(B) Egyszerű példa: A: fejfájás, B: influenza P(A) = 1/10, P(B) = 1/40, P(A|B)=? 45

Feltételes valószínűség

Események függetlensége Az A esemény független a B eseménytől, ha P(A|B) = P(A) Ez ekvivalens P(AB) = P(A)P(B) illetve P(B|A) = P(B) 47

Általános szorzási szabály A1, A2, …, An tetszőleges események, P(A1A2…An) = P(An|A1…An-1) P(An-1|A1…An-2)…P(A2| A1)P(A1) Teljes valószínűség tétele: ha A1, A2, …, An események teljes eseményrendszert alkotnak, továbbá P(Ai) > 0 minden i-re, akkor P(B) = ∑j=1n P(B | Ai)P(Ai) 48

Bayes szabály P(A|B) = P(A∩B)/P(B) = P(B|A)P(A)/P(B) 49

Valószínűségi változó ξ:  → R Valószínűségi vektorváltozók… Sztochasztikus folyamat: t 50

Eloszlásfüggvény F(x) = P( < x) - F(x1) ≤ F(x2), ha x1 < x2 - limx→-∞ F(x) = 0, limx→∞ F(x) = 1 - F(x) minden x pontban balról folytonos Diszkrét: ha lehetséges értékei egy véges vagy végtelen x1, x2… sorozatot alkotnak 51

Folytonos val. változó Folytonos: ha van olyan f(x) függvény, hogy a számegyenes minden (a, b) intervalluma esetén F(b) - F(a) = P(a <  < b) = a∫b f(x)dx Ekkor az f(x) függvényt a  valószínűségi változó sűrűségfüggvényének nevezzük. Teljesül: f(x) = F ’(x) és F(x) = .-∞∫x f(t)dt 52

Hisztogram sűrűségfüggvény empirikus közelítése 53

Valószínűségi változók függetlensége  és  függetlenek, ha tetszőleges a ≤ b, c ≤ d számok esetén P(a ≤  ≤ b, c ≤  ≤ d) = P(a ≤  ≤ b) P(c ≤  ≤ d). 54

Eloszlások kompozíciója Diszkrét eloszlások kompozíciója  =  +  ahol  és  függetlenek. Ekkor: rn = P( = n) = k=- P( = n - k,  = k) Folytonos függvények kompozíciója hasonló elven, a sűrűségfüggvények megfelelő szorzatának kettős integráljával kapható meg. 55

Várható érték ha  lehetséges értékei x1, x2, …, és ezeket rendre p1, p2, … valószínűségekkel veszi fel, akkor várható értéke: M() = i xipi Folytonos esetben: M() = -∞∫ xf(x)dx 56

Várható érték - Ha  várható értéke létezik, és c tetszőleges valós szám, akkor c várható értéke is létezik, és M(c) = cM() - Ha létezik  és  várható értéke, akkor létezik  =  +  várható értéke is, és M( + ) = M() + M() 57

Várható érték Ha  és  független valószínűségi változók, várható értékeik léteznek, akkor létezik a  =  várható értéke is, és M() = M()M() Egy  valószínűségi változó A eseményre vonatkoztatott M(|A) feltételes várható értéke a -nek az A eseményre vonatkoztatott feltételes eloszlásának a várható értéke 58

Szórás Egy  valószínűségi változó szórása a  - M() valószínűségi változó négyzetének várható értékéből vont pozitív négyzetgyök: D() = (M[( - M())2])1/2 Másképpen: D2() = M(2) – M2() 59

Szórás Ha  szórása létezik, továbbá a és b tetszőleges valós számok, akkor D2(a + b) = a2D2() Ha 1, 2, …, n független valószínűségi változók, szórásaik léteznek, akkor létezik összegük szórása is és D2(1 + 2 + … + n) = D2(1) + D2(2) + … + D2(n) 60

Korreláció A  és  valószínűségi változók kovarianciáján a c = M[( - M())( - M())] értéket értjük (0, ha függetlenek), ha  = , akkor a kovariancia a D2() szórásnégyzettel egyezik meg. A  és  valószínűségi változók korrelációs együtthatója: r = c / ((D()D()), értéke -1 és 1 között van. 61

Nevezetes eloszlások Normális eloszlás Binomiális eloszlás:  ~ B(n,p) M() = np D() = np(1-p) 62