Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Fogalom tanulás febr. 26.. Példa fogalom tanulására Fogalom: ”azok a napok, amikor teniszre alkalmas lesz az idő” ÉgboltHőm.PáratSzélTenisz? NaposForróMagasGyengeNem.

Hasonló előadás


Az előadások a következő témára: "Fogalom tanulás febr. 26.. Példa fogalom tanulására Fogalom: ”azok a napok, amikor teniszre alkalmas lesz az idő” ÉgboltHőm.PáratSzélTenisz? NaposForróMagasGyengeNem."— Előadás másolata:

1 Fogalom tanulás febr. 26.

2 Példa fogalom tanulására Fogalom: ”azok a napok, amikor teniszre alkalmas lesz az idő” ÉgboltHőm.PáratSzélTenisz? NaposForróMagasGyengeNem NaposForróMagasErősNem FelhősForróMagasGyengeIgen EsősEnyheMagasGyengeIgen

3 Hipotézis A h hipotézis a jellemzőkre adott feltételek diszjunktív normálformája Egy feltétel lehet: –Egy konkrét érték : pl. Víz = Meleg –Bármilyen érték : Víz = ? Példa: h hipotézis Égbolt Hőm Pára Szél Napos ? ? Erős

4 Döntési fák

5 Döntési fa példa Égbolt NaposFelhősEsős Páratartam MagasNormál Szél ErősGyenge NemIgen Nem

6 Égbolt NaposFelhősEsős Páratartam MagasNormál NemIgen Belső csúcsok: jellemzők tesztjei Minden elágazás megfelel egy attribútum értéknek Levelek: osztályozás (címkék)

7 Égbolt NaposFelhősEsős Páratartam MagasNormál Szél ErősGyenge NemIgen Nem Égbolt Hőmérséklet Páratartam Szél Tenisz Napos Forró Magas Gyenge ?

8 Döntési fák és konjunkciók Égbolt NaposFelhősEsős Szél ErősGyenge NemIgen Nem Égbolt=Napos  Szél=Gyenge Nem

9 Döntési fák és diszjunkciók Égbolt NaposFelhősEsős Igen Égbolt=Napos  Szél=Gyenge Szél ErősGyenge Nem Igen Szél Erős Gyenge NemIgen

10 Döntési fák és XOR Égbolt NaposFelhősEsős Szél ErősGyenge IgenNem Égbolt=Napos XOR Szél=Gyenge Szél ErősGyenge NemIgen Szél ErősGyenge NemIgen

11 Döntési fák Égbolt NaposFelhősEsős Páratartam MagasNormál Szél ErősGyenge NemIgen Nem a döntési fák konjunkciók diszjunkcióját reprezentálják (Égbolt=Napos  Páratartam=Normál)  (Égbolt=Felhős)  (Égbolt=Esős  Szél=Gyenge)

12 Döntési fák előnyei Múlt heti Bayes osztályozókhoz képest Ekzakt összefüggés jellemzők közt Ember által értelmezhető modell Hiányzó attribútum értékek

13 A döntési fák tanítása az ID3 algoritmus 1.Legyen az összes példa a fa gyökércsúcsához rendelve és vizsgáljuk ezt a csúcsot (n) 2.Keressük meg a legjobb döntési attribútum n-hez (A) 3.Rendeljük A-t mint döntési attribútumot n-hez és A minden értékéhez rendeljünk egy élt 4.Válasszuk ki minden élhez az adott élhez tartozó példákat: Ha minden ilyen példa azonos kategóriába sorolt, levélhez jutottunk, és megkaptuk a címkét. Különben ismételjük az eljárást erre a csúcsra (goto 2).

14 Melyik attribútum a (leg)jobb? A 1 =? IgazHamis [21+, 5-][8+, 30-] [29+,35-] A 2 =? IgazHamis [18+, 33-] [11+, 2-] [29+,35-]

15 Entrópia S legyen minták egy halmaza p + a pozitív példák aránya p - a negatív példák aránya Az entrópia az S „rendezetlenségét”, „bizonytalanságát” méri Entrópia(S) = -p + log 2 p + - p - log 2 p -

16 Entrópia Entrópia(S)= az S véletlenül választott elemének (legjobb kódolás melletti) kódolásához szükséges bitek várható értéke Információelmélet: az optimális kód hossza p valószínűségű üzenetnél -log 2 p bit Entrópia(S) = -p + log 2 p + - p - log 2 p - (log 0 = 0)

17 Információ nyereség INy(S,A): az entrópia várható csökkenése az A attribútum szerinti besorolásnál A 1 =? IgazHamis [21+, 5-][8+, 30-] [29+,35-] A 2 =? IgazHamis [18+, 33-] [11+, 2-] [29+,35-] INy(S,A)=Entrópia(S)-  v  érték(A) |S v |/|S| Entrópia(S v ) Entrópia([29+,35-]) = -29/64 log 2 29/64 – 35/64 log 2 35/64 = 0.99

18 Információ nyereség A 1 =? IgazHamis [21+, 5-][8+, 30-] [29+,35-] Entrópia([21+,5-]) = 0.71 Entrópia([8+,30-]) = 0.74 INy(S,A 1 )=Entrópia(S) -26/64*Entrópia([21+,5-]) -38/64*Entrópia([8+,30-]) =0.27 Entrópia([18+,33-]) = 0.94 Entrópia([11+,2-]) = 0.62 INy(S,A 2 )=Entrópia(S) -51/64*Entrópia([18+,33-]) -13/64*Entrópia([11+,2-]) =0.12 A 2 =? IgazHamis [18+, 33-] [11+, 2-] [29+,35-]

19 Tanító adatbázis NapÉgboltHőm.PáratSzélTenisz? D1NaposForróMagasGyengeNem D2NaposForróMagasErősNem D3FelhősForróMagasGyengeIgen D4EsősEnyheMagasGyengeIgen D5EsősHidegNormálGyengeIgen D6EsősHidegNormálErősNem D7FelhősHidegNormálGyengeIgen D8NaposEnyheMagasGyengeNem D9NaposHidegNormálGyengeIgen D10EsősEnyheNormálErősIgen D11NaposEnyheNormálErősIgen D12FelhősEnyheMagasErősIgen D13FelhősForróNormálGyengeIgen D14EsősEnyheMagasErősNem

20 Példa Páratartam MagasNormál [3+, 4-][6+, 1-] S=[9+,5-] E=0.940 INy(S,Páratartam) =0.940-(7/14)*0.985 – (7/14)*0.592=0.151 E=0.985 E=0.592 Szél GyengeErős [6+, 2-][3+, 3-] S=[9+,5-] E=0.940 E=0.811E=1.0 INy(S,Szél) =0.940-(8/14)*0.811 – (6/14)*1.0=0.048

21 Példa Égbolt Napos Esős [2+, 3-] [3+, 2-] S=[9+,5-] E=0.940 INy(S,Égbolt) =0.940-(5/14)* (4/14)*0.0 – (5/14)*0.0971=0.247 E=0.971 Felhős [4+, 0] E=0.0 Hőm ?

22 ID3 Algoritmus Égbolt NaposFelhősEsős Igen [D1,D2,…,D14] [9+,5-] S Napos =[D1,D2,D8,D9,D11] [2+,3-] ? ? [D3,D7,D12,D13] [4+,0-] [D4,D5,D6,D10,D14] [3+,2-] INy(S Napos, Páratartam)=0.971-(3/5)0.0 – 2/5(0.0) = INy(S Napos, Hőm.)=0.971-(2/5)0.0 –2/5(1.0)-(1/5)0.0 = INy(S Napos, Szél)=0.971= -(2/5)1.0 – 3/5(0.918) = 0.019

23 Égbolt NaposFelhős Esős Páratartam MagasNormál Szél ErősGyenge NemIgen Nem [D3,D7,D12,D13] [D9,D11] [D6,D10,D14] [D1,D2,D8] [D4,D5]

24 A fa átalakítása szabályokká Égbolt NaposFelhősEsős Páratartam MagasNormál Szél ErősGyenge NemIgen Nem R 1 : Ha (Égbolt=Napos)  (Páratartam=Magas) akkor Tenisz=Nem R 2 : Ha (Égbolt=Napos)  (Páratartam=Normál) akkor Tenisz=Igen R 3 : Ha (Égbolt=Felhős) akkor Tenisz=Igen R 4 : Ha (Égbolt=Esős)  (Szél=Erős) akkor Tenisz=Nem R 5 : Ha (Égbolt=Esős)  (Szél=Gyenge) akkor Tenisz=Igen

25 Az ID3 algoritmus és a hipotézistér A A A2 - A4 + - A2 - A3 - +

26 Az ID3 algoritmus és a hipotézistér egyszerűtől a bonyolultig hegymászó algoritmus A hipotézistér teljes (célfogalom biztosan benne van) Egyetlen hipotézis a kimenete A kiválasztott attribútumoknál nincs backtrack (mohó) → Lokális minimum (szuboptimális elválasztások) Előnyben részesíti a kisebb fákat –A nagyobb információnyereségű attribútumokat a gyökér közelébe teszi

27 ID3 → C4.5 INyArany() Folytonos jellemzők kezelése Hiányos attribútumértékek Jellemzők költségekkel Vágás

28 Sokértékű attribútumok Probléma: ha egy attribútumnak sok lehetséges értéke van, az INy őt választja Pl. ha a dátum-napot választjuk, akkor egyelemű halmazokat kapunk INyArany (GainRatio): INyArany(S,A) = INy(S,A) / Feloszt(S,A), ahol Feloszt(S,A) = -  i=1..c |S i |/|S| log 2 |S i |/|S| ahol S i az a részhalmaz, ahol A értéke v i

29 Folytonos attribútumok A folytonos attribútumból diszkrétet csinálunk Hőmérséklet=24 0 C, Hőmérséklet=27 0 C (Hőmérséklet > C) = {igaz, hamis} Hogyan válasszuk a küszöböt? Hőmérséklet 15 0 C 18 0 C 19 0 C 22 0 C 24 0 C 27 0 C TeniszNem Igen Nem

30 Hiányos attribútumértékek Tanításnál: ha az n csúcs A-t teszteli használjuk –A leggyakoribb értékét n-ben vagy –A leggyakoribb értékét n-ben az azonos osztálycímkéjű egyedek közt vagy –A értékeinek várható értékét (becsülve n-ben) Predikciónál –minden lehetséges értékre érjünk le levélig –válasszuk a legvalószínűbb levél kategóriáját

31 Attribútumok költségekkel Példa: Orvosi diagnózis : vérteszt Ft Robotika: szélesség meghatározása 23 mp Hogyan tanulnunk alacsony költségű döntési fát? Pl: INy 2 (S,A)/Költség(A) vagy (2 INy(S,A) -1)/(Költség(A)+1) w w  [0,1]

32 Túlillesztés

33 Hibacsökkentő vágás Túlillesztés elkerülése a döntési fáknál Ne növeljük a fát, ha a különbségek már nem lényegesek A végső fát vágjuk vissza

34 Vágás (nyesés, pruning) Bontsuk az adatokat tanító és validáló részre. A következőket tegyük, amíg a vágás javít: 1.Értékeljük minden lehetséges elágazás (és utódai) következményét a validáló halmazon 2.Mohón távolítsuk el azt, amelyik a legjobban növeli a validáló halmazon a pontosságot Létrejönnek (a tanító adatbázis alapján) inhomogén levelek.

35

36 A gépi tanulás általános problémái

37 Az általánosítási képesség túltanulás torzítás-variancia dilemma

38 Túlillesztés (túltanulás) A h  H hipotézis túlilleszti a tanító halmazt, ha van olyan h’  H hipotézis: hiba tanító (h) < hiba tanító (h’) és hiba X (h) > hiba X (h’)

39 Occam borotvája „Adott jelenséget egyformán jól leíró magyarázat közül azt kell választani, amelyik az egyszerűbb!” –Kevesebb rövidebb, mint hosszabb hipotézis –Ha egy rövid hipotézis illeszkedik az adatokra, akkor nem valószínű, hogy ez véletlenül van –Egy hosszú hipotézisnél ez véletlen is lehet De –Sokféleképpen definiálhatunk rövid hipotéziseket –Az opt. hipotézis nagyságát nem ismerjük

40 A torzítás-variancia dilemma F(x) függvényt akarjuk megtanulni zajos mintából (regresszió) g(x;D) a tanult modell Több adatbázison tanuljunk! Túltanulás=kis torzítás, de nagy variancia

41 © Ethem Alpaydin: Introduction to Machine Learning. 2nd edition (2010)

42

43 „általánosítási készség” paraméter Minden tanuló algoritmusnak van egy –vagy néhány– meta- paramétere amivel az általánosítási készségét szabályozhatjuk (torzítás/variancia finomhangolás) –döntési fa: vágás mértéke –kNN: k –Parzen-ablak: ablakméret –Naive Bayes: m-becslés

44 A dimenzionalitás átka

45 Az osztályozás pontossága erősen függ a jellemzők számától és a rendelkezésre álló tanítópéldák mennyiségétől A jellemzőtér méretének hatásai

46 Pattern Classification, Chapter Egy példa, ahol az új jellemzők segítenek: jellemző esetén egyre kisebb az átfedés

47 Ha d=8 és 10 részre osztjuk a jellemzőket 10 8 régióban kell becsülnünk a valószínűséget (ha nincs 10 8 példánk akkor sok üres lesz) Mit jelent a „közelség” d=1000 esetén? A gyakorlatban gyakran tapasztaljuk, hogy a jellemzőszám növelésével romlik az eredmény: –rossz modellt választottunk, –illetve egyre nehezebb pontosan becsülni a paramétereket a véges számú példából  “Curse of dimensionality” A dimenzionalitás átka

48 Felügyelt tanulók pontosságának becslése a gyakorlatban avagy modellszelekció

49 Felügyelt tanulók pontosságának becslése Egy modell/hipotézis ismeretlen mintákon való pontosságát becsli Alternatív hipotézisek legjobbikának kiválasztását segítheti, pl: –Döntési fák vágása –Gépi tanuló modell választása –Tulajdonságtér kiválasztása

50 Kivétel módszer (leave-out) A D = {(v 1,y 1 ),…,(v n,y n )} halmazt tanító (D t ) és validáló (validation) (D v =D\D t ) részre osztjuk Tanító D t Validáló D\D t Nem használja ki az összes adatot.

51 A k-szoros kereszt-validálásnál a D halmazt k kölcsönösen diszjunktra bontjuk: D 1,D 2,…,D k … A tanuló algoritmust k alkalommal tanítjuk és teszteljük, tanítjuk D\D i –n, teszteljük D i -n D1D1 D2D2 D3D3 DkDk D1D1 D2D2 D3D3 D4D4 D1D1 D2D2 D3D3 D4D4 D1D1 D2D2 D3D3 D4D4 D1D1 D2D2 D3D3 D4D4 Kereszt-validáció (Cross-Validation)

52 Összefoglalás Döntési fák –Fogalom tanulás –Entrópia –ID3 -> C4.5 A gépi tanulás általános dilemmái –Általánosítási képesség –Dimenzionalitás átka –Modell pontosságának becslése


Letölteni ppt "Fogalom tanulás febr. 26.. Példa fogalom tanulására Fogalom: ”azok a napok, amikor teniszre alkalmas lesz az idő” ÉgboltHőm.PáratSzélTenisz? NaposForróMagasGyengeNem."

Hasonló előadás


Google Hirdetések