MI 2003/11 - 1 Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Nevezetes algoritmusok
Másodfokú egyenlőtlenségek
Programozási tételek, és „négyzetes” rendezések
2005. Operációkutatás Ferenczi Zoltán. Széchenyi István Egyetem Operációkutatás eredete •második világháború alatt alakult ki •különböző szakmájú emberekből.
Számítástechnika I. 2.konzultáció
Készítette: Major Máté
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Műveletek logaritmussal
Illés Tibor – Hálózati folyamok
Euklidészi gyűrűk Definíció.
Táblázat kezelő programok
2012. November 21. Szemidefinit programozás és extremális gráfelmélet Lovász László Eötvös Loránd Tudományegyetem, Budapest 1.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Lineáris és nemlineáris regressziók, logisztikus regresszió
Gépi tanulási módszerek
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Papp Róbert, Blaskovics Viktor, Hantos Norbert
OPERÁCIÓKUTATÁS Kalmár János, 2012 Tartalom A nulla-egy LP megoldása Hátizsák feladat.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Optimalizálási módszerek 2. Konvex halmazok
AVL fák.
A digitális számítás elmélete
1.3 Relációk Def. (rendezett pár) (a1 , a2 ) := {{a1} , {a1 , a2 }} .
Számoljuk meg rekurzív függvénnyel egy bináris fa leveleit!
Bekezdésformázás Nevem: Berkes András Speciális kategória
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Operációkutatás eredete
Objektumok. Az objektum információt tárol, és kérésre feladatokat hajt végre. Az objektum adatok (attribútumok) és metódusok (operációk,műveletek) összessége,
Az Alakfelismerés és gépi tanulás ELEMEI
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Exponenciális egyenletek
Függvények.
Befektetési döntések Bevezetés
Textúra elemzés szupport vektor géppel
Szükségünk lesz valamilyen spreadsheet / táblázat kezelő programra
Lokális optimalizáció Feladat: f(x) lokális minimumának meghatározása 0.Adott egy kezdeti pont: x 0 1.Jelöljünk ki egy új x i pontot, ahol (lehetőleg)
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
Többváltozós adatelemzés
Alapsokaság (populáció)
Vektorterek Definíció. Legyen V Abel-csoport, F test, továbbá
Készítette: Hanics Anikó. Az algoritmus elve: Kezdetben legyen n db kék fa, azaz a gráf minden csúcsa egy-egy (egy pontból álló) kék fa, és legyen minden.
Határozatlan integrál
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
BINÁRIS FA Definició: A fa olyanösszefüggő gráf, amelyben nincs kör
Mikroökonómia gyakorlat
Business Mathematics A legrövidebb út.
Valószínűségszámítás II.
Nagy Szilvia 7. Lineáris blokk-kódok
Gazdasági informatikus - Szövegszerkesztés 1 HasábokHasábok.
Útkeresések.
Gazdasági informatikus - Szövegszerkesztés 1 Bekezdések formázása 3.
előadások, konzultációk
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Algoritmusok és adatszerkezetek
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
Gépi tanulási módszerek
Algoritmusok és Adatszerkezetek I.
A mesterséges neuronhálók alapjai
2-3-fák A 2-3-fa egy gyökeres fa az alábbi tulajdonságokkal:
Előadás másolata:

MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási lehetőséget - ha b-t jól választjuk, ezt itt is megkaphatjuk. A levezetése elég hosszadalmas, nem adjuk meg. A Bayes döntéshez tart növekvő mintánál!

MI 2003/ A perceptron modell igazából csak az szétválasztható esetre működik jól, a legkisebb négyzetes pedig a nem szétválaszthatóra. Ha a b-t is változónak tekintjük, eljutunk a Ho-Kashyap eljáráshoz, amelyik mindkét esetre alkalmazható.

MI 2003/ A kritérium-függvényünk: J s (a,b) =  Ya - b  2 Az a szerinti gradienst már kiszámoltuk:  a J s = 2Y t (Ya-b) a b szerinti pedig:  b J s = -2(Ya-b)

MI 2003/ Elindulhatunk az a szerinti gradiensekből (a=Y † b) és a b > 0 feltételt megőrző megoldáshoz juthatunk. Ehhez a  b J s pozitív kompenenseit nullának vesszük, és ezzel a b(k+1) = b(k) -  (k)[  b J s - |  b J s |]/2 összefüggéshez jutunk, ahonnan a gradienseket felhasználva kapjuk:

MI 2003/ b(1) > 0, b(k+1) = a(k) + 2  (k)e + (k), ahol e(k) = Ya (k) - b (k) a hibafüggvény, e + (k) = (e(k) + |e(k)| )/2 pedig ennek pozitív része, továbbá a(k) =Y † b (k). Ez a Ho-Kashyap eljárás

MI 2003/ Több osztály esete: itt is lineáris diszkriminancia függvényeket keresünk, és csak a szeparálható esettel foglalkozunk. Homogén koordinátákkal ez g i (x) = a i t y, i = 1, 2, …, c alakú függvényeket jelent, és azt az  i osztályt választjuk, amelyre g i (x) > g j (x), minden j  i -re.

MI 2003/ Kessler módszere: kétosztályos esetre vezet vissza mindent (ezzel a dimenziókat c- szeresre növeli, de már ismert módszert fog tovább használni). Pontosabban: először az első osztályhoz tartozó pontokat választjuk el a többiektől a a 1 t y k - a j t y k > 0, j = 2, 3, …, c segítségével.

MI 2003/ Ez tulajdonképpen c-1 egyenlőtlenséget jelent, amelyeket a korábbi eljárásokkal oldhatunk meg. Vissza: agy működése (neuronhálók) Példák logikai függvényekre Többszintű hálók

MI 2003/ Szintaktikus módszerek Nem-numerikus adatok: például gyümölcsök osztályozásánál színek, méret, …. Attributumok listája. Mit és hogyan lehet tanulni? Döntési fa: minden csúcsban két- vagy többértékű döntés. Levelek: osztályok. Példa.

MI 2003/ Hogyan építsünk fel egy döntési fát? Itt is adott egy minta (osztályzott példák halmaza). Ezt szeretnénk kérdésekkel felosztani. Ideális (tiszta) eset: egy kialakult részhalmazban minden elemnek azonos a címkéje. Addig: döntés, leálljunk-e (kevert osztály), vagy további kérdést fogalmazzunk meg (növeljük a fát).

MI 2003/ Faépítés általános kérdései - elágazási szám: bináris vagy többértékű? - melyik csúcsnál milyen tulajdonság ellenőrzése? - mi legyen levél? - ha túl nagy a fa, hogyan csökkenthetjük? - ha egy levélnél több címke, melyiket válasszuk? - mi legyen hiányzó adatoknál?

MI 2003/ Bináris eset. Mikor melyik kérdés? Tisztaságra törekvés. Mérték? Tisztátlanság (i: impurity). Entrópia az N csúcsnál: i(N) = -  j P(  j )log 2 P(  j ), ez akkor nulla, ha minden elem egy osztályba tartozik. Másik (két osztályra): i(N) = P(  1 ) P(  2 ).

MI 2003/ Gini tisztátlanság (több osztályra): i(N) =  i  j P(  i )P(  j ) = 1 -  j P 2 (  j ), Hibás osztályozás tisztátlanság: i(N) = 1 - max j P(  j ) Alapkérdés: egy adott csúcspontban melyik tulajdonság szerint döntsünk?

MI 2003/ Válasz: amelyik a tisztátlanságot a legjobban csökkenti:  i(N) = i(N) - P L i(N L ) - (1 - P L )i(N R ), valamelyik tisztátlanság-definícióval (vagy annak monoton függvényével). Elég sok számolással járhat.

MI 2003/ Többlépcsős eljárás - mohó módszer. Szükség esetén szuper-osztályok létrehozása. Nagyobb elágazási faktor: a cél itt  i(N) = i(N) -  B k=1 P k i(N k ) minimalizálása. Könnyen hoz létre túl sok osztályt. Még több számolás.

MI 2003/ Mikor álljunk le a további kérdésekkel? - tanítás -tesztelés eredménye elég jó, - a következő kérdésnél a tisztátlanság csökkenése elég kicsi, - kevés pont marad a leveleknél, - statisztikai módszerek.

MI 2003/ Vágás (nyesés): gyakran érdemes nagyon nagy fát felépíteni, és utána összevonni ágakat (több információnk van, mintha korábban leállnánk). Címkék hozzárendelése a levelekhez: “tiszta” osztályoknál triviális, egyébként a legtöbb elemet tartalmazó osztály. Példa

MI 2003/ Példa

MI 2003/ Számítási bonyolultság: jó esetben O(dn(log n) 2 ), rossz esetben: O(dn 2 log n). Tulajdonságok kiválasztása: gyakran sokat segíthet egy jó előfeldolgozás.

MI 2003/ Példa.

MI 2003/ Leggyakoribb módszer: ID3. Nominális adatok (ha numerikus is van, először rész- intervallumokba osztjuk azokat), entrópia használata. Példa Továbbfejlesztett (és leggyakrabban használt) változata: C4.5

MI 2003/ Minták (sztringek) illesztése. Adott egy véges abc, fölötte szavak. Minta, szöveg, faktor, részsorozat definíciója. Alkalmazási lehetőségek: - keresés szövegekben, - keresés DNS láncokban, - számítógépes grafika.

MI 2003/ Alapproblémák: - minta keresése (faktora egy szövegnek?) - szerkesztési távolság: a lehető legkevesebb elemi művelettel (törlés, beszúrás, csere) való átvitel - minta keresése hibával - minta keresése “akármi” szimbólummal

MI 2003/ Szerkesztési távolság: dinamikus programozás. Alapképlet: C(i,j) = min {C(i-1,j)+1, C(i,j-1)+1, C(i-1,j-1)+1-  (x[i], y[j])} Példa