Fogalmak, részterületek, eszközök, szoftverek

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Események formális leírása, műveletek
Készítette: Kosztyán Zsolt Tibor
I. előadás.
Analitikus, statisztikai és szélsőérték fv-k Hári Veronika
Minőségi adatok biztosítása az adattárházakban Készítette: Fehér Péter
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
Digitális képanalízis
Matematikai Statisztika VIK Doktori Iskola
SAS Enterprise Miner 2. gyakorlat
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Lineáris és nemlineáris regressziók, logisztikus regresszió
Távolság alapú eljárások Hierarchikus eljárások
Dimenziócsökkentés, valamint jellemzőszelekciós eljárások
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Rangsorolás tanulása ápr. 24..
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Készítette: Pető László
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
OPERÁCIÓKUTATÁS Kalmár János, 2012 Tartalom A nulla-egy LP megoldása Hátizsák feladat.
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
A digitális számítás elmélete
ADATBÁZISOK
Hierarchikus klaszteranalízis
Véletlenszám generátorok
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Az F-próba szignifikáns
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Adatbázisrendszerek jövője
Statisztika.
Textúra elemzés szupport vektor géppel
Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Alapsokaság (populáció)
Alapfogalmak.
Adatleírás.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
– SQL 3: SELECT - 1. – Tarcsi Ádám, január 31. Adatbázis gyakorlat.
I. előadás.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Valószínűségszámítás II.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Bevezetés a méréskiértékelésbe (BMETE80ME19)
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
Gépi tanulási módszerek
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Mediánok és rendezett minták
I. Előadás bgk. uni-obuda
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
A mesterséges neuronhálók alapjai
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Előadás másolata:

Fogalmak, részterületek, eszközök, szoftverek Adatbányászat Fogalmak, részterületek, eszközök, szoftverek

Adatbányászat Data mining Tudáskinyerés: Knowledge Discovery in Databases (KDD) Automatikusan, vagy félautomatikusan (az „adatbányász” valamilyen tudást bevisz a rendszerbe kézzel) hasznos tudás kinyerése nagy adathalmazokból.

Data mining is the principle of sorting through large amounts of data and picking out relevant information. It is usually used by business intelligence organizations, and financial analysts, but it is increasingly used in the sciences to extract information from the enormous data sets generated by modern experimental and observational methods. It has been described as "the nontrivial extraction of implicit, previously unknown, and potentially useful information from data" and "the science of extracting useful information from large data sets or databases".

Adattárházak Üzleti szférában, attribútumok közötti relációk, hasonlóságok, gyakoriságok, összefüggések feltárására és vizualizálására (pl. SAS rendszer) Pl. egy árucikk eladásából származó bevétel hogy függ a területtől, az eddig eladott mennyiségtől, reklámköltségtől, stb. Megkérdezhetjük: mik azok az attribútumok, amik leginkább meghatározzák a bevételt Ún. „adattárházban” gyűlnek össze, integrálódnak az egyes részadatbázisok (pl. területi), időnkénti frissítéssel Az aktuálisan kívül a múltat is eltárolja, megtartja A tárolás módja: OLAP típusú, könnyen újraskálázható lekérdezések (pl. év-hónap) Irodalom: Han, Kamber: Adatbányászat

Feladatok Ez a kurzus most nem az adatbányászat üzleti célú összefüggéseket vizsgáló részéről fog szólni. Statisztikai, gépi tanulási módszerek az adatbányászatban Más feladatok például: Szövegbányászat, WEB-bányászat Beszélőazonosítás, nyelv azonosítás Hasonló dokumentum, hasonló kép keresése (Fehérjék közötti) rokonság feltárása, evolúciós fák Szociális hálózatokban különböző tulajdonságú részhalmazok keresése Gyakori minták kinyerése Idősorelemzés

Részterületek, határterületek Matematika: valószínűség számítás, statisztika, gráfelmélet, algebra, analízis Algoritmus-, bonyolultságelmélet Adatbázis kezelés Gépi tanulás, mesterséges intelligencia

Eszközök, szoftverek Üzleti irányultságú célszoftverek (pl. SAS) Számos gépi tanuló, regressziós, transzformációs stb. módszert tartalmazó szoftvercsomagok (nem üzleti jellegű feladatokhoz) WEKA (gyakorlaton), ingyenes Clementine (SPSS Inc.), Intelligent Miner (IBM), DBMiner (Simon Fraser Univ.) MATLAB, R stb.

Irodalom, követelmények Kiadva papíron

Jellemzőkinyerés, adatreprezentáció

Jellemzők kinyerése Adott bizonyos objektumok egy halmaza Adott egy feladat: megkeresni bizonyos tulajdonságú objektumokat, vagy besorolni az objektumokat osztályokba, vagy rangsorolni az objektumokat valamilyen szemszögből, stb. megjósolni az objektumok jövőbeni paramétereit (értékeit, változását) automatikusan kell elvégezni, géppel Cél: megtalálni az objektumoknak azon jellemzőit, amik segítségével a feladat elvégezhető (jellemzőkinyerés), és megtalálni azt modellt, ami ezt hatékonyan el is végzi (erről később).

1. példa Objektumok: szövegfájlok. Feladat: nyelv azonosítás. Jellemzők: a szövegek szavaiban előforduló karakter N-esek (N=2,3). Ez egy osztályozási feladat (nyelv hozzárendelés). Tanítás: különböző nyelvű tanítókorpuszokon az egyes karakter N-esek megszámolása, ebből N-gram statisztika létrehozása Tesztelés: a megadott szövegrészre kiszámítandó a különböző nyelvekhez való tartozás valószínűsége, az egyes N-gram modellek alapján. A legnagyobb értéket kapó nyelv lesz a szöveghez hozzárendelve. Irodalom: Ted Dunning: Statistical Identification of Language, 1994

N-gram modell: tegyük fel, hogy a C1C2C3 karakterhármasokat vizsgáljuk N-gram modell: tegyük fel, hogy a C1C2C3 karakterhármasokat vizsgáljuk. A kérdés itt, hogy mi a valószínűsége annak, hogy egy konkrét C3 karakter pontosan a C1C2 kettest követi. Ez könnyen kiszámítható egyszerű leszámlálással (C* tetszőleges karaktert jelöl): Ezeket az értékeket minden nyelv tanító-korpuszán kiszámítjuk. A tesztszöveghez pedig a következő valószínűséget rendeljük:

2. példa Borok osztályozása „minőségi” kategóriába, vagy helység szerint Jellemző attribútumok: cukor tartalom alkohol tartalom extrakt tartalmak sav tartalmak glicerin tartalom vas tartalom, … Modell: egy hierarchikus klaszterező eljárás

3. példa Fehérjék rangsorolása aszerint, hogy milyen mértékben tartoznak egy fehérjecsaládba. Fehérjék: aminosav szekvenciák --> betűsorozattal leírhatók Két fehérje közti hasonlóság: mennyire hasonlítanak a betűsorozatok (erre visszatérünk később, a hasonlósági mértékeknél) Jellemzővektorok: N db. rögzített szekvenciához mért hasonlóság

Attribútum típusok Bináris értékű (kétértékű) Kategória típus, vagy felsorolás típus (több különböző érték) Sorrend típus (kategóriák között van rendezés, pl. kor években, vagy gyermek-, fiatal-, nagykorú) Valós értékű

Előfeldolgozás Diszkretizáció: valós értékű attribútum (értelmes) intervallumokba sorolása Adattisztítás (zajszűrés) Számosság csökkentés Dimenzió redukció Adatok transzformálása, jellemzőkinyerés után (egy jobban használható reprezentáció érdekében)

Adattisztítás Zajos adatok („túl” szélsőséges értékek) kezelése Hiányzó értékek kezelése (a1,a2,?,an) eldobjuk a vektort egy „hiányzó érték-konstanssal” helyettesítjük a meglévő értékek valamiféle átlagértékével pótoljuk (lineáris) regresszióval képezünk egy értéket Zajos adatok („túl” szélsőséges értékek) kezelése idősor, kép, hang: simítás, zajszűrés, regresszió diszkretizálás (kosarazással, klaszterezéssel) „Outlier Detection” eljárások

Diszkretizálás (kosarazással, klaszterezéssel) Az adatokat reprezentáns vektorokkal helyettesítjük, amik lehetnek: klaszter középpontok: egy automatikus klaszterezési eljárással az adatokat részhalmazokra osztjuk fel, és ezeket középpontjukkal reprezentáljuk „kosarak” középértékei: az egyes attribútumok értékkészletét intervallumokra osztjuk fel (ha egyenletesen, akkor hisztogramnak nevezzük).

Adatszám csökkentése Véletlen mintavételezési technikák Visszatevés nélküli egyszerű véletlen mintavételezés Visszatevéses egyszerű véletlen mintavételezés Klaszterezés segítségével: ha az adathalmazt automatikusan csoportosítani tudjuk (a csoportokat nevezzük klasztereknek, ezek a „klaszterek” egymáshoz közeli elemeket tartalmaznak), akkor klaszterenként egyenletes eloszlással véletlenszerűen veszünk elemeket (visszatevéssel, vagy anélkül) Rétegzett mintavételezés: önkényesen kijelölünk bizonyos csoportokat, amikből véletlenszerűen mintákat kell választani (ezzel elérhető, hogy a ritka csoportok is reprezentálva legyenek)

Dimenzió csökkentés Későbbi előadás tárgya Jellemző kiválasztó eljárások: SFS, SBS, GSFS, GSBS, SFFS, SFBS, ASSFS CFSsubset, InfoGain, 2, stb. Jellemzőtér transzformálása kevesebb dimenzióba: PCA, LDA, LLE, MDS (Multidimensional Scaling), SOM (Self Organizing Map)

Adatok transzformálása Normalizálások Későbbi előadás tárgya: A jellemző-tér transzformációja egy új tér-reprezentációba oly módon, hogy valamilyen szempont szerint optimálisabban helyezkedjenek el a pontok. PCA, LDA, ICA

Normalizálás Az egyes attribútumok egységes értékkészletűek legyenek (ez gyakorlati szempontból hasznos) min-max (v. intervallum) normalizálás (most csak a [0,1] intervallumba): Minden xi adat minden j attribútumára: Standardizálás: az adathalmaz középértéke 0 legyen, a szórása pedig 1 (minden attribútumra):

Nagydimenziós tér

A „dimenzionalitás átka” 1. Richard Bellman: ha dimenziónként (száma D) 1/10 skálázásra térünk át a rácsozásban, akkor a rácspontok száma 10D számúra növekszik, azaz, az ő interpretációjában: Ha egy sokváltozós függvényt akarunk optimalizálni, akkor a kimerítő keresés nehézségekbe fog ütközni, mivel dimenzió számmal exponenciálisan növekvő kiértékelésre lesz szükség.

A „dimenzionalitás átka” 2. Van egy többváltozós függvénnyel jellemezhető mennyiségünk, de az adatok zajjal terheltek: mennyi adatra van szükségünk a függvény kellő pontosságú (minél kisebb hibájú) meghatározásához? A dimenzióval exponenciálisan növekvő mennyiségre.

A „dimenzionalitás átka” 3. Ahhoz, hogy az adatok egyforma sűrűségűek legyenek, a dimenzióval exponenciálisan növekvő mennyiségű adattal kell rendelkeznünk. Amennyiben a sűrűség kicsi, és az adatok mintavételezése megfelelő statisztikailag, akkor (az előzőek mellett) a következő jelenségek adódnak nagy valószínűséggel: határpont effektus színház effektus

Hipergömb és hiperintervallum Az egységnyi átmérőjű hipergömb térfogatát, és az egységnyi oldalú hiperkocka térfogatát nézzük. Bizonyítás nélkül: Vhipergömb/Vhiperkocka0 (ha Dim∞) A jelentés érzékeltetése: Ha minden attribútum valamilyen (nem szélsőséges) eloszlást követnek a [-1 1] intervallumban, akkor annak a valószínűsége, hogy az egyes adatok távolságai (az origótól) 1-nél kisebbek, tart (gyorsan) a nullához. Tehát, az egyes adatok egymástól vett (2-norm euklideszi) távolságai a dimenzió növekedésekor szinte egységesednek (ha közben az adatok száma nem nő a dimenzióval exponenciálisan).

Színház effektus, legközelebbi és legtávolabbi szomszéd viszonya Színház effektus: nagy dimenzióban egy adott pontból nézve a többi pont közel azonos távolságra van. Emiatt, a legközelebbi és legtávolabbi szomszédok távolságai között nincs nagy relatív különbség. A (hagyományos) távolság fogalma egyre nagyobb dimenzióban fokozatosan elveszíti a jelentőségét. Irodalom: M. Jirina: How does the space where e-Golem walks looks like D. L. Donoho: High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality

Egy rögzített ponttól vett tíz legközelebbi pont távolsága (egyenletes eloszlás esetén). A színes vonalak az 1, 2, 3, 5,és 10 dimenziót jelölik.

Határpont effektus Nagy dimenzióban „a szükséges exponenciális számúnál” kevesebb adat esetében minden adat határpont, nagy valószínűséggel. Határpont: az adatok konvex burkának pontja (csúcsa, vagy rajta van). Ábra: a határpontok aránya a dimenziószám függvényében (normális eloszlást használtunk). A vonalak különböző adatszámosságot jelölnek: 100, 200, 300, 400, 500, 1000

Határpont effektus, osztályozási problémáknál A tanító adatbázis minden pontja határpont. De, a teszt adatbázis pontjai sem esnek a tanító adatbázis konvex burkába (nagy vsz.). A más osztályok vektorai szintén nem esnek semelyik másik osztály konvex burkába sem (nagy vsz.). Így a konvex burkok egymástól elvileg akár hipersíkkal szétválasztatók a tanító adatokat figyelembe véve. Mégsem válnak be általánosságban (azaz minden feladatra) az egyes tanuló algoritmusok. Semelyik döntési felületre általánosan nem mondható, hogy ideális megoldás, mivel a probléma messzemenően határozatlan, sok döntési felülettel választhatók szét az osztályok, és a tesztelés előtt nem meghatározott, hogy melyik válik be jobban.

A „dimenzionalitás áldása” „Concentration of measures” tulajdonság (a mértékek koncentrációja) Még ha növeljük is a dimenziót, a pontok nem távolodnak el bizonyos távolságnál messzebb az origótól (standard eloszlást feltételezve) Pl.: Vagy: Szavakban: annak a valószínűsége, hogy a D dimenziós standard normális eloszlású véletlen minta távolsága az origótól (t-vel) nagyobb a dimenziószám négyzetgyökénél, négyzetesen-exponenciálisan tart a 0-hoz.

Dimenziócsökkentés, valamint jellemzőszelekciós eljárások SFS, SBS, GSFS, GSBS, SFFS, SFBS, ASSFS PCA, LDA, ICA, LLE, MS Aggregációk

Jellemzőszelekciós eljárások Általánosságban: egy sok elemű attribútumhalmaz egy –sokkal kevesebb elemet tartalmazó – részhalmazának a kiválasztása a cél, oly módon, hogy a klasszifikáció minősége ne romoljon A feladat: Adott az attribútumok Y={a1,..,ad} halmaza. Válasszuk ki Y-nak egy olyan X részhalmazát, hogy J(X) maximális legyen, ahol J(X) méri egy attribútumhalmaz „jóságát” (pl. osztályozási pontosságot). A feladatot szűkítjük: egy rögzített m elemszámú optimális részhalmazt keresünk.

Teljes tér bejárás: általában nem jön szóba, a lehetőségek száma: Heurisztikák: Információ-nyereség (information gain) alapján (lásd döntési fánál, később) Különböző statisztikai alapú elgondolások szerint SFS, SBS, …

SFS (Sequential Forward Selection, előretartó kiválasztás) Input: Y, Output: Xm, Inicializálás: X0=Ø, k=0. Ismételd m-szer: Szavakkal: minden iterációban megkeresi azt az attribútumot, ami még nem szerepel a legjobbak halmazában és amit ha abba beveszünk, akkor a jóság maximális.

SBS (Sequential Backward Selection, hátratartó kiválasztás) Input: Y, Output: Xm, Inicializálás: Xd=Y, k=d. Ismételd (d-m)-szer: Szavakkal: minden iterációban ki fogunk venni egy attribútumot. Erre a célra azt az attribútumot választjuk ki, amit ha kiveszünk, a maradék attribútumok jósága maximális.

GSFS, GSBS (G=Generalized) Majdnem ugyanaz, mint az SFS, SBS, egy különbség van csak: nem egyesével adja hozzá (vagy veszi ki) az attribútumokat, hanem egy (rögzített L elemszámú) attribútum részhalmazokkal növel/csökkent.

SFFS(Seqvential Floating Forward Selection, előretartó lebegő kiválasztás) 1.: egy db. SFS típusú attribútum kiválasztás (tehát a jóságot maximálisan növelő attribútum hozzáadása az Xk kiválasztandó attr. Halmazhoz, k=k+1), kilépés, ha k=m. 2.: amíg ki lehet venni Xk-ból attribútumot úgy, hogy a jóság nő, addig azokat ki is vesszük, ha nincs már ilyen attribútum, akkor vissza 1.-re (a hozzáadás részre).

SFBS SFFS hátra tartó megfelelője (Hf. Ennek az átgondolása).