Idősor karaktersorozatként való vizsgálata – SAX algoritmus Szabó Dániel Konzulens: dr. Dobrowiecki Tadeusz Önálló Labor előadás 2011. december 12.

Slides:



Advertisements
Hasonló előadás
SZAKDOLGOZAT a tudományos munka iskolája
Advertisements

Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Hogyan készítsünk el egy COCO-t???
Feladat 1 •Tekintsük a prim alprogramot, amely az n, (n≤32000) paraméteren keresztül egy természetes számot kap és visszatéríti az 1–et, ha n prímszám.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Meteorológiai Előrejelzés Adatbányászati Támogatással Putnoki Gyula GTK ISZAM II.évf. Társszerzők: az ISZAM-os Meteor-team TDK-konferencia 2007 Gödöllő.
QAM és OFDM modulációs eljárások
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Koordináta transzformációk
Koordináta transzformációk
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke A programozás alapjai 1. (VIEEA100) 9. előadás.
Gazdi László – mérnök informatikus Bsc. Tipikus viselkedési minták felismerése Bsc. Önálló labor téma Készítette: Gazdi László Konzulens:
Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
SAS Enterprise Miner 2. gyakorlat
Az összehasonlító rendezések
Statisztika II. X. Dr. Szalka Éva, Ph.D..
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Üzleti intelligencia Kecskemét 2007 ősz. BI Business Intelligence Üzleti Intelligencia Bevételnövelő és költségcsökkentő lehetőségek feltárása, döntéstámogatás.
A 4D stúdió valós idejű GPU-s implementálása Hapák József ELTE-IK MSC 2012.
Agykérgi lassú alvási oszcilláció vizsgálata epilepsziás betegben Csercsa Richárd PPKE-ITK december 16.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Microsoft Excel Függvények II.
Lázár István Témavezető: Hajdu András
Összetett adattípusok
Mentális állapot felmérés BCI segítségével
Idősor előrejelzés Önálló laboratórium 2. Kollár Péter Attila ICG36F Konzulens: Dr. Pataki Béla.
Emberi Erőforrás Menedzsment Munkakör-értékelés EEM.4.
Önálló labor munka Csillag Kristóf 2004/2005. tavaszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Rendezések és szövegkezelő függvények
1 AAO folytatás ++ Csink László. 2 Rekurzív bináris keresés (rendezett tömbben) public static int binker(int[] tomb, int value, int low, int high) public.
Programozási Paradigmák és Technikák
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
BAY-IKTI BATSY kompetencia Ipari Kommunikációs Technológiai Intézet
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
BelAmI2 projekt beszámoló Vida Rolland - BME március 1.
A Dijkstra algoritmus.
IKT az informatikus könyvtáros képzésben az egri főiskolán Dr. Tóvári Judit főiskolai tanár Dr. Tóvári Judit főiskolai tanár.
Adatbányászat Excel 2007-tel
Power Lutár Patrícia Pellek Krisztián.  -ltLess than  -leLess than or equal to  -gtGreater than  -geGreater than or equal to  -eqEqual to  -neNot.
Edényrendezés. Működés, elvek - Az edényrendezés nem összehasonlító rendezés. - A rendezendő elemeket nem hasonlítjuk össze, hanem a rendezés során az.
Adatbányászati módszerek a weblogfájlok elemzésében
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1. Egyetemi konzulens: dr. Dobrowiecki Tadeusz (BME MIT)
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
A 2. géptermi beszámoló VBA anyagának összefoglalása
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
Huffman kód.
3D képek a fotóidból Tövissy Judit.
TÁMOP /1-2F Informatikai gyakorlatok 11. évfolyam Alapvető programozási tételek megvalósítása Czigléczky Gábor 2009.
Személyes információszervezés a gyakorlatban JÁVORKA BRIGITTA ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR – KÖNYVTÁRI INTÉZET.
Alapvető raszteres algoritmusok, szakasz rajzolása, DDA, MidPoint algoritmus.
KÓRHÁZI ACINETOBACTER BAUMANNII TÖRZSEK JELLEMZÉSE
Mediánok és rendezett minták
Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Intézményi szintű oktatási innovációk Magyarországon: az óvodáktól a doktori iskolákig Innováció, kutatás, pedagógusok HuCER május Halász.
Algoritmusok és Adatszerkezetek I.
ABC és XYZ elemzések.
iOT eszközök által rögzített adatok feldolgozása, megjelenítése
Szani Ferenc, Pitlik László, Balogh Anikó
Informatikai gyakorlatok 11. évfolyam
….mert a ritka betegségek ellátása
Algoritmusok és Adatszerkezetek I.
Dijkstra algoritmusa: legrövidebb utak
Dijkstra algoritmusa: legrövidebb utak
Dijkstra algoritmusa: legrövidebb utak
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Algoritmusok és Adatszerkezetek I.
Algoritmusok és Adatszerkezetek I.
Extra-analitikai munkacsoport
Előadás másolata:

Idősor karaktersorozatként való vizsgálata – SAX algoritmus Szabó Dániel Konzulens: dr. Dobrowiecki Tadeusz Önálló Labor előadás december 12.

Áttekintés Adatbányászat (Data Mining) –Orvosi adatbányászat (Data Mining in Clinical Medicine) Idősorok vizsgálata (Temporal Abstraction) –Időkeretek összehasonlítása (Temporal Pattern Matching) »SAX algoritmus (Symbolic Aggregate ApproXimation)

Előrejelzés adatbányászattal az orvostudományban Orvosi adatbányászat: olyan területeken alkalmazott, amelyek nagyméretű adathalmaz feldolgozását igénylik (molekuláris kutatások, genetikai adatok) Egyik fontos területe az idősorok vizsgálata (Temporal Abstraction, TA) Rendszeresen (akár folytonosan) mért adatok elemzésére szolgál (pl. vércukorszint változása, szívverés, ECG), ezek viselkedésére próbál magyarázatot találni

A tudásalapú időbeli absztrakció Knowledge-Based Temporal Abstraction, KBTA: egy idősorra alkalmazott adatbányászati módszer, melynek során az adott feladat öt részfeladatra oszlik, ezek közül mindegyikre különböző tudástípusokat alkalmazva más-más módszerek használatosak Az öt részfeladat közül az egyik az idősor mintázatait hasonlítja össze (Temporal-pattern matching) osztályozás segítségével (Classification knowledge)

Az idősor mintáinak hasonlósága Brute Force Algorithm: quadratic in the length of the time series „Poppet pulled significantly out of the solenoid before energizing” Symbolic Aggregate ApproXimation (SAX): 3 to 4 orders of magnitude Faster than brute force

Symbolic Aggregate ApproXimation (SAX) Egy n hosszúságú C idősor w egyenlő méretű keretre osztása (PAA – Piecewise Aggregate Approximation) Gauss-görbe a db egyenlő területre osztása alapján a ß értékek (Breakpoint) meghatározása

Symbolic Aggregate ApproXimation (SAX) Az azonos breakpointok közé kerülő keretek ugyanazt a szimbólumot kapják Végül az idősor helyett egy karaktersorozatot kapunk: cbccbaab

SAX – fa (trie) építése A külső és belső heurisztikához használt adatstruktúrák: 1. Egy tömb készítése az egymást követő SAX szavakból. A szó hossza adott. Az utolsó oszlop a szó előfordulásának számát tartalmazza. 1.caa3 2.cab1 3.caa3 …………… …………… (m-n)-1cbb2 (m-n)acb1 (m-n)+1bca2

SAX – fa (trie) építése 2. Egy fa (trie) építése a szókészlet alapján. A fa levelein az adott szavak táblázatban elfoglalt helye található. A ritkán előforduló szavak ennek segítségével gyorsan megtalálhatók.

SAX algoritmus megvalósítása MATLAB-bal Gauss.m – ‘a’ bemeneti értékre kiszámolja az a-1 db breakpoint (ß) értékét Sax.m – a szimbólumok száma (=ß+1) és a keret méretének hossza alapján reprezentálja a kapott karaktersorozatot

Programfutás eredménye Szinuszgörbe -3*pi és 3*pi között, A=4 amplitúdóval

Felhasznált irodalom Riccardo Bellazzi, Fulvia Ferrazzi, Lucia Sacchi: Predictive data mining in clinical medicine: a focus on selected methods and applications. WIREs: Data Mining and Knowledge Discovery, Volume 1, September/October 2011, p Yuval Shahar: A framework for knowledge-based temporal abstraction. Artif Intell 1997, 90: Eamonn Keogh, Jessica Lin, Ada Fu: HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence. In proceedings of the 5th IEEE International Conference on Data Mining. Houston, TX. Nov 27-30, pp J. Lin, E. J. Keogh, L. Wei, and S. Lonardi. Experiencing SAX: a novel symbolic representation of time series. Data Min. Knowl. Discov., 15(2), 2007.