Master Informatique 20 10. 03. 24. 1 dr. Kiss AttilaXML kutatási irányok.

Slides:



Advertisements
Hasonló előadás
Tananyag: konzultáció
Advertisements

Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Anyagadatbank c. tárgy gyakorlat
Adatbázis kezelés. Hierarchikus modell Legrégebbi modell, ma már nem használatos. Az adatokat fákban tároljuk, ahol minden pont a szegmens adatokat, és.
SQL Server 2005 Reporting Services a gyakorlatban
Az Internet elemei és hozzáférési technológiái Az Internet architektúrája.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Hatékony gyorsítótár használata legrövidebb utak kereséséhez Bodnár István, Fodor Krisztián, Gyimesi Gábor Jeppe Rishede Thomsen, Man Lung Yiu, Christian.
Adatbázis-kezelés.
Bevezetés a Java programozásba
Fejlett programozási technikák II.
Adatbázis-kezelés ACCESS program:
Entity framework Krizsán Zoltán
ADATBÁZISOK
Érettségi feladatok megoldása LINQ-kel
Master Informatique dr. Kiss AttilaInformációs Rendszerek Tanszék (TÁMOP 421/B ) Adatbázis-kezelés és számítógépes hálózatok technológiái.
Adatbázis-kezelés Papp-Varga Zsuzsanna. Elérhetőségek    as.
RDF és SPARQL. Felhasznált anyagok Marcelo Arenas, Claudio Gutierrez, Jorge Peréz: RDF and SPARQL: Database Foundations (bemutató) Claudio Gutierrez,
Kiss Attila: Korszerű adatbázisok Adatbázis kutatási eredmények a TÁMOP támogatásával Június 7. Visegrád.
Master Informatique dr. Kiss AttilaXML adatbázisok strukturális indexelése XML adatbázisok strukturális indexelése (Structural indexes.
Önleíró adatok: XML INFO ÉRA, Békéscsaba
Query-Aware Compression of Join Results Christopher M. Mullins, Lipyeow Lim, Christian A. Lang feldolgozta: Ancsin Attila, Dananaj Pál, Horváth Viktor.
SOAP alapismeretek A SOAP egy egyszerű XML alapú protokoll, ami lehetővé teszi, hogy az alkalmazások információt cseréljenek a HTTP-én keresztül. Forrás:
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
XML támogatás adatbázis-kezelő rendszerekben
Microsoft BI technológiák az eszközmenedzsment szolgálatában
Metaadatok és digitális szövegek Bakonyi Géza SZTE Egyetemi Könyvtár.
Nyílt könyvtári gyűjtemények az Interneten Szabványos metaadatok: átjárhatóság Tapolcai Ágnes MEK Osztály.
Webes Információs Rendszerek fejlesztése
Anyagadatbank c. tárgy gyakorlat Féléves tematika Adatbázis alapfogalmak, rendszerek Adatmodellek, adatbázis tervezés Adatbázis műveletek.
Dr. Krauszné Dr. Princz Mária Adatbázis rendszerek I.
1 Informatikai Szakképzési Portál Adatbázis kezelés Alapfogalmak.
(e)CTD Dr. Zajzon Gergely
Fejlesztés PHP-NUKE portál rendszerre Horváth Zoltán Második Magyarországi PHP Konferencia március 27. Copyright PHP Konferencia,
Hernyák Zoltán XSLT transzformációk.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Adatbázis kezelés.
XML fejlesztések TSQL fejlesztések Tábla paraméter SQLCLR fejlesztések 8k limit feloldása Több paraméteres UDA-ek Ordered UDF-ek Entity Framework ADO.NET.
ORACLE ORDBMS adminisztrációs feladatok 3. rész dr. Kovács László 2004.
XML adatkezelés 1. témakör Az XML szabvány.
– SQL 3: SELECT - 1. – Tarcsi Ádám, január 31. Adatbázis gyakorlat.
– SELECT - 2. – Tarcsi Ádám március Adatbázis gyakorlat.
Adatbázisok tervezése, megvalósítása és menedzselése
XML Mi az XML?  Extensible Markup Language  Kiterjeszthető jelölő nyelv  Adatok, adatstruktúrák leírására szolgál  A HTML és az SGML tapasztalataira.
Szerver és kliens gép közötti kommunikáció Adattárolási modellek  OLTP: OnLine Transaction Processing az MSSQL Szervert egy időben egyszerre sok felhasználó.
Slides for Quantum Computing and Communications – An Engineering Approach Chapter 7 Searching in an Unsorted Database Sándor Imre Ferenc Balázs.
Webprogramozó tanfolyam
Illés Zoltán ELTE Informatikai Kar
Adatbányászati módszerek a weblogfájlok elemzésében
– SELECT - 1. – Tarcsi Ádám január Adatbázis gyakorlat.
Egy lekérdezés végrehajtása SELECT o1 FROM T1 WHERE o2 = … Hogyan jutnak el a megfelelő sorokból a mező értékei a klienshez?
Master Informatique dr. Kiss AttilaAz Oracle XML DB.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
Memóriakezelés feladatok Feladat: 12 bites címtartomány. 0 ~ 2047 legyen mindig.
Gráfadatbázisok Rácz Gábor.
Fájlszervezés Adatbázisok tervezése, megvalósítása és menedzselése.
Indexek 22 Index Table Key Row pointer … WHERE key = 22.
Adatbázisszintű adatmodellek
Kiss Tibor System Administrator (MCP) ISA Server 2006.
Internet-alapú információcsere és adatvalidáció bibliográfiai adatbázisok között Internet-based information exchange and content validation between bibliographic.
Készítette: Kiss András
Adatbázisok tervezése, megvalósítása és menedzselése
Logisztikai projekt - gyakorlat Adatbázis-elmélet
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Lívia Vasas, PhD 2019 Disszertációk Lívia Vasas, PhD 2019.
2-3-fák A 2-3-fa egy gyökeres fa az alábbi tulajdonságokkal:
Cache példák 2019 (IMSC).
Előadás másolata:

Master Informatique dr. Kiss AttilaXML kutatási irányok

Master Informatique dr. Kiss AttilaXML kutatási irányok Információs Rendszerek Tanszéken folyó kutatások Kutató Egyetem pályázat 2 csoport (hálózatok, adatbázisok) Heti 2 szeminárium 2010 februártól kezdve Lukovszki Tamás (hétfő 10-12, 2.519): hálózati topológiák –Ács Zoltán –Agócs Ádám –Balaton Attila –Laki Sándor –Benczúr András, Kiss Attila –szakdolgozók Kiss Attila (péntek 9-11, 2.519): adatbázisok, XML, kockázatkezelés, projektütemezések matematikai modelljei –Kósa Balázs –Nyitrai Erika –Varga Balázs –Menyhárt László –Szabó Gyula –Benczúr András –Rácz Gábor (szakdolgozó) –BsC-s, MsC-s hallgatók

Master Informatique dr. Kiss AttilaXML kutatási irányok Hogy néz ki egy XML dokumentum? CS 501 Ron Charles

Master Informatique dr. Kiss AttilaXML kutatási irányok Az XML dokumtumfa Path Expression: /course Textual Representation: 4 o1 o2 o5 o3 o4 o7 o6 o9 o8 o11 o10o12o14 o13 o15o17 o16 o18 o26 o25o27o21 o24o28o22o20 o19o23 course instructor “Ron Charles” name “CS 501” students “Alice” a1 a2 midterm project “78” “Bob” a1 a2midterm finalexam “69”“71”“82” Path Expression: /course/name/text() Textual Representation: CS 501 “60” Path Expression: /course/name Textual Representation:

Master Informatique dr. Kiss AttilaXML kutatási irányok Klasszikus feladatok XML-re A klasszikus relációs adatbázis-kezelési technológiákat XML adatbázisokra is ki kell terjeszteni: –hatékony tárolás (natív vagy relációs adatbázisban) –hatékony lekérdezés, karbantartás (indexeket is) –jogosultságok kezelése –tranzakció-kezelés –adatbányászat

Master Informatique dr. Kiss AttilaXML kutatási irányok Hatékony XML lekérdezések indexelési technikákkal 1.Értékek indexelése –az atomi értékeket (például: data(//emp/salary)) indexeljük –általában B + -fákat használunk 2.Szöveges indexelés –az XML dokumentumot közönséges szöveges állománynak tekintjük –a kulcsszavak keresése invertált indexekkel segíthető 3.Strukturális címkézés (számozási sémák) –az előd/utód reláció gyors eldöntésére szolgál 4.Strukturális indexek –materializálja adott típusú ösvénykifejezések eredményeit

Master Informatique dr. Kiss AttilaXML kutatási irányok A strukturális indexelési technikák

Master Informatique dr. Kiss AttilaXML kutatási irányok A struktúra tömörebb tárolása 1-indexszel 1 paper 2,4,8,13 section 3,5,9,14 title 6,10 algorithm 7 proof 11 proof 12 uses 15,16 17,18 about exp 1-index 1 paper 4 section 5 title 6 algorithm 7 proof 8 section 9 title proof 12 uses algorithm 13 section about title 2 section 3 title exp Adatgráf /paper/section/algorithm

Master Informatique dr. Kiss AttilaXML kutatási irányok Oracle XMLIndex Az XMLIndex 3 komponensből áll –Útvonalindex (path index) –Címkéző index (order index) –Értékindex (value index) Néhány eset, amikor nem használható: –felhasználó által definiált XPath függvények – child, descendant és attribute irányoktól eltérő irányok –uniót ( | ) használó kifejezések

Master Informatique dr. Kiss AttilaXML kutatási irányok XMLIndex Path Table szerkezete ColumnData Type PATHIDRAW(8) RIDROWID ORDER_KEYRAW(1000) LOCATORRAW(2000) VALUE VARCHAR2(4000) A Locator a töredék gyorsabb eléréséhez szükséges mutató.

Master Informatique dr. Kiss AttilaXML kutatási irányok Az OrderKey (Dewey Order) name child person hobby

Master Informatique dr. Kiss AttilaXML kutatási irányok XMLIndex Path Table szerkezete SBELL PDT SVOLLMAN... ABEL PST ZLOTKEY KING...

Master Informatique dr. Kiss AttilaXML kutatási irányok XMLIndex Path Table szerkezete PATHIDIndexed XPath 1/PurchaseOrder 2/PurchaseOrder/Reference 3/PurchaseOrder/Actions 4/PurchaseOrder/Actions/Action 5/PurchaseOrder/Actions/Action/User

Master Informatique dr. Kiss AttilaXML kutatási irányok XMLIndex Path Table szerkezete PATHIDRIDORDER_KEYVALUE 1 R11 —— 2 R1 1.1 SBELL PDT 3 R1 1.2—— 4 R —— 5 R SVOLLMAN 1 R2 1—— 2 R2 1.1 ABEL PST 3 R2 1.2—— 4 R —— 5 R ZLOTKEY 4 R —— 5 R KING

Master Informatique dr. Kiss AttilaXML kutatási irányok Néhány kutatási téma 2010-es XML konferenciák tükrében XML Prague 2010, March 13th & 14th –XML Lifecycle (diffing, merging, change tracking, etc.) –Efficiency and performance in XML (verbosity, processing, overuse) –Hypermedia in XML (SMIL, SVG animations) –Spatial data and XML (WGS84, microformats) –XML all the time (XRX, XQuery web applications) DBKDA 2010 April 11-16, Menuires, France XML-driven data, knowledge, databases: –Data /dissemination, distributed, processing, management/; –XML-data /storage, exchange, compress, metadata/; –XML-data and metadata management; –XML repositories; –Knowledge discovery from XML repositories; –XML-data processing /queries, indexing, management, retrieval, mining/; –XML data and knowledge /representation, discovery, mining, orchestration/; –XML-data in advances environments /clouds, P2P, multimedia, mobile, finance, biotechnologies, geospatial, space/; –XML-data and process /data warehouse, workflow, web, learning, control/; Balisage: The Markup Conference 2010 August 03-06, 2010 Montreal, Canada –Xsd, XQuery, Xslt, Rdf, Sgml, Lmnl, Xsl Fo, Xtm, Svg, Math Ml, Owl, Tex Mecs, Rng, Topic Maps, Document Modeling, Overlap, Ontologies, Xml, Ubl, Metadata

Master Informatique dr. Kiss AttilaXML kutatási irányok Advanced Techniques on XML Data Management (XML-DM 2010) July 15, 2010, Jiuzhai Valley, China * XML data integration * XML data storage and indexing * XML query languages and optimization * XML views and data publishing * XML applications in semantic web * XML data mining * XML change management * XML views and data mappings * XML data compression * XML in Web services * XML benchmark and performance studies * XML applications in new domains- sensor and biological data management * XML in cloud computing

Master Informatique dr. Kiss AttilaXML kutatási irányok XML tömörítés - motiváció Egyre több XML adat keletkezik –Struktúrák ismétlődnek (címkék, útvonalak…) –Adatinfláció: az XML formában tárolt adatok mérete nagyobb, mint a nyers adatoké –Tömörítés célja: tárméret csökkentése, adatátvitel gyorsítása (hely, idő) Használjunk általános tömörítő algoritmust (például gzip-et)? –az XML adatok jellemző struktúráját elveszítjük, –nem lehet lekérdezni.

Master Informatique dr. Kiss AttilaXML kutatási irányok Tömörítés adatbázis-kezelőkben Oracle: –XOP - XML-binary Optimized Packaging // Compress the Message Content CompressionAgent cagent = new CompressionAgent("oracle:xml:compression"); byte [ ] input = cagent.compress(message); DB2: –XML Inlining create table mytab1 (a int, b char(5), c clob inline length 1000);

Master Informatique dr. Kiss AttilaXML kutatási irányok Példa: Webszerver naplóállományok (Web Server Logs) |GET / HTTP/1.0|text/html|200|1997/10/01-00:00:02|-|4478|-|-| GET / HTTP/1.0 text/html /10/01-00:00: Mozilla/3.1$[$ja$]$(I) GET / HTTP/1.0 text/html /10/01-00:00: Mozilla/3.1$[$ja$]$(I) ASCII File 15.9 MB (gzipped 1.6MB): XML formájú apache web log mérete 24.2 MB (gzipped 2.1MB):apache web log

Master Informatique dr. Kiss AttilaXML kutatási irányok XML-specifikus tömörítők Vannak nem lekérdezhető tömörítők (például XMill): –Nagy darabokat tömörít. –Nagyon jó tömörítési arány Lekérdezhető tömörítők (például XGrind, XPRESS): –Kisebb szemcséket tömörít. –Gyengébb tömörítési arány és tömörítési idő –Egyszerű ösvénykifejezésekkel lekérdezhető (atomi predikátum is használható)

Master Informatique dr. Kiss AttilaXML kutatási irányok XML tömörítés fontosabb jellemzői Tömörítési arány, tömörítési idő, lekérdezhető-e, szükséges memória mérete, stb. Néhány tömörítési algoritmus

Master Informatique dr. Kiss AttilaXML kutatási irányok Ötlet Az XML fa struktúrájú. Különítsük el a fa struktúrát és azokat az adatokat, amiket a levelek tárolnak. Kenyérfa (Hawaii)

Master Informatique dr. Kiss AttilaXML kutatási irányok XMill Ez volt az első XML tömörítő –SAX parser használ XML elemzéséreSAX parser –gzip tömörítőt használ –az adatokat tömörítés előtt konténerekbe csoportosítja Az XML tömörítéshez három technikát használ –Az adatoktól leválasztott struktúrát külön tömöríti –Az adatokat típus szerint csoportosítja (Elnevezés: szemantikus konténer). –A típusnak megfelelő tömörítővel külön tömöríti az adatcsoportokat. (Elnevezés: szemantikus tömörítő használata). Letölthető: –

Master Informatique dr. Kiss AttilaXML kutatási irányok XMill felépítése:

Master Informatique dr. Kiss AttilaXML kutatási irányok Hogy működik az Xmill? GET / HTTP/1.0 text/html 200 … GET / HTTP/1.0 text/html 200 … gzip: struktúragzip: adatok =1.75MB + A struktúrát az adatoktól függetlenül tömörítjük:

Master Informatique dr. Kiss AttilaXML kutatási irányok Hogy működik az Xmill? … … gzip: struktúragzip: IP címek =1.33MB + GET / HTTP/1.0 GET / HTTP/1.1 … GET / HTTP/1.0 GET / HTTP/1.1 … gzip: web műveletek + Típus szerint csoportosítjuk az adatokat. Egyszerű feltétel: Azonos címke azonos típus. Különböző címkék is jelenthetnek azonos típust:, A konténereket XPath kifejezésekkel a felhasználó is definiálhatja. (Ez a lépés DataGuide XML indexszel gyorsítható.)

Master Informatique dr. Kiss AttilaXML kutatási irányok Hogy működik az Xmill? gzip: struktúra + gzip: c1(adatok1) + gzip: c2(adatok2) +... =0.82MB Speciális (szemantikus) tömörítőket alkalmazunk. xmill -p //price=>i -p //state=>e file.xml Például: egészek kódolása 8, 16, vagy 32 biten (i) növekmények tömörítése (di) : például 1999, 1995, 2001, 2000, 1995,... esetén listák, rekordok tömörítése: (e) például  4 bájt A felhasználó választhat a szemantikus tömörítők közül.

Master Informatique dr. Kiss AttilaXML kutatási irányok A struktúra tömörítése Cseréljük az adatértéket a konténer (negatív) sorszámával. A zárócímkéket cseréljük le 0-ra. A címkéket/attribútumokat cseréljük le (pozitív) egészekre. Data Compression Gray Reiter Data Compression Gray Reiter Book = 1, Title = = 3, Author = Szótár nélkül 14 bájt Szótár alapú tömörítés: minden új szó egy új bejegyzés a szótárban Ismétlődő részstruktúrák esetén nagyon jó tömörítés érhető el.

Master Informatique dr. Kiss AttilaXML kutatási irányok Kísérleti eredmények (bit/bájt) 1.oszlop: gzip (ASCII) 2.oszlop: gzip (XML) 3.oszlop: XMILL (minden adat 1 konténerbe kerül) 4.oszlop: XMILL (minden címke 1 konténer) 5.oszlop: XMILL (a legjobb, amit más konténerre osztással el tudtak érni)

Master Informatique dr. Kiss AttilaXML kutatási irányok Lekérdezhető tömörítők XQzip: jellemzői: SIT indexet használ a lekérdezés kiértékeléséhez Blokkat tömörít: a hasonló adatokat blokkokba teszi és a blokkokat tömöríti, ezáltal a keresés+visszaállítás költségét javítja

Master Informatique dr. Kiss AttilaXML kutatási irányok Strukturális indexfa (SIT) A strukturális ismétlődéseket megszünteti. Két testvér csúcsot összevon, ha –a gyökérből ugyanolyan úttal érhetők el –a leszármazottaikhoz tartozó útvonalak rendezett listája megegyezik (dokumentum sorrend szerinti rendezésben). SIT index készítése: –Az XML fájl egyszeri lineáris végigolvasása. –Ha testvér gyökerű megegyező részfákat találunk, akkor összevonjuk a részfákat.

Master Informatique dr. Kiss AttilaXML kutatási irányok / d b d a b de cc e / d a b de c e c d cb d SIT index készítése , ,8,10,9,7,10

Master Informatique dr. Kiss AttilaXML kutatási irányok XQzip működése Indexelő : elkészíti a SIT indexet Tömörítő – A szemantikusan összetartozó (például azonos címkéjű) értékeket blokkokba teszi, majd – minden blokkot gzip-pel tömörít. Query Processor: lekérdezés feldolgozó – Elemez – Végrehajt: a SIT indexet használva értékeli ki a lekérdezést – Pufferkezelés ( LRU algoritmussal)

Master Informatique dr. Kiss AttilaXML kutatási irányok SIT index készítésének költsége N: az XML dokumentum elemeinek (címkék + attribútumok) száma Időbonyolultság: –Legrosszabb eset: O(N │SIT │) –Átlagos eset: O(N) Tárbonyolultság: –az összevonáshoz használt 2 részfa: ≤ 2│SIT │ –Az index csúcsokban tároljuk az összevont csúcsok azonosítóit: O(N)

Master Informatique dr. Kiss AttilaXML kutatási irányok Mekkora legyen a blokkméret ? A blokkat gzip-pel tömörítjük. A két véglet: –Külön blokk minden értéknek –Egy blokkba az összes azonos címkéjű érték Hatás: –Kis blokk: lekérdezési idő ↑tömörítési arány↓ –Nagy blokk: lekérdezési idő ↓tömörítési arány↑ –A helyes arány tapasztalati minták segítségével állítható be.

Master Informatique dr. Kiss AttilaXML kutatási irányok Mitől függ a blokkméret? Minták az adathalmazra és lekérdezésekre. Adathalmazban a szövegek, számok, aránya, szövegek bonyolultsága Lekérdezések szelektivitása Különböző típusú minták alapján a tapasztalati optimális blokkméret rekord.

Master Informatique dr. Kiss AttilaXML kutatási irányok Blokkméret

Master Informatique dr. Kiss AttilaXML kutatási irányok Milyen lekérdezésekre jó a XQzip? Minden XPath fel-le irány (axes) használható, az oldalirányok (preceding, following siblings) viszont nem. beágyazott, összetett predikátumok –and / or / not kifejezések Aggregáció: sum, count, average, max, min Unió: például L1/(L2 + L3 + L4) –L1 : //a[b = “ Crete ” ] (prefix) L2 : c –L3 : d[f/count() >100]L4 : e[//g]

Master Informatique dr. Kiss AttilaXML kutatási irányok Lekérdezés kiértékelése Az indexfa mélységi bejárása alapján A korábbi lekérdezések miatt kibontott blokkok a pufferben maradnak, először ott keressük Ha nincs ott, akkor a Hash tábla alapján megtaláljuk azokat a tömörített blokkokat, amelyeket vissza kell állítani. Pufferkezelés: Least Recently Used módszerrel

Master Informatique dr. Kiss AttilaXML kutatási irányok A SIT index előnye Kísérleti eredmények alapján: Indexméret : 1%-a az eredeti méretnek A keresés kétszer gyorsabb, mint az F&B- index esetén. Az index készítése 3-szor gyorsabb mint az F&B-index esetén.

Master Informatique dr. Kiss AttilaXML kutatási irányok Tömörítési arány: 1- méret(tömörített XML)/méret(XML) XQzip nagyjából olyan mint az XMill és gzip, de lekérdezhető. XQzip+ tartalmazza a SIT index méretét, XQzip nem. 17% -kal jobb, mint az XGrind.

Master Informatique dr. Kiss AttilaXML kutatási irányok XCQ tömörítés Négy technikát használ –DTD fát és SAX eseményfolyam elemzést (DSP) –Parciális ösvényalapú adatcsoportosítás formátumot (PPB) –Blokkstatisztika lenyomatú indexelés (BSS) –elérési módszerek (Access Methods) XCQ Compression Engine XCQ Querying Engine DTD XML dokumentum tömörített dokumentum eredmény XPath lekérdezés DSP PPG formatBSS indexing Access Methods

Master Informatique dr. Kiss AttilaXML kutatási irányok DTD fa és SAX (DSP) Cél: –A DTD sémaleírás felhasználása Előnyök: –Csak azt kell kódolni, ami DTD sémából nem következik –Az útvonalak alapján csoportosítja az adatokat

Master Informatique dr. Kiss AttilaXML kutatási irányok DSP – Input és Output A DTD fa Adatfolyam DSP Modul Struktúrafolyam SAX események folyama

Master Informatique dr. Kiss AttilaXML kutatási irányok Első lépés – a DTD fa készítése <!ELEMENT entry (author, title, year, publisher?, (paper|course_note|book), num_copy)> Key: : PCDATA library author (name) titleyear num_copy paper course_note book entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok Minek mi felel meg a DTD fán? <!ELEMENT entry (author, title, year, publisher?, (paper|course_note|book), num_copy)> Key: : PCDATA library author (name) titleyear num_copy paper course_note book entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok 2. lépés DSP feldolgozás A következő XML dokumentumot fogjuk a DTD alapján feldolgozni. A feldolgozás során egy struktúrafolyam és egy adatfolyam keletkezik. Introduction to "OS"

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node Start element – “library” Structure Stream: Data Streams: Introduction to "OS" entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node Start element – “entry” Structure Stream: Data Streams: T Match! Introduction to "OS" entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node Start element – “author”, att0:name=“Tom” End element – “author” Structure Stream: Data Streams: T Match! d0, d0 d0: Tom Introduction to "OS" entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node Start element – “title” PCDATA – “Introduction to "OS "” End element – “title” Structure Stream: Data Streams: T, d0, d1 d0: Tom d1: Introduction to "OS " Introduction to "OS" entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node SAX Events: Start element – “year” PCDATA – “2003” End element – “year” Start element – “course_note” Structure Stream: Data Streams: T, d0, d1, d2 d0: Tom d1: Introduction to "OS " d2: 2003 Not match! F, F Introduction to "OS" entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node Start element – “course_note” End element – “course_note” Structure Stream: Data Streams: T, d0, d1, d2, F d0: Tom d1: Introduction to "OS " d2: 2003 p1 Not match! Match!, p1 Introduction to "OS" p1 p0 p2 entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok SAX Event: library author (name) titleyear num_copy paper course_note book Keys: : Traversal path : PCDATA : Processing DTD tree node Start element – “num_copy” PCDATA – “3” End element – “num_copy” End element – “entry” Structure Stream: Data Streams: T, d0, d1, d2, F, p1 d0: Tom d1: Introduction to "OS " d2: 2003 d4: 3 Introduction to "OS" entry* publisher? |

Master Informatique dr. Kiss AttilaXML kutatási irányok 3 lépés – az output generálása Struktúrafolyam SZÓTÁR Az útvonalak és azonosítójuk. d0: d1: /library/entry/title/text() d2: /library/entry/year/text() d3: /library/entry/publisher/text() d4: /library/entry/num_copy/text() d0d1d2d3d4

Master Informatique dr. Kiss AttilaXML kutatási irányok A XCQ tömörítés Négy technikát használ (a 2-3 technikát most átugorjuk) –DTD fát és SAX eseményfolyam elemzést (DSP) –Parciális ösvényalapú adatcsoportosítás formátumot (PPB) –Blokkstatisztika lenyomatú indexelés (BSS) –elérési módszerek (Access Methods) XCQ Compression Engine XCQ Querying Engine DTD XML dokumentum tömörített dokumentum eredmény XPath lekérdezés DSP PPG formatBSS indexing Access Methods

Master Informatique dr. Kiss AttilaXML kutatási irányok 4. Elérési módszerek Cél –Lekérdezések kiértékelése a tömörítés alapján 4 féle lekérdezésre jó –Szelekciós –Strukturális –Strukturális aggregációs –Ösvényalapú aggregációs

Master Informatique dr. Kiss AttilaXML kutatási irányok Szelekciós and publisher/text()=“ABC”] Structure Stream Szótár d0: d1: /library/entry/title/text() d2: /library/entry/year/text() d3: /library/entry/publisher/text() d4: /library/entry/num_copy/text() d0d1d2d3d4

Master Informatique dr. Kiss AttilaXML kutatási irányok Strukturális /library/entry/author Structure Stream Szótár d0: d1: /library/entry/title/text() d2: /library/entry/year/text() d3: /library/entry/publisher/text() d4: /library/entry/num_copy/text() d0d1d2d3d4

Master Informatique dr. Kiss AttilaXML kutatási irányok Strukturális aggregációs count(//entry) Structure Stream Szótár d0: d1: /library/entry/title/text() d2: /library/entry/year/text() d3: /library/entry/publisher/text() d4: /library/entry/num_copy/text() d0d1d2d3d4

Master Informatique dr. Kiss AttilaXML kutatási irányok Ösvényalapú aggregációs sum(//num_copy/text()=1) Structure Stream Szótár d0: d1: /library/entry/title/text() d2: /library/entry/year/text() d3: /library/entry/publisher/text() d4: /library/entry/num_copy/text() d0d1d2d3d4

Master Informatique dr. Kiss AttilaXML kutatási irányok Tömörítési arány XMill-lel azonos

Master Informatique dr. Kiss AttilaXML kutatási irányok Tömörítési idő

Master Informatique dr. Kiss AttilaXML kutatási irányok Visszaállítási idő

Master Informatique dr. Kiss AttilaXML kutatási irányok Lekérdezésekben jobb mint az XGrind

Master Informatique dr. Kiss AttilaXML kutatási irányok Néhány alapcikk az XML tömörítési témából XMILL: An Efficient Compressor for XML Data by Liefke and Suciu, in SIGMOD'2001XMILL: An Efficient Compressor for XML Data P. M. Tolani and J. R. Haritsa. XGRIND: A Query-friendly XML Compressor. IEEE ICDE Conf., pp , 2002.A Query-friendly XML Compressor M. Girardot and N. Sundaresan. Millau: an encoding format for efficient representation and exchange of XML over the Web. WWW Conf., pp , H. Ishikawa, S. Yokoyama, S. Isshiki and M. Ohta. Project Xanadu: XML- and Active-Database-Unified Approach to Distributed E- Commerce. Int. Workshop on DEXA, XML- and Active-Database-Unified Approach to Distributed E- Commerce A.Arion, A. Bonifati, G. Costa, S. D’Aguanno, I. Manolescu, A. Pugliese, Efficient Query Evaluation over XML Compressed Data, EDBT 2004.Efficient Query Evaluation over XML Compressed Data JunKi Min, MyungJae Park, ChinWan Chung, XPRESS: A Queriable Compression for XML Data, EDBT 2004.XPRESS: A Queriable Compression for XML Data Wilfred NG, Wai-Yeung LAM, Peter WOOD and Mark LEVENE. XCQ: A Queriable XML Compression System. Accepted and to appear: An International Journal of Knowledge and Information Systems, (2005).XCQ: A Queriable XML Compression System.

Master Informatique dr. Kiss AttilaXML kutatási irányok

Master Informatique dr. Kiss AttilaXML kutatási irányok Köszönöm a figyelmet! Tömörített állomány