Dublin Core mint metaadat szabvány gyakorlati alkalmazása Szluka Péter Semmelweis Egyetem Központi Könyvtár pszluka@lib.sote.hu Informatio Medicata 2009
Miről lesz szó? Metaadat fogalma Dublin Core és alkalmazásai Adatok begyűjtése (OAI-PMH protokoll) DC az MTMT-ben Informatio Medicata 2009
Metaadatok Kiegészítő adatok valamilyen tartalomról Pl.: Publikációk bibliográfiai adatai Kereshetőséget segítik Beágyazva, vagy különállóan is szerepelhetnek Először is nézzük meg, mit jelent a metaadat fogalom. A Metaadatok valamilyen tartalomhoz, pl. fényképekhez, videókhoz, cikkekhez rendelt adatokat jelentenek. Azt is mondhatjuk, hogy a metaadat tulajdonképpen adat az adatról. Ezek az adatok kapcsolódnak a tartalomhoz, pl. egy digitális fénykép esetén az úgynevezett EXIF információk, azaz a kép készítésének dátuma, a fényképezésnél használt technikai paraméterek, de ilyen meaadatok a különböző publikációk bibliográfiai adatai is. A metaadatok segítségével a keresési műveletek sokkal hatékonyabban alkalmazhatóak, hiszen az egyes elemekre szűkítve specifikus kereséseket hajthatunk végre. A metaadatok általában a tartalomba ágyazva találhatók meg (Pl. a digitális fényképeken a .jpg fájl tartalmazza a metaadatokat is), de el is választhatóak a tartalomtól, ez későbbi alkalmazások szempontjából lesz érdekes. Informatio Medicata 2009
Dublin Core DC: Szabványos Metaadat formátum Simple Dublin Core: 15 elem Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights Qualified Dublin Core: további kiterjesztések A Dublin Core egy szabványos metaadat formátum, mely 15 úgynevezett tag-ből, vagyis elemből áll. A szabvány definiálja, hogy az egyes elemek mit jelentenek, valamint egyes esetekben hivatkozik más szabványokra az elemek kitöltésében. (Pl. dátum formátum esetében) A dián az egyszerű DC-ban használható elemek láthatóak felsorolva. A Dublin Core szabvány első verziójában biztosított elemek nem bizonyultak elégségesnek, így megjelent a Qualified Dublin Core verzió, mely további elemekkel bővítette az eredeti készletet , valamint az egyes tag-ek specifikálhatóságát teszi lehetővé. pl. a Dátum esetében megmondható, hogy milyen dátumot értünk alatta (Készítés dátuma, publikálás dátuma, stb..) Informatio Medicata 2009
Példa DC leírásra <metadata> <dc:title>Using Structural Metadata to Localize Experience of Digital Content</dc:title> <dc:creator>Dushay, Naomi</dc:creator> <dc:subject>Digital Libraries</dc:subject> <dc:description>With the increasing technical…</dc:description> <dc:description>Comment: 23 pages including 2 appendices, 8 figures</dc:description> <dc:date>2001-12-14</dc:date> <dc:type>e-print</dc:type> <dc:identifier>http://arXiv.org/abs/cs/0112017</dc:identifier> </metadata> Itt egy példát láthatunk egy különálló metaadat fájlra, úgynevezett XML struktúrában. Ez a megjelenítési forma alkalmassá teszi számos módon való feldolgozást, pl. webes alkalmazásokban, akár közvetlenül HTML kódba is ágyazható. (Magyarázat nyitó és záró tag-ek között az adat….) Informatio Medicata 2009
Dublin Core alkalmazási lehetőségei Web felületen megjelenített tartalmak metaadatokkal történő ellátása A keresőrobotok hatékonyságának növelése (Keresés csak adott mezőkben) Begyűjtéses (harvester) adatcseréhez jól használható A Dublin Core nagyon jól használható a különböző webes tartalmak metaadatokkal való ellátására, pl. a webes tartalom esetén. Segítségével sokkal hatékonyabban tudnak keresni a robotok, képek, hangok, videók esetén szinte az egyetlen használható módszer, egyébként csak a fájlok nevének indexelése jelenthet valamilyen megoldást. A legnagyobb előnye mégis a szabványos adatcsere lehetősége, ezért is használja kötelezően megvalósítandó metaadatformátumként a legnépszerűbb begyűjtési protokoll, az OAI-PMH Informatio Medicata 2009
Begyűjtési technika I. Az adatszolgáltatás és a szolgáltatást (pl. keresés) nyújtó rész elkülönítése Data Provider (Metadata) Data Provider (Metadata) Data Provider (Metadata) Service Provider (Harvester) Service Provider (Harvester) Vizsgáljuk meg, hogy mire használhatóak hatékonyan ezek a metaadatok! Tegyük fel, hogy van három könyvtár, akiknek van bibliográfiai adatbázisa, hívjuk őket Data Provider-nek, azaz adatszolgáltatónak. A bibliográfiai adatok metaadatnak tekinthetők, ezeket szabványos DC leírással kezeljük. Lehetővé tesszük, hogy úgynevezett „szolgáltatást nyújtó” (Service Provider) entitások kapcsolódjanak hozzájuk, és a metaadatokat begyűjtsék, majd ezekből a begyűjtött adatokból keresést, böngészést tesznek lehetővé. A Service Providerek minden könyvtárban megvalósíthatóak, akár közös felületen is, mindhárom forrás adataiban képesek keresést végezni. Szolgáltatás Felhasználó Szolgáltatás Felhasználó Informatio Medicata 2009
Begyűjtési technika II. Begyűjtő protokoll: OAI-PMH Minden adatszolgáltató megvalósíthatja a szolgáltatást nyújtó részt is Autonóm módon működhetnek az egyes szolgáltató helyek, a keresés közös. Az adatoknak függetleneknek kell lennie Duplumok kezelése nehezen megvalósítható Az egyes adatszolgáltatóktól való begyűjtésre alkalmas szabvány, az OAI-PMH protokoll, melynek segítségével bármely résztvevő megvalósíthatja a szolgáltatást nyújtó részt: learathatja a megfelelő DC formátumban tárolt metaadatokat. Az egyes adatszolgáltató helyek autonóm, mégis együttesen kereshető rendszert alkotnak. Természetesen ennek a szabadságnak ára van, az adatbázisok autonómiája miatt csak független adatokat tartalmazhat, ennek eredményeképpen azonos rekordok több adatbázisban is szerepelhetnek. Az így jelen lévő duplumok kezelése, valamint az összefüggő adatok összekapcsolása algoritmikus úton nehezen megvalósítható. Informatio Medicata 2009
DC az MTMT-ben: miért? Szabványos lekérdezési felület DC: Magyar Szabvány DRIVER (Digital Repository Infrastructure Vision for European Research) Az MTMT-ről (Magyar Tudományos Művek Tára) ma már esett szó. Az MTMT esetében is hasznos lehet valamilyen szabványos lekérdezési felület. A Dublin Core több tekintetben is célnak megfelelő, ráadásul magyar szabvánnyá is vált. Az MTMT-ben a Dublin Core-t használó OAI-PMH implementálása folyamatban van. A DRIVER project céljául tűzte ki egy európai kutatóhálózat létrehozását, ami Open Access repozitóriumok összekapcsolását jelenti Bár az MTMT nem repozitóriumként működik, és ez tudomásom szerint nem is célja, a bibliográfiai adatok, azaz a metaadatok mindenképpen rendelkezésre állnak, így akár egy közös repozitóriumi együttműködésre is leghetőség nyílik. Informatio Medicata 2009