Képek <metaadatok> Tisztelt Elnök Úr, kedves kollégák! Káldos János Országos Széchényi Könyvtár Networkshop 2004. Április 5-7 Győr Tisztelt Elnök Úr, kedves kollégák! Talán nem kell különösebben bizonygatni, hogy a digitalizálás és a digitális dokumentumok szolgáltatása alapvetően felforgatja a hagyományos könyvtári feladatokat. Előadásomban – látványos, szép kódexek, metszetek és térképek ---- helyett - <kacsacsőrbe zárt> adatokról, metaadatok sokaságáról lesz szó. Azt szeretném bizonyítani, hogy a digitalizálási projekteknek kulcsfontosságú része a digitális objektumok tárolását, szolgáltatását, működését biztosító metaadatok létrehozása és az ezekre épített szolgáltatási rendszer működtetése.
Digitalizálási helyzetkép Országos Széchényi Könyvtár Digitalizálási projektek Régi könyv (35000) Corvina (20000) Térképek (3000) Erkel művek kéziratai (40000) Folyóiratok (200000) Szabad Európa Rádió (1200000) Alkalmi digitalizálás Pl. LibInfo Külső forrás Kiadók Más gyűjtemények A továbbiakban elsősorban az eredeti könyvtári dokumentumokról készített digitális képi másolatokról fogok beszélni, de néhányszor egyéb digitális dokumentumtípusokat is megemlítek. Nem gondolom, hogy egy húsz perces előadás egy percében akárcsak a vázlatát is meg tudnám rajzolni a digitalizálási folyamatoknak és következményeinek. 1. A digitalizálás és digitális kultúra egyre nagyobb teret hódit, átjárja mindennapjainkat. A tartalomszolgáltatásban a nyilvántartások helyett egyre nagyobb teret kapnak a teljes dokumentumok szolgáltatásai. A társadalmi elvárás egyre nagyobb a teljes értékű dokumentumok szolgáltatására (képi, fulltext, hang, mozgókép, 3D) 2. Szerte a világban komoly gondot okoz a digitalizálási munkák összehangolása, a módszertanok kialakítása, a digitális objektumok megőrzése és közzététele. Nem végeztem átfogó kutatásokat, de benyomásaim alapján úgy látom, hogy a digitális képállományok a magyarországi könyvtárakban rendkívül heterogén képet mutatnak. Nyilvántartások – ha vannak nem rendszerezettek Metaadatok – egyenetlenek, általában hiányoznak Tárolás és feldolgozás, digitális objektumok állományvédelme megoldatlan Szolgáltatás – néhány remek szolgáltatás kivételével a digitális képek töredéke kerül be a szolgáltatási rendszerbe Példaként az OSZK digitális képgyűjteménye Digitalizálás projektekben Régi könyv címlapok (25000) Corvina (20000) Térképek (3000) Erkel művek kéziratai (40000) Folyóiratok (200000) Szabad Európa Rádió (1200000) Tervezett projektek: IHM 8 és 11 (kb. 15000) Alkalmi digitalizálás – több ezer kép (Oláh Gusztáv, Madách Imre stb.) Külső forrás Kiadók – Pytheas, Vincze, Balassi Kiadó fakszimile kiadásai Más gyűjtemények – Prága, Torun stb.
Egy digitalizálási projekt folyamata El őkészítés Digitaliz álás Ellen őrzés Arch íválás 1. Eredeti kép -DVD K épkorrekció Archiv álás 2 Archív kép - DVD Konvert EPS JPG Nyomtat ás Szolg áltatás Rakt ár teljesség állapot Sz ínbeállítás, kalibráció Elnevez és Ment és HDD-re Bibliogr áfiai ellenőrzés Min őség Geometria korrekci ó ínkorrekció V ágás 1. 2. 3. Átadás előkészítés Dokument áció 1. Digitalizálás előtti szakasz = Prescan 2. Digitalizálás = Scan Munkapéldány (Master) 3. Képfeldolgozás = Image processing Archív kép (Archive) A továbbiakban közelítünk a metaadatokhoz, de hogy világos legyen röviden szeretném vázolni a digitalizálási folyamatot illetve a képek különböző típusait. Általában négy nagy szakaszra oszthatjuk a - helytelenül digitalizálásnak - nevezett műveletsort. 1. Digitalizálás előtti műveletek 2. Digitalizálás 3. Képfeldolgozás 4. Szolgáltatás A nagyobb műveletcsoportoknak megfelelően különböző képvariánsok jönnek létre (Munkapéldány - Mesterkép, Archív kép, Szolgáltató kép) Egy gyors számolás: egy 500 levéből álló kódexről kb. 1000 kép készül. Ebből újabb 1000 archív példány áll elő. A szolgáltató képek száma ennek 3-4-szerese is lehet = 6000 digitális objektum egy könyvről!!! 4. Szolgáltatás Szolgáltató képek (Derivative)
Digitális reprodukció folyamata Eredeti Első lépésként vizsgáljuk meg a digitális reprodukció folyamatát, amelyben egy eredeti könyvtári dokumentumot reprodukálunk digitális képek sorozatával. Az eredeti lapjainak leképezése különálló képekké Az egyedi képek sorozatba rendezése az eredeti szerint = digitális facsimile További lehetőségek A sorozatok gyűjteménybe szervezése Egyedi sorozatok és gyűjtemények készítése (virtuális kiállítások, nyomdai illusztráció anyag) A felhasználó által összeállítható képsorozatok. Érzékletessé téve: Az OSZK korvináinak száma 35. Az ezekről készült képek száma kb. 10500. Az össze variánsban található képek száma: kb. 52500 db. Tehát 35 bibliográfiai tételhez durván 50000 digitális objektum tartozik. A számadatokat csak annak érzékeltetése és bizonyítása miatt emelem ki, hogy a digitalizációs munkákban mindig nagytömegű adattal kell dolgoznunk.
Megoldások, ajánlások, szabványok EXIF – Digitális fényképezőgépek IIM - Information Interchange Model IPTC (International Press Telecommunication Council) MIX - Metadata for Images in XML METS – Metadata Encoding & Transmission Standards Fedora project (2001) – (Flexible Extensible Digital Object and Repository Architecture) EVA – European Visual Archive SEPIA (Safeguarding European Photographic Images for Access) XMP – Extensible Metadata Platform OAIS – Open Archval Information System A digitális állóképek metaadataival már többféle szabvány és ajánlás foglalkozik és jónéhány működő alkalmazás is. (pl. a képfájlok fejlécében, egyéb metaadat rendszerekben (pl. jól ismert a digitális fényképezőgépek EXIF metaadat rendszere) illetve digitalizálási projektekben Egy jól ismert grafikai alkalmazás új változatában – a metaadatok fontosságát felismerve - már többféle metaadatot hív segítségül és használ szabványosnak tekinthető rendszerben (RDF/XMP). Information Interchange Model IIM: the first multi-media transmission format The IPTC and the Newspaper Association of America (NAA) had begun to work jointly in 1990 to design a globally applicable model for all kinds of data. As a result from this effort in 1991 the "Information Interchange Model - IIM" version 1 was approved and further developed since then. After the advent of new technologies for data representation - primarily XML - the development of IIM has been frozen in 1997. The latest and still current version is 4.1. The structure of IIM is quite well-known as "IPTC headers" of image or photo files. Adobe added to its product Photoshop a proprietary mechanism to insert metadata into JPEG and TIFF files. One of the structures that could be inserted by this technology is the IIM - therefore this so called "IPTC Headers" conform to the IIM specifications. This mechanism of inserting metadata is used by other software products too, so a lot of programs are able to read and write those "IPTC Headers". Besides this specific use the IIM model is designed to provide for universal communications embracing all types of data, including text, photos, graphics, etc. on a single network or a single storage medium. A mechanism is provided to use existing formats during transition. IIM assumes that the sender wishes to transfer a data object, such as a photographic image, text or perhaps a combination of many types. An envelope is provided around the object for information as to the type of data and the file format. Additional information, such as caption, news category or dateline also is included. The object itself is transferred, together with information regarding the size of the data. Thus any form of computerised data could be transferred, together with pertinent editorial and technical information. Older practice consisted primarily of rigidly formatted "headers" with a number of required fields denoting such things as story priority or category. The IIM has relatively few required pieces of information. Instead, the information about the object consists of "DataSets," each with its own identifier. Only those DataSets required for an application are mandatory. Other DataSets are optional and are utilised only when the provider deems it necessary to do so. IPTC also created a set of metadata to be used by the IIM. This set is called "Subject Reference System", more on this could be found in the "IIM resources" panel of this page or in the Metadata section of our IPTC web site.
az eredetire vonatkozó adatok képsorozatok adatai Szükséges adatok tárolási adatok technikai adatok az eredetire vonatkozó adatok képsorozatok adatai a képekből / képsorozatokból összeállított gyűjtemények adatai adminisztratív adatok Eredeti Az előbb felsorolt projektektből és a könyvtárakban megvalósuló megoldásokból egyértelmű, hogy milyen adatokat kell(ene) nyilvántartanunk a digitalizálás során. A categoricus imperativus itt nem vágyálom, hanem egy jól működő rendszer alapkövetelménye. Az eredetire vonatkozó adatok A digitális objektum tárolási adatai (fájlnév, VIGYÁZAT!!! – fájlnevek, többféle tárolás) 3. A digitális objektum technikai adatai 4. Képsorozatok adatai 5. Gyűjtemények adatai 6. Felhasználási adatok
Adatforrások MARC, DC, OAI, EAD stb. Adminisztratív adatok Eredeti Fájlrendszer Képsorozatok adatai A képen a jól ismert ábra: Az elektronikus reprodukció folyamata. Hogy ne zavarjon bele a továbbiakba kissé háttérbe tesszük. Hol találjuk az előzőekben felsorolt adatokat: Az eredeti objektumokat leíró bibliográfiai rekordok jó esetben már megtalálhatók valamilyen szabványos elektronikus formában (MARC, DC, OAI, EAD stb.) Az egyedi képek fizikai adatait a fájlrendszerből illetve - ma már szabványosított / ajánlott metaadat rendszerből vehetjük. (EXIF, IPTC, XMP, MIX stb.) A képsorozatokra / gyűjteményekre vonatkozó adatok már egy magasabb logikai szinten helyezkednek el és adataikat az előző rendszerekből veszikés és tartalmazzák az adminisztratív adatokat (jogok, működésre vonatkozó utasítások stb.) EXIF, IPTC, XMP, MIX stb.
Elsődleges referencia Tárolási adatok Országkód Lelőhelykód Jelzet Elsődleges referencia Pontos levél jelölés Számláló HUB1RMK I 6_RMNY 16_s1a_xxxxxx HUB1RMK I 15_RMNY 49_p1_xxxxxx Amint az előzőekben láttuk a metaadatok legalsó szintje a fájlrendszerrel kapcsolatos. A tárolási szint adataival most nem foglalkozom, mivel ez a legkevésbé szabályozott - és legkevésbé szabályozandó - területe ennek a témakörnek. Csak a az OSZK-ban használt egyik lehetőséget villantom föl. (+) Az eredeti adatait képezzük le a fájlok nevében. Ország Gyűjtemény Jelzet Referencia Az eredeti számozási adatai (folio, oldal, ív stb.) Egyedi azonosító (ID)
Z39.87 - MIX NISO Z39.87-2002 (Digitális álloképek technikai metaadatai) Schema – MIX (Metadata for Images in XML) Alapvető adatok (Basic Image Parameters) A kép készítésére vonatkozó adatok (Image creation) A kép technikai adatai Képfeldolgozás (Change history) A továbbiakban az állóképekre és a magasabb szintű összeállításokra vonatkozó ajánlásokat szeretném röviden bemutatni. A sokféle lehetőség közül talán a legösszetettebb és legjobban dokumentált Z39.87 néven ismert szabvány.(+) (+) A szabványhoz tartozó XML schema megvalósítását a Library of Congress és az Amerikai Szabványügyi Hivatal (NISO) közösen vállalta. A schema neve MIX. (+) (Az áttekinthetőség kedvéért a továbbiakban a schémát nem XML forrásban, hanem annak táblázatos megjelenítésében mutatom be.) Főbb adatcsoportok: (+) Alapvető adatok (Basic Image Parameters) (+) A kép készítésére vonatkozó adatok (Image creation) (+) A kép technikai adatai (+) Képfeldolgozás (Change history)
Alapvető adatok A továbbiakban csak felvillantom a MIX séma főbb adatcsoportjait. Itt látható az Alapvető adatokat tartalmazó adatcsoport. (+) Kiemelve a formátumra és fájlra vonatkozó adatokat. (+)
Készítésre vonatkozó adatok Majd a kép készítésére vonatkozó adatcsoport. A digitalizáló hardverek és szoftverek leírása is megtalálható a MIX schémában.
Technikai adatok A képekre vonatkozó technikai adatok. Képméret, felbontás, színmodell stb.
Képfeldolgozás A változásokat nyomon követő adatcsoportba az adott kép teljes történetét nyomon követhetjük az egymásba ágyazható kép feldolgozás adatokkal.
METS – Metadata Encoding & Transmission Standard Making of America II. 1997. Berkley, Stanford, Penn State, Cornell, NYPL Library of Congress, Harvard METS A következőkben a képállományok magasabbszintű kezelésését lehetővé tevő Metadata Encoding and Transmission Standard alapvető elemeit mutatom be. Itt is a Library of Congress volt a schema kifejlesztője (METS). Az eredeti tervben 19. századi könyvek és folyóiratok feldolgozása volt a cél. A terv megvalósult a Making of America című projektben, amelyben (+) több mint 3 millió oldalt és több mint 11000 kötetet szolgáltatnak. Ugyanezt a metaadatsémát használja egyébként az európai Metadata Engine Project és a TEL (The European Library) project és egyéb nemzeti projektek, mint az ALO (Austrian Literature Online) stb. Egy példa: Kossuth, (mint cím). A találat B. F. Tefft: Hungary and Kossuth című könyve, amely 1852-ben jelent meg. A látszólag egyszerű felület világosan átgondolt keresési, megjeléenítési és letöltési lehetőséget biztosít. Megtekinthetem teljes szövegű formában, képként és csak a képet tartalmazó PDF-ként is vagy néhány dollárért megrendelhetem az elektronikus változatot különböző formákban, vagy akár nyomtatva is kötve, spirálozva stb. Persze nem a remek szolgáltatás bemutatása a célom, mivel ehhez hasonlók is szép számban találhatók kereskedelmi és nem kereskedelmi site-okon, hanem éppen a szolgáltatás mögött meghúzódó jól dokumentált metaadat rendszerre hívnám föl a figyelmet. History of METS Originates in Making of America II initiative Making of America II (MOA2) was a Digital Library Federation sponsored initiative that started in 1997. Participants included UCB (lead), Stanford, Penn State, Cornell, and NYPL. GOAL: to create a digital object standard for encoding structural, descriptive and administrative metadata along with primary content RESULT: MOA2.DTD (an XML DTD) History of METS (cont’d) UCB Library and CDL adopt MOA2 Other institutions (LC, Harvard) consider Additional needs emerge Support for time-based content More flexibility in Descriptive and Administrative metadata MOA2 revised: Starting in February 2001 concerned parties meet to review and revise MOA2 Outcome: mets.xsd
Adminisztratív metaadatok Fájlok Struktúra Viselkedés METS – Áttekintés Fejléc Leíró metaadatok Adminisztratív metaadatok Fájlok Struktúra Viselkedés A továbbiakban a METS sémát szeretném bemutatni. Fejléc Leíró metaadatok Adminisztratív metaadatok Fájlok Struktúra Viselkedés Az egész adatszerkezetre jellemző, hogy tartalmazhat külső és/vagy belső adatokat. (Pl. a felhasználási jogokra vonatkozó adatokat tárolhatjuk külön vagy magában a METS dokumentumban.
METS – Header Ez a METS dokumentum minimális azonosítására és leírására szolgáló rész, magán a METS dokumentumon belül.
METS – Leíró adatok A METS dokumentumban ismétlődhetnek a leíró metaadatok. Ezek tartalmazhatnak külső hivatkozásokat (MARC, EAD, MIX, DC stb.) vagy magába a METS dokumentumon belül is leírhatunk műveket (pl. DC)
METS – Adminisztratív adatok Az adminisztratív metaadatokat tartalmazó rész foglalkozik a technikai, jogi részletekkel, az analóg eredetivel kapcsolatos metaadatokkal valamint a digitális objektum előtörténetével (provenienciáját).
METS – Fájlok A METS dokumentumhoz tatozó fájlok listáját többszörösen egymásba ágyazhatóan a fileSec rész tartalmazza. LEhetőség van file csoportok és egyedi fájlok felvételére is.
METS – Struktúra
METS – Strukturális kapcsolatok
METS – Viselkedés Lehetőség van a felhasználói felület meghatározására, továbbá az alkalmazás működésének szabályozására.
a könyvtári információszolgáltatás új korszaka Összefoglalás a könyvtári információszolgáltatás új korszaka a digitalizálás a könyvtár alapvető feladatai közé tartozik a digitalizálási munka része a metaadatok létrehozása szabványos metaadatok a metaadatok többszintű szolgáltatást tesznek lehetővé Tárolás és primer hozzáférés Tartalomszolgáltatás Szakértői rendszerek Amint láttuk a magasabb logikai szinten lévő metaadat rendszer feladata rendkívül összetett a leíró adatoktól az adminisztratív adatokon keresztül a strukturális elemekig terjed, sőt az egyes objektumok viselkedését is meghatározhatjuk vele. Elodázhatatlannak tartom, hogy a metaadatokat is a digitalizálási munkák integráns részének tekintsük A metaadatoknak szabványosnak kell lenni A megfelelő metaadat kezelés többszintű szolgáltatást tesz lehetővé: Tárolása és primer hozzáférés MEK Szakértői rendszerek Virtuális kiállítások