Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.

Slides:



Advertisements
Hasonló előadás
A digitális dokumentumok hosszú távú megőrzéséről X. Budapesti Nemzetközi Könyvfesztivál Moldován István OSZK.
Advertisements

Magyar Tudományos Akadémia Nyugati Magyar Tudományos Tanács teljesítményelemzés és javaslat.
A Magyar Elektronikus Könyvtár újabb fejlesztései Moldován István MKE XXXIV. Vándorgyűlés Budapest, augusztus 9.
Drótos László Országos Széchényi Könyvtár Magyar Elektronikus Könyvtár Osztály.
Magyar és európai digitális könyvtári projektek Artisjus Szerzői Akadémia március 29.
Könyvtári informatika a magyar könyvtárakban: az MTA SZTAKI szerepe
Digitalizálandó értékek könyvtáraink gyűjteményében Mit? Miért? Hogyan? május 25. Bánkeszi Katalin szakmai igazgató Neumann János Digitális Könyvtár.
Dr. Élő Gábor július 9. MKE HKSZ 15. Országos Konferenciája
A láthatatlan/mély web tartalmi és technikai jellemzői
Burmeister Erzsébet – Perlaki Attila (Miskolci Egyetem – Könyvtár, Levéltár, Múzeum) MIDRA: Miskolci Egyetemi Digitális raktár és adattár DIGITALIZÁLÁS.
ELTE BOLYGÓTUDOMÁNYI NAP Az ELTE Planetológiai Műhely bemutatása Sik András ELTE Természetföldrajzi Tanszék A program az ELTE jubileumi rendezvény-sorozatának.
Történelem az Interneten Aranyi Zoltán SZTE Egyetemi Könyvtár
Digitalizáció és online megjelenés
Hungrid grid.kfki.hu/hungrid. Hungrid Mi a Hungrid? –az EGEE egyetlen általános célú, hivatalos magyar VO-ja –teljeskörű grid szolgáltatás az egész akadémiai.
| | Tananyagfejlesztések fejlesztői szemmel Wagner Balázs MTA SZTAKI.
MeetOFF.eu Képadatbázisok az OSZK-ban avagy képek archiválása és szolgáltatása a XXI. században. Moldován István Országos Széchényi Könyvtár.
Debrecen, március 27. Internet Fiesta 2008 Könyvtárak akadálymentesítése az Interneten Internet Fiesta 2008 Debrecen, március 27.
Az Országos Széchényi Könyvtár elektronikus szolgáltatásai.
Túrkeve, Digitális gyűjtemény kialakítása Moldován István OSZK Digitális Gyűjtemény
Honnan jönnek az e-könyvek?
A MEK és az EPA mind a digitális megőrzés archívumai Az OAIS modell január 17.
A Magyar Elektronikus Könyvtár helye, szerepe a hazai digitális könyvtárak között XVIII. Budapesti Nemzetközi Könyvfesztivál Budapest,
Drótos László Országos Széchényi Könyvtár Magyar Elektronikus Könyvtár Osztály Javaslat egy Magyar Internet Archívum létrehozására.
2009. április 24.XVI.Budapesti Nemzetközi Könyvfesztivál Kereslet és kínálat e-book témában Moldován István OSZK.
A digitális archiválás és az információs rendszerek átjárhatóságának jelentősége DAT 2002 Budapest, november 26. Moldován István OSZK
ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR E-SZOLGÁLTATÁSI IGAZGATÓSÁG BIBLIOTHECA NATIONALIS HUNGARIAE E-könyvek az elektronikus könyvtárban K2 kísérleti műhely szakmai.
Nyílt könyvtári gyűjtemények az Interneten Szabványos metaadatok: átjárhatóság Tapolcai Ágnes MEK Osztály.
A regionális tudomány társadalmasítása Kedvezményezett: MTA Regionális Kutatások Központja.
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Újdonságok a nyílt hozzáférésről Karácsony Gyöngyi Debreceni Egyetem Egyetemi és Nemzeti Könyvtár.
IKTA Beszámoló 2002 június Káldos János (OSZK)1 Az Országos Széchényi Könyvtár könyvtörténeti adatbázisa és kép-archívuma Bibliotheca Eruditionum.
A WEB ARCHÍVUMOK KÉRDÉSKÖRE KÖNYVTÁRI ÉS TÁJÉKOZTATÁSI SZEMPONTBÓL.
o Minden elektronikus formában érhető el o A munkafolyamatok egy része automatizálható, így a szolgáltatások gyorsabbak és hatékonyabbak lehetnek o A.
Jövő Internet Nemzeti Technológiai Platform Workshop program június 4. Levezető elnök: Dr. Bakonyi Péter Napirend: 1. Tudománypolitikai Stratégia.
A webDIAG szolgáltatás, és ami mögötte van: párhuzamos feladatvégrehajtás scriptekkel. Kemecsei Zsolt
SELYE JÁNOS KOLLÉGIUM A TUDOMÁNYOS UTÁNPÓTLÁS NEVELÉS INTÉZMÉNYE A TUDOMÁNYOS UTÁNPÓTLÁS NEVELÉS INTÉZMÉNYE A FELVIDÉKEN A FELVIDÉKEN Prof. MSc. PhD.
Az információs társadalom. Az elmélettől a politikai gyakorlatig
10 dolog, amit EDIT-ről tudni kell
EGEE-II INFSO-RI Enabling Grids for E-sciencE A HunGrid infrastruktúra és alkalmazásfejlesztő környezete Gergely Sipos
Verseny és szabályozás 2013 MTA KRTK KTI Bemutató konferencia szeptember 30.
A tudomány tudománya Kampis György ELTE TTK Tudományfilozófia Tanszék 12/7/12"FuturICT" TÁMOP ick-off meeting, SZTE.
EGEE-III INFSO-RI Enabling Grids for E-sciencE A Hungrid VO szolgáltatásai A Hungrid, a magyar NGI bölcsője Hernáth Szabolcs Szeberényi.
Egyházi Könyvtárak Egyesülése Pécs, június 28. Szakmai továbbképzés.
A tudomány tudománya alprojekt Kampis György egy.tan., ELTE Az infokommunikációs technológiák társadalmi hatásai november 13. Balatonfüred.
Tudománykommunikáció: helyzetkép Magyarországon 2006/2007 Dr. Fábri György PhD kommunikációs igazgató MTA.
ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR E-SZOLGÁLTATÁSI IGAZGATÓSÁG BIBLIOTHECA NATIONALIS HUNGARIAE Az Országos Széchényi Könyvtár digitális folyóirat archiválási.
A MEK2.0 magyar digitális könyvtári alkalmazása - eleMEK Moldován István OSZK MEK osztály ”Networkshop” Pécs, április
N E M Z E T I A U D I O V I Z U Á L I S A R C H Í V U M
Keresés fajtái Matching (szabadszavas)
Digitalizált információk rendszerezése. A publikus hozzáférés biztosítása az Internet segítségével. Dokumentumkezelés, információ digitalizálás OMA konferencia.
Budapest szeptember 28.. A webes alkalmazás a CD főkönyvtárában lévő index.html nevű fájllal indítható el.
E-könyvtári újdonságok Drótos László Drótos László OSZK MEK Osztály.
PR2 GULYÁS MÁRTON BÁLINT – IIYO5I. Bevezetés  A Willow Garage projektje, a stanfordi fejlesztésű PR1 gép spinoffja  Körülbelül akkora mint egy ember(1,3.
Moduláris könyvtári rendszer elektronikus dokumentumgyűjtemények kezeléséhez: az eleMEK projekt Drótos László Perlaki Attila Országos Széchényi Könyvtár,
Az Open Access hazai és helyi vonatkozásai International Open Access Week October 21-27, 2013.
A MAGYAR TUDOMÁNYOS AKADÉMIA 187. KÖZGYŰLÉSE május 2–3.
Online és e-könyvek Hasonlóságok és különbségek. Tartalom és funkcionalitás A hagyományos print könyv tartalma elektronikus formátumban + kiegészítő funkciókkal:
Internet tudományos használata Skultéti Attila 2015.
A könyvtári dokumentumok digitális átállása
Kísérleti magyar webarchiválási program A könyvtárak szerepe
A HTML alapjai Az internet és a web.
Következtetések a fővárosi elektronikus adatvagyon felmérés alapján
Az NIIF Program helye a kutatóhálózati világban
A MIA pilot rövid bemutatása ( )
A JaDoX, mint repozitórium szoftver
Magyar és európai digitális könyvtári projektek
Digitális tankönyvtár
Webes tartalmak digitális megőrzése
"404 Not Found – Ki őrzi meg az internetet?"
Jövő Internet Nemzeti Technológiai Platform Záróülés
Előadás másolata:

Magyar Internet Archívum pilot és elemzés Gulyás László ELTE április 14.

Munkacsapat Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj.

MIA – Mi ez? Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez. Magyar Internet Archívum (MIA): magyar akadémiai site-ok archiválása –a NIIF tagintézmények ( –az MTA intézetei ( –valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények) Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.

Pilot Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a.hu domain tartalmaira összpontosít Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők. Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.

Eszközök és módszerek Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai). Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett). Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD) Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.

Adatok Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB. Átlagos méret: 974 MB per oldal (medián: 137 MB) Átlagos szövegméret: 474 MB per oldal (medián: 47 MB) Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)

Összes adat rang-eloszlása

Szöveges adatok rang-eloszlása

Példányszámok alakulása

Tárigény alakulása

Tartalmi elemzések A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk –A „közbeszéd” megragadása –Mit kommunikálnak magukról az egyetemek és a kutató intézetek?

Tartalmi elemzések: Szófelhők

Tartalmi elemzések: Trendek

Tartalmi elemzések: Site-ok

Köszönöm a figyelmet!

Példányszámok és tárigények részletesebben

Példányszámok alakulása

Tárigény alakulása