Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaMárton Papp Megváltozta több, mint 10 éve
1
Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.
3
Munkacsapat Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj.
4
MIA – Mi ez? Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez. Magyar Internet Archívum (MIA): magyar akadémiai site-ok archiválása –a NIIF tagintézmények (http://www.niif.hu/tagok/...),http://www.niif.hu/tagok/ –az MTA intézetei (http://mta.hu/mta_kutatointezetei),http://mta.hu/mta_kutatointezetei –valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények) Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.
5
Pilot Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a.hu domain tartalmaira összpontosít Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők. Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.
6
Eszközök és módszerek Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai). Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett). Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD) Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.
7
Adatok Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB. Átlagos méret: 974 MB per oldal (medián: 137 MB) Átlagos szövegméret: 474 MB per oldal (medián: 47 MB) Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)
8
Összes adat rang-eloszlása
9
Szöveges adatok rang-eloszlása
10
Példányszámok alakulása
12
Tárigény alakulása
14
Tartalmi elemzések A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk –A „közbeszéd” megragadása –Mit kommunikálnak magukról az egyetemek és a kutató intézetek?
15
Tartalmi elemzések: Szófelhők
16
Tartalmi elemzések: Trendek
21
Tartalmi elemzések: Site-ok
22
Köszönöm a figyelmet!
23
Példányszámok és tárigények részletesebben
24
Példányszámok alakulása
28
Tárigény alakulása
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.