Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.

Hasonló előadás


Az előadások a következő témára: "Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14."— Előadás másolata:

1 Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.

2

3 Munkacsapat Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj.

4 MIA – Mi ez? Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez. Magyar Internet Archívum (MIA): magyar akadémiai site-ok archiválása –a NIIF tagintézmények (http://www.niif.hu/tagok/...),http://www.niif.hu/tagok/ –az MTA intézetei (http://mta.hu/mta_kutatointezetei),http://mta.hu/mta_kutatointezetei –valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények) Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.

5 Pilot Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a.hu domain tartalmaira összpontosít Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők. Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.

6 Eszközök és módszerek Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai). Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett). Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD) Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.

7 Adatok Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB. Átlagos méret: 974 MB per oldal (medián: 137 MB) Átlagos szövegméret: 474 MB per oldal (medián: 47 MB) Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)

8 Összes adat rang-eloszlása

9 Szöveges adatok rang-eloszlása

10 Példányszámok alakulása

11

12 Tárigény alakulása

13

14 Tartalmi elemzések A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk –A „közbeszéd” megragadása –Mit kommunikálnak magukról az egyetemek és a kutató intézetek?

15 Tartalmi elemzések: Szófelhők

16 Tartalmi elemzések: Trendek

17

18

19

20

21 Tartalmi elemzések: Site-ok

22 Köszönöm a figyelmet!

23 Példányszámok és tárigények részletesebben

24 Példányszámok alakulása

25

26

27

28 Tárigény alakulása

29

30

31


Letölteni ppt "Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14."

Hasonló előadás


Google Hirdetések