A MIA pilot rövid bemutatása ( )

Slides:



Advertisements
Hasonló előadás
Magyar Internet Archívum pilot és elemzés Gulyás László ELTE április 14.
Advertisements

A levéltár Országos Tudományos és Felsőoktatási Szakmai Központ tevékenységei.
Madárszámlálás Karcza Zsolt – MME Budai-Kiss Tamás - Iqsys.
Közművelődési szakmai továbbképzések, helyük a felnőttképzés rendszerében; az akkreditáció folyamata A közösségi művelődés felnőttképzési feladata Nemzeti.
„Az esély kis körei” Helyi esélyegyenlőségi programok Magyarországon Záró konferencia Budapest, december 8. ÁROP Esélyegyenlőség-elvű.
TÖMÖRÍTÉS. Fogalma A tömörítés egy olyan eljárás, amelynek segítségével egy fájlból egy kisebb fájl állítható elő. A tömörítési arány függ a fájl típusától,
„Webra” nyílt beszerzési rendszer gyakorlati bemutatása Szeged, június 18. Készítette: Fekete Tibor Irodavezető-helyettes Telefon:
A VÉDŐNŐK SZEREPE AZ EMLŐRÁK KORAI FELISMERÉSÉBEN Puskás Gabriella AZ EMLŐRÁK GYÓGYÍTÁSÁÉRT ALAPÍTVÁNY BUDAPEST.
A magyarországi vállalatok információszerzési szokásai - üzleti körben végzett online piackutatás fő eredményei - Készítette: Nagy Péter Támogatóink H-1024.
1 Az önértékelés mint projekt 6. előadás 1 2 Az előadás tartalmi elemei  A projekt fogalma  A projektek elemei  A projekt szervezete  Projektfázisok.
TÁMOP A pályaorientáció rendszerének tartalmi és módszertani fejlesztése.
CÉLCÉLCSOPORT  Egészségügyi szakmai tájékoztatás és betegtájékoztatás, az egészséges életvitelhez szükséges információk szolgáltatása, publikálása, áttekint-
AZ ELEKTRONIKUS KÉPZÉS MINŐSÉGBIZTOSÍTÁSA INFORMATIKA A FELSŐOKTATÁSBAN DEBRECEN DR. ZÁRDA SAROLTA GÁBOR DÉNES FŐISKOLA.
Open SKM Agency Kft. - „...a nyílt szabványok választása egyértelműen okos üzleti döntés...” „... az EU nem válhat a zárt forráskód rabjává,
FELSŐOKTATÁSI INTÉZMÉNYEK WEBOMETRICS RANGSORÁNAK VIZSGÁLATA GOOGLE PAGERANK TEKINTETÉBEN DOSz – Tavaszi Szél Konferencia 2016 Losonczi György.
A kamara szerepe az export vezérelt magyar gazdaság megteremtésében. Eredmények és problémák Dr. Parragh László elnök Magyar Kereskedelmi és Iparkamara.
A év értékelése és a év újdonságai
Internet tudományos használata
A szakiskolák aktuális problémái
ERASMUS+ DISSZEMINÁCIÓS PLATFORM
Work-based Learning in CVET Az ALFA KISOSZ Érdekvédő és Képző Egyesület szerepe a projekt megvalósításában Előadó: Czibula Zoltán igazgató ALFAKÉPZŐ.
Nemzeti Audiovizuális Archívum
E-learning modellek osztályozása
NIIF VoIP projekt aktualitások
Szaktanácsadás 2015/2016 Készítette: Szabó Klára.
Adattárház fejlesztés módszertani tapasztalatok a HIFI-ben
1Transzplantációs Alapítvány
Gyűjtőköri szabályzat
Új továbbképzési lehetőségek tanároknak és oktatóknak
HUNTÉKA Integrált Könyvtári (Közgyűjteményi) Rendszer
376/2014 EU RENDELET BEVEZETÉSÉNEK
Magyar Tudományos Művek Tára
A dinamikus WEB alkalmazásának lehetőségei a mezőgazdaságban
Kórházi könyvtárak lehetőségei a tudáspiacon
A pedagógus-életpályamodell, a minősítés rendszere
Baross László Mezőgazdasági Szakközépiskola és Szakiskola Mátészalka
Vasas Lívia 2015 A folyóiratok minősége, InCite – JCR Journal Citation Reports Vasas Lívia
Az Országos Egészségfejlesztési Intézet fejlesztési projektjei az iskolai egészségfejlesztés területén DR. TÖRÖK KRISZTINA.
Drótos László – Németh Márton Kísérleti webaratás projekt az OSZK-ban
A Nemzeti Szakképzési és Felnőttképzési Intézet Konferenciája
A projektek jelentősége a Műegyetemen
EFOP VEKOP „Integrált kutatói utánpótlás-képzési program az informatika és számítástudomány diszciplináris területein” Debreceni.
Fazekas Ágnes – Halász Gábor-Horváth László
Vasas Lívia, PhD 2017 MTMT Vasas Lívia, PhD 2017.
Előadó: Daka Zsolt ügyvezető Gyulahús Kft.
Multiplikációs rendezvény – Békéscsaba
Vasas Lívia, PhD 2018 Web of Science Vasas Lívia, PhD 2018.
„404 Not Found – Ki őrzi meg az internetet?” workshop
Új Nemzeti Kiválóság Program Ösztöndíjak
Stratégiai emberierőforrás-fejlesztés
1960 körül Európa számos országában folytak már számítógépes nyelvészeti kutatások. A szá-mítógépes alkalmazáshoz a létezőknél sokkal pontosabb nyelvtanokra,
Publikációs stratégia Szakirodalmi forrásanyagok használata MTMT
Személyek/Szerzői azonosítói
A turizmus tendenciáinak vizsgálata Magyarországon
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
9-10.-es bemeneti mérések és a fejlesztő munkánk
Dr. Varga Beatrix egyetemi docens
SZAKMAI FOLYÓIRATOK.
Együtt Nyírbátorért Helyi Közösség
Erasmus+ hallgatói mobilitásra jelentkezéshez
Dr. Vasas Lívia, PhD december
Rappai Gábor, szeptember 25.
A Tanácsadók Virtuális Közösségének
Webarchívum mint a tudományos kutatások tárgya
Erasmus+ hallgatói mobilitásra jelentkezéshez
Dr. Parragh László elnök Magyar Kereskedelmi és Iparkamara
Digitális kárrendezés
Drótos László – Németh Márton Kísérleti webaratás projekt az OSZK-ban
Várallyai László elnök
Előadás másolata:

A MIA pilot rövid bemutatása (2013-2016) Kampis György PetaByte Kft. ; egy.tan., ELTE TTK kampis@petabyte-research.hu, gk@hps.elte.hu

Absztrakt A PetaByte Nonprofit Kutatási Kft 2013-tól kezdődően a MIA nemzeti archívum kialakítasanak feltételeit egy pilot projekt keretében vizsgálta, ennek érdekében felvettük a kapcsolatot a MIA eredeti kezdeményezőivel és az akkori NIIF-fel, számos fejlesztést és előkísérletet végeztünk, egyeztetéseket folytattunk. Műszaki oldalon a Heritrix crawler sorozatos módósításával, továbbfejlesztésével próbálkoztunk. A tesztbe a NIIF HBONE akkori 500 résztvevőjét vontuk be, önkényesen és longitudinálisan gyűjtve és elemezve az adatokat. Ezeken felül a hír site-ok archiválását végeztük. A pilot néhány év alatt 16-17 TB adatot produkált, nagyobb tárolóhely hiányában a gyűjtést (és ezért a fejlesztést) nagyrészt leállítottuk 2015-16- ban. A pilot tanulságait néhány közleményben foglaltuk össze.

MIA és MIA pilot előzmények... és ma Drótos L. (2006), Kokas K. (2009, 2012), SZTE EK (Monok I. 2009) „A http://archive-hu.com címen indult 1-2 éve [tehat kb. 2011-ben?] egy magyar webarchívum, de ez egy külföldi projekt, nem tudok róla semmit.“ OSZK (Moldován I., Vonderviszt L.), MTAK (Monok I.) ELTE (Ritter D.), NIIF (Stefán P.) ..... Ma: http://mekosztaly.oszk.hu/mia/MIA_wiki.html

Motiváció „Big Data“ (2012-3) Előtte: WoS ISI (Thomson Reuters) teljes magyar anyag letöltése és elemzése 1975-2012 Nem volt elég nagy a műszaki/tudományos kihívás Crawling... Jurányi Zsolt szakdolgozata 2012-ben ....(Referenciak), projektek?

Jogi és műszaki problémák Kiragadva néhányat.... Jogi: milyen jogon? (Önkényesen.) Megosztható-e? (Nem.) Garanciák (Nincsenek, „you get what you paid for“.) Adattisztítás (sok kézimunka...) CMS kezelés, időbélyegek Belső linkek inkozisztens kezelése (pl. széteső feszítőfák) Kitiltások (levelezéssel kezeltük, nem pl. Thor-ral...) „azt és úgy, amit és ahogy“; ez elég jó (WA: sweet and lowdown)

Mit? URL-ek...

Mit? NIIF 500 (ill. 402) + MTA intézetei Hír site-ok (domain-ek száma 139 – 4965) Mik a magyar site-ok? Magyar .hu URL? (de cf. http://petabyte-research.org) Magyar nyelvű (is)? (Vancouvertol Youtube-ig..) Nem keressük... .HU domainek ISO, gz, jar, mp3, ogg, ppt, rar, wav, xls, xlsx, zip: kizártuk Videók: ezeket megengedtük... Site list: http://web.petabyte-research.org/sitelist/academic-sites.php Mirror archívum példányai: http://web.petabyte-research.org/summary/academic-sites.php ARC archívum példányai: http://web.petabyte-research.org/mia/ Hírsite-ok listája: http://web.petabyte-research.org/sitelist/news.php 

Hogyan? Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD); Dell PowerEdge R720, Heritrix (BL, nyílt forrású) saját verziói News: WGET  Longitudinális letöltés (praktikusan: ciklikus) Kísérlet: csak a különbség tárolása Előszűrések után „vakon“ (verziók, „szemét“..) Csak harvesting és (némi) adatfeldolg. Nem: katalogizálás, értékelés...

Az eredmény http://web.petabyte-research.org (Jelszó mögött)

Adatok Az egyetemek és főiskolák anyaga 53GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps): 36GB. Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a szöveg 5GB. Átlagos méret: 974 MB per domain (medián: 137 MB) Átlagos szövegméret: 474 MB per domain (medián: 47 MB) Az adatok eloszlása „nagyjából” a hatványtörvényt követi (i.e. a „szokott“ erősen ferde eloszlású)

Adatok Összes MTA intézetek

Adatok Összes MTA intézetek

Szófelhők http://web.petabyte-research.org/wordcloud/

Brexit

Tartalmi elemzés: trendek

Tartalmi elemzés: trendek

Tartalmi elemzés: trendek

Tartalmi elemzés: trendek

Site-ok

Publikációk Gulyás, L., and Gy. Kampis (2013): Big is small, and changes slowly in Hungary, CogInfoComm konferencia, Budapest, http://www.coginfocom.hu/uploads/coginfocom2013/Program_CogInfoCom_2013_final.pdf Gulyás, L., Jurányi, Z., Soós, S., & Kampis, G. (2014). Can web presence predict academic performance?: the case of Eötvös university. In Proceedings of the 23rd International Conference on World Wide Web (pp. 1183-1188). ACM. Gulyás L. (2014): Magyar Internet Archívum pilot és elemzés, Futurict TÁMOP konferencia, április 14. , http://slideplayer.hu/slide/2647111/ Charley Wu, Zsolt Jurányi, Laszlo Gulyas, George Kampis (2016): Blindfolded NLP: Unsupervised Learning for Automatically Generating Topic Labels, “Identification, location and temporal evolution of topics”, MTAK konferencia aug 29.,www.mtakszi.iif.hu/docs/esemenyek/Kampis%20Prez.pptx

Értékelés Sikeres volt, használható adatok (kompromisszumok révén) Tárhely... (longit. miatt „betelt“, 17TB) Megszaladó erőforrásigények... Amikre nem gondoltunk (pl browser verziók, flash...) Hogyan tovább? 2016 MIA pilot fejlesztései leálltak Adatokat őrizzük News megy tovább, napi aratással.

Tanulságok Törvényi háttér szükséges (addig „zsákbanfutás“); kötelespéldány? Közzététel? Ez a műszaki problémákat is megoldhatja (előírt formátum etc.) de csak A JÖVŐ FELÉ Adattípusok kizárása (előzetes „tisztítás“) A longitudinális letöltésnek és elemzésnek van létjogosultsága

Munkacsapat Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Bálint Balázs, MSc, PetaByte Nonprofit Kft. Pálmai Attila, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Gulyás László, ELTE egy.adj. Kampis György, ELTE egy.tan. http://www.futurict.szte.hu www.petabyte-research.org

Köszönöm!