Webarchívum mint a tudományos kutatások tárgya

Slides:



Advertisements
Hasonló előadás
A MATARKA és az egyedi azonosítók, különös tekintettel a szerzőkre Burmeister Erzsébet, Miskolci Egyetem, Könyvtár, Levéltár Múzeum Networkshop konferencia,
Advertisements

Pécs Megyei Jogú Város Ifjúságpolitikai Koncepciója és Cselekvési Terve „Csellengő fiatalok” - Az ifjúságpolitika komplexitása – 2007.március
A környezetvédelmi megbízott szerepe a vállalkozások tevékenységében és Önkormányzati munkakörben Önkormányzati munkakörben.
TÖRTÉNELEM ÉRETTSÉGI A VIZSGA LEÍRÁSA VÁLTOZÁSOK január 1-től.
Útmutató az adatbázis használatához. − 1957 – ODK - Orvostudományi Dokumentációs Központ − 1960-tól: OOKDK - Országos Orvostudományi Könyvtár és Dokumentációs.
Követelményelemzés – követelményspecifikáció A szoftverfejlesztés kapcsán az elemzés speciálisan egy kezdeti szakaszt jelöl, amelynek alapvető feladata.
Semmelweis Egyetem Központi Könyvtár szeptember 7. Könyvtárosok Teadélutánja / „Next Generation” Önképzőkör Beke Gabriella Semmelweis Egyetem Központi.
Nyitó szakértői találkozó. "C" komponens-informatika Készítette: Farkas László január.28.
Pályázati lehetőségek Nagy Réka Közművelődési és kulturális intézmények pályázati lehetőségei.
1 Az önértékelés mint projekt 6. előadás 1 2 Az előadás tartalmi elemei  A projekt fogalma  A projektek elemei  A projekt szervezete  Projektfázisok.
Előkészületek az on-line referensz útján történő orvos-biológiai és egészségügyi információszolgáltatásra.
CÉLCÉLCSOPORT  Egészségügyi szakmai tájékoztatás és betegtájékoztatás, az egészséges életvitelhez szükséges információk szolgáltatása, publikálása, áttekint-
NSZFI SZFP Programkoordinációs Iroda Minőségfejlesztési Terület Teljesítményértékelési rendszer A képzett szakemberekért Információgyűjtés.
Oktatói elvárások, oktatói vélemények a hallgatókról Cserné dr. Adermann Gizella egyetemi docens DUE.
Jó gyakorlatok a tanórán kívüli tevékenységekhez kapcsolódóan Kasza Georgina témavezető.
Internet tudományos használata
Gazdasági informatika - bevezető
Nemzeti Audiovizuális Archívum
MEKkora a MEK köre? A 23 éves Magyar Elektronikus Könyvtár által elért eredmények és hatások Drótos László Országos Széchényi Könyvtár E-könyvtári Szolgáltatások.
Palotás József elnök Felnőttképzési Szakértők Országos Egyesülete
Dobrik-Lupták Sára szeptember 19.
Reflexiók a társadalmi és a nonbusiness marketing fogalmi kérdéseihez
vizuális megismerés – vizuális „nyelv” vizuális kultúra
Hogyan lehet sikeresen publikálni?
Gyűjtőköri szabályzat
Dr. Kovács László Főtitkár
Kihívások a LEADER program eredményes végrehajtásában
Magyar Bibliográfiai Adatbázisok
HUNTÉKA Integrált Könyvtári (Közgyűjteményi) Rendszer
A közigazgatással foglalkozó tudományok
videós team Team vezetője: Tariné Péter Judit Tagok:
Az iskolai könyvtár szolgáltatás típusai
Az Európai Uniós csatlakozás könyvtári kihívásai
Magyar Tudományos Művek Tára
A modern nagyvárosok kifejlődése, az agglomerálódási szakasz
Menedzsment és Vállalatgazdaságtan PhD Menedzsment alapok
Kórházi könyvtárak lehetőségei a tudáspiacon
T.R. Adatbázis-kezelés - Alapfogalmak Adatbázis:
Drótos László – Németh Márton Kísérleti webaratás projekt az OSZK-ban
Tájékoztató a évi OSAP teljesüléséről
Helyi értékek közvetítése könyvtári eszközökkel
Projektmunka Földrajzolok
Hogyan lehet sikeresen publikálni?
CALDERONI FORRÁSKEZELŐ RENDSZER
Országos Széchényi Könyvtár
TÁMOP az OSZK-ban Tudásdepo-Expressz” — A könyvtári hálózat nem formális és informális képzési szerepének erősítése az élethosszig tartó tanulás.
Tájékoztató az Önkormányzati ASP Projektről
Elektronikus folyóiratok online könyvtára
Az internet minőségi információ halmazainak feltárásáról
Informatikai gyakorlatok 11. évfolyam
„404 Not Found – Ki őrzi meg az internetet?” workshop
Környezeti Kontrolling
Drótos László - Németh Márton (Országos Széchényi Könyvtár)
Új pályainformációs eszközök - filmek
Zanáné Haleczky Katalin október 09.
Köszöntő A Dokumentumkezelő rendszerek helye és szerepe
TÁRGYI ESZKÖZÖK ELSZÁMOLÁSA
Interaktív Adatmenedzsment Kft.
beruházás-tervezési ABCD
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
Dr. Vasas Lívia, PhD december
Magyar Bibliográfiai Adatbázisok
Kórházi könyvtárak az információs társadalomban
OVIDIUS Info-Service Co Ltd.
A MATARKA és az EPA közötti együttműködés
LIA Alapítványi Ált. Isk. és Szki. Piliscsabai Tagintézménye
Az ELTE Fogyatékosügyi Központ bemutatása
Kórházi és ágazati gazdálkodást érintő informatikai fejlesztések és az azokban rejlő lehetőségek Horváth Tamás Vezérigazgató CompuTREND Zrt.
Drótos László – Németh Márton Kísérleti webaratás projekt az OSZK-ban
Üzlezi információelemző specializió
Előadás másolata:

Webarchívum mint a tudományos kutatások tárgya Németh Márton Országos Széchényi Könyvtár Webarchívum mint a tudományos kutatások tárgya Networkshop 2019 2019. április 26. Győr

A kutatás digitális forrásai Az archivált webes anyagok önmagukban is a tudományos kutatás tárgyául szolgálhatnak. Könyvtárosok, levéltárosok, információtudósok, digitális bölcsészeti szakemberek, adattudósok és informatikus szoftverfejlesztők dolgozhatnak együtt nagymennyiségű webes adattömegek strukturális és tartalmi alapú vizsgálatában. A legutóbbi tíz évben új tudományos diszciplínák születnek - pl. webtörténelem. 2

Fő témakörök Web történelem és web historiográfia Webarchívumok és nagymennyiségű adatok (big data) Webarchívumok és a szemantikus világháló

Web történelem és web historiográfia 4

Digitális Bölcsészet (Nyílt hozzáférésű tudományos folyóirat) 5

A kutatás tárgya A világháló műszaki infrastruktúrájának története; A világháló kommunikációs és publikációs felületének története; Egy adott témakör, esemény, intézmény, személy stb. világhálós történeti lenyomatának vizsgálata; Szöveges vagy vizuális webes tartalmak illetve webes naplófájlok mint a big data elemzés tárgyai (pl. gépi tanulás a felhasználói szokások, viselkedés elemzésére). 6

A kutatás szintjei Egyedi fájlok vagy weboldalak; Egyedi webhely(ek); Egyedi domén(ek); Az egész világháló. 7

Kihívások, problémák Hiányos memento, archívum vagy megjelenítési hibák; Temporal drift és live web leakage (egy adott weboldal vagy webhely egyes részeinek különféle időszakokban archivált részei amelyek egységes keretben jelennek meg) Az archivált fájlok hitelessége; Duplikátumok és URL cím megváltozása; Egy adott domén tartalmának teljes megváltozása, stb. A nemzeti webarchívumok közös kereshetőségének, kutatási infrastruktúrájának megteremtése - Niels Brügger EU-projekt terve -Transnational Research Use of Web ARChives (TRUeWARC). 8

Webarchívumok és a nagymennyiségű adatok kezelése A webarchívumok mint nagyméretű webes korpuszok számos adattudományi projekt középpontjában állnak. A nyílt kapcsolt adatok koncepciója kapcsán a webarchívumokban tárolt, részben strukturált adatok feldolgozása, illetve rejtett, releváns információk feltárása. Újfajta együttműködési lehetőségek közgyűjtemények, webarchiváló szakemberek és adattudósok között. 9

Adattípusok és adatbányászati tevékenységek fajtái Webtranzakciós adatok (pl. naplófájlok, geolokáció); Strukturált adatok (pl. linkgráfok) ; A tartalomhoz kötődő adatok (pl. szöveges vagy vizuális információk). Adatbányászat és webhasználat; Adatbányászat és webes struktúrák; Adatbányászat és webes tartalmak. 10

Példa: BUDDAH (Big UK Domain Data for the Arts and Humanities) 65 TB begyűjtött tartalom Az .uk domain 1996 és 2013 között; SHINE történeti keresőmotor; Trendek vizsgálata; Információ vizualizáció ... honlap: buddah.projects.history.ac.uk 11

Webarchívumok és a szemantikus web Az archivált tartalmak hatékony és a tartalmi jelentésre irányuló visszakeresési módszereinek hiánya komoly akadálya annak, hogy a webarchívumokat használható és hasznos információforrássá lehessen alakítani. Jelentős információtudományi kihívás a szemantikus webes módszerek és eszközök meghonosítása a webarchívumok környezetében. A webarchívumoknak részévé kell válniuk a nyílt, kapcsolt adatok univerzumának, fejlett lekérdezési és adatintegrációs képességekkel. Meg kell teremteni a webarchívumok lekérdezésének lehetőségét külső rendszerek, szoftvereszközök által is. 12

Néhány lehetséges módszer Entitások kinyerése; RDF tripletek generálása; Entitások gazdagítása külső erőforrásokból; Kapcsolt adatok publikálása; Szemantikus alapú fejlett lekérdezési lehetőségek és rangsorolási módszerek kialakítása Egy szemantikus réteg megalkotásának folyamata az Open Web Archive adatmodelljében Fafalios, Holzmann, et al. 2018. javaslata szerint. 13

SolrMIA ( a magyar demo webarchívum keresőmotorja) webadmin.oszk.hu/solrmia Solr-alapú teljesszövegű index; Metaadat alapú szűrés és találati listák megjelenítése; Jövőbeni tervek: Entitások kinyerése; Metaadat gazdagítás névterekből és tezauruszokból. 14

Köszönjük a figyelmüket! Kérdések? Magyar webarchiválási projekt: http://mekosztaly.oszk.hu/mia/ Demo webarchívum: http://mekosztaly.oszk.hu/mia/demo/ Válogatott bibliográfia a webarchiválás témakörében: http://mekosztaly.oszk.hu/mia/doc/webarchivalas-irodalom.html e-mail: mia@mek.oszk.hu