Az Esztergom és Vidéke az Interneten, a helyi lapok digitalizálásának problémái Várady Eszter igazgató Helischer József Városi Könyvtár, Esztergom
Cél •Az Esztergom környéki helytörténeti lapok digitalizálása •Interneten való közzététele •Teljes szövegű keresőrendszer •Igény esetén lemezes kiadás •A különböző források egyesítése
Első lépés: Esztergom és Vidéke •Indulás: 1879 •Megjelenés: csütörtök, vasárnap •Terjedelem: 4 oldal •Első két oldal hosszabb közéleti cikkek •Harmadik, negyedik oldal rövid hírek, hirdetések
Digitalizálás mikrofilmről? •Előnye: viszonylag egyszerű, gyors, teljes •Hátránya: igen rossz minőségű, szövegfelismerésre (OCR) alkalmatlan •Nem biztosítható az elfogadható színvonalú keresés
Digitalizálás lapadagolós szkennerrel? •Előnye: igen jó minőségű szkennelés, jó minőségű OCR •Hátránya: a köteteket lapokra kell bontani •Döntés: a kötetek szétszedése, visszakötés nélküli tárolása, szolgáltatás digitálisan
Munkamenet •Kötetek óvatos lapra szedése •Szkennelés: 400 DPI, szürke, JPG •Automatikus szövegfelismerés (OCR) •Kétrétegű PDF készítése (felül a szkennelt kép, alatta a szöveg) •Eredmény: fekete-fehér PDF, évenként egy, napi könyvjelzőkkel
Szövegfelismerés (OCR) problémái •A minőség sokat javul a bonyolult oldalszerkezet, hasábok manuális javításával •Így a főszöveg minősége igen jó, 98-99% •A hirdetések OCR-ezése a bonyolult tördelés, speciális betűtípusok, stb. miatt nem lehet cél
Közlés az Interneten ( ) •Böngészés, évre, hónapra, napra •Teljes szövegű keresés •Szöveg és dátum kombinálása •Találat megjelenítése, kivilágítása •Igény esetén szöveg exportálása
Keresési funkciók •Nagy sebesség •Betekintés az kereshető szavak közé •Csonkolás jobbról, balról, szó belsejében •Logikai operátorok oldalon belül •Közelségi operátorok: szavak egymás mellett, adott szó távolságra •Találatok kivilágítása
A jövő •Feldolgozni az Esztergom és Vidéke teljes anyagát ( ) •További folyóiratok: ???? •Helytörténeti monográfiák: ????
Köszönöm a figyelmet!