A Magyar Antikvakorpusz fejlesztése
A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb szó) A minimális mintaméret: 1000 szó A teljes korpusz mérete: kb szó ~ kb n
A fejlesztés főbb céljai Minél több teljes szöveg Minél tágabb időintervallum Minél mélyebb TEI-annotáció Rugalmas kereshetőség Szöveg-kép összekapcsolás Interaktív kutatóbázissá fejlesztés
A diakrón korpuszok építésének a nehézségei A betűhív rögzítés nehézségei –A kézírás és a régi nyomtatványok esetében először a grafémákat kell elkülöníteni –A grafémák számítógépen való tárolásának és megjelenítésének a problémája Az annotáció nehézségei –Az ortográfiai sokszínűség és az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt
A Magyar Antikvakorpusz szövege Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.
A digitális antikvafilológia speciális kérdése: a karakterkezelés A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd). Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait. Kétféle megoldás van: –ajánlások a Private Use Area használatára, –javaslattétel a Unicode konzorciumnak. A Unicode 5.1-be pl. 152 javaslatukat vették föl.
A Medieval Unicode Font Initiative
A Magyar Antikvakorpusz szövege A konverziós szkript lefuttatása után:
Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)
A fontkészlet böngészőbe varázslása: a cufón projekt Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljukonline generátorFontForge-szkripttel SVG Ezután az SVG-útvonalakból VML-útvonalakat készít a szkriptVML Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerveréreJSON A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös - sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket JavascripttelHTML 5
Szabványos annotáció: az XML- kódolás eXtensible Markup Language (az SGML szabvány egyszerűsített változata) A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való A jelölőelemek (tagek) szabadon bővíthetők. Használatuknak szigorú szintaxisa van.
Text Encoding Initiative 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében. Az első (P1) Guidelines 1990-ben jelent meg. Jelenleg a P5 a legújabb standard (2007) óta a TEI az XML-t ajánlja ben konzorcium alakult a norvégiai Bergenben. Jelenleg is számos szervezet, egyetem, könyvtár támogatja és használja az ajánlásokat. Bár formálisan csak egyetlen magyar tagja van a konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).
A TEI-dokumentumok felépítése (…) (…) (…) (…)
A TEI-header
A kereshetőség és interaktivitás biztosítéka: a Drupal CMS A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System) Lehetővé teszi rugalmas web 2.0-ás oldalak építését Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére
A jelenlegi állapot Hamarosan elkészül a Drupal-alapú honlap Ez lehetőséget biztosít a rugalmas keresésre A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben
Köszönöm a figyelmet! Látogassák meg: