Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból,

Hasonló előadás


Az előadások a következő témára: "A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból,"— Előadás másolata:

1 A Magyar Antikvakorpusz fejlesztése

2 A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb. 2300 szó) A minimális mintaméret: 1000 szó A teljes korpusz mérete: kb. 240 000 szó ~ kb. 1 200 000 n

3 A fejlesztés főbb céljai Minél több teljes szöveg Minél tágabb időintervallum Minél mélyebb TEI-annotáció Rugalmas kereshetőség Szöveg-kép összekapcsolás Interaktív kutatóbázissá fejlesztés

4 A diakrón korpuszok építésének a nehézségei A betűhív rögzítés nehézségei –A kézírás és a régi nyomtatványok esetében először a grafémákat kell elkülöníteni –A grafémák számítógépen való tárolásának és megjelenítésének a problémája Az annotáció nehézségei –Az ortográfiai sokszínűség és az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt

5 A Magyar Antikvakorpusz szövege Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.

6 A digitális antikvafilológia speciális kérdése: a karakterkezelés A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd). Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait. Kétféle megoldás van: –ajánlások a Private Use Area használatára, –javaslattétel a Unicode konzorciumnak. A Unicode 5.1-be pl. 152 javaslatukat vették föl.

7 A Medieval Unicode Font Initiative

8 A Magyar Antikvakorpusz szövege A konverziós szkript lefuttatása után:

9 Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)

10 A fontkészlet böngészőbe varázslása: a cufón projekt Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljukonline generátorFontForge-szkripttel SVG Ezután az SVG-útvonalakból VML-útvonalakat készít a szkriptVML Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerveréreJSON A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös - sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket JavascripttelHTML 5

11 Szabványos annotáció: az XML- kódolás eXtensible Markup Language (az SGML szabvány egyszerűsített változata) A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való A jelölőelemek (tagek) szabadon bővíthetők. Használatuknak szigorú szintaxisa van.

12 Text Encoding Initiative 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében. Az első (P1) Guidelines 1990-ben jelent meg. Jelenleg a P5 a legújabb standard (2007). 2002 óta a TEI az XML-t ajánlja. 1999-ben konzorcium alakult a norvégiai Bergenben. Jelenleg is számos szervezet, egyetem, könyvtár támogatja és használja az ajánlásokat. Bár formálisan csak egyetlen magyar tagja van a konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).

13 A TEI-dokumentumok felépítése (…) (…) (…) (…)

14 A TEI-header

15 A kereshetőség és interaktivitás biztosítéka: a Drupal CMS A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System) Lehetővé teszi rugalmas web 2.0-ás oldalak építését Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére

16 A jelenlegi állapot Hamarosan elkészül a Drupal-alapú honlap Ez lehetőséget biztosít a rugalmas keresésre A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben

17 Köszönöm a figyelmet! Látogassák meg: www.korpusz.ektf.hu www.digitalisbolcseszet.blog.hu


Letölteni ppt "A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból,"

Hasonló előadás


Google Hirdetések