Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaNóra Borbélyné Megváltozta több, mint 10 éve
1
A Magyar Antikvakorpusz fejlesztése
2
A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb. 2300 szó) A minimális mintaméret: 1000 szó A teljes korpusz mérete: kb. 240 000 szó ~ kb. 1 200 000 n
3
A fejlesztés főbb céljai Minél több teljes szöveg Minél tágabb időintervallum Minél mélyebb TEI-annotáció Rugalmas kereshetőség Szöveg-kép összekapcsolás Interaktív kutatóbázissá fejlesztés
4
A diakrón korpuszok építésének a nehézségei A betűhív rögzítés nehézségei –A kézírás és a régi nyomtatványok esetében először a grafémákat kell elkülöníteni –A grafémák számítógépen való tárolásának és megjelenítésének a problémája Az annotáció nehézségei –Az ortográfiai sokszínűség és az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt
5
A Magyar Antikvakorpusz szövege Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.
6
A digitális antikvafilológia speciális kérdése: a karakterkezelés A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd). Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait. Kétféle megoldás van: –ajánlások a Private Use Area használatára, –javaslattétel a Unicode konzorciumnak. A Unicode 5.1-be pl. 152 javaslatukat vették föl.
7
A Medieval Unicode Font Initiative
8
A Magyar Antikvakorpusz szövege A konverziós szkript lefuttatása után:
9
Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)
10
A fontkészlet böngészőbe varázslása: a cufón projekt Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljukonline generátorFontForge-szkripttel SVG Ezután az SVG-útvonalakból VML-útvonalakat készít a szkriptVML Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerveréreJSON A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös - sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket JavascripttelHTML 5
11
Szabványos annotáció: az XML- kódolás eXtensible Markup Language (az SGML szabvány egyszerűsített változata) A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való A jelölőelemek (tagek) szabadon bővíthetők. Használatuknak szigorú szintaxisa van.
12
Text Encoding Initiative 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében. Az első (P1) Guidelines 1990-ben jelent meg. Jelenleg a P5 a legújabb standard (2007). 2002 óta a TEI az XML-t ajánlja. 1999-ben konzorcium alakult a norvégiai Bergenben. Jelenleg is számos szervezet, egyetem, könyvtár támogatja és használja az ajánlásokat. Bár formálisan csak egyetlen magyar tagja van a konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).
13
A TEI-dokumentumok felépítése (…) (…) (…) (…)
14
A TEI-header
15
A kereshetőség és interaktivitás biztosítéka: a Drupal CMS A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System) Lehetővé teszi rugalmas web 2.0-ás oldalak építését Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére
16
A jelenlegi állapot Hamarosan elkészül a Drupal-alapú honlap Ez lehetőséget biztosít a rugalmas keresésre A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben
17
Köszönöm a figyelmet! Látogassák meg: www.korpusz.ektf.hu www.digitalisbolcseszet.blog.hu
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.