A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból,

Slides:



Advertisements
Hasonló előadás
Zenetár a webszerverünkön, avagy XML használata PHP 5 alatt. Ercsey Balázs (laze) – netpeople.hu.
Advertisements

Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Programozás III STRING-XML.
Tanyanyagtárházak lépjünk túl egy LMS korlátain Networkshop 2010 Debrecen, április Vágvölgyi Csaba
INTERAKTÍV BARLANG TÉRKÉP, OPENSOURCE GIS ALAPON
Videó kártyák újdonságai Készítette: Villás Tibor.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Internet Felépítése, működése.
Czeglédi László Integrált tartalomszolgáltatás megújult környezetben
Extensible Markup Language
2010/2011.Huszár István1. dia Weboldalak tervezése II. (X)HTML.
Előzmények Sikeres pályázat a kézirat elkészítésére (2004) A könyv megjelenése (2006)
Weben publikált térképek a földrajzi kutatásokban Ádám Eszter Geográfus MSc hallgató.
Amit a HTML-ről érdemes tudni
Leírónyelvek: HTML és XHTML
Statikus vs. dinamikus weblapok
A HTML alapjai Havlik Barnabás Készítette:
Mobiltelefonokra optimalizált árfolyamlista és pénzváltó kivitelezése IX. VMTDK Témavezető: Dr. PATAKI Éva Szerző: SZÉKEJ É. Krisztián, I. évfolyam, Szegedi.
Microsoft szoftverek a szakképzésben
Vizuális és web programozás II.
Google earth és a térinformatika kapcsolata
Microsoft BI technológiák az eszközmenedzsment szolgálatában
INTERNET.
„A finnugor örökség digitalizálása és automatizált feltárása” szeptember 14. Hungarológia és a Magyar Elektronikus Könyvtár Moldován István Országos.
Digitalizálás a könyvtárban Békés Megyei Könyvtár Szakmai nap február 7. Moldován István OSZK MEK osztály.
A Magyar Elektronikus Könyvtár új szolgáltatásai és működése Moldován István OSZK MEK osztály Somogyi Károly Városi és Megyei Könyvtár.
Magyar Digitális Képkönyvtár az OSZK-ban Dunaújváros, Networkshop március 17.
Könyvtár egy kicsit másképp - a Magyar Elektronikus Könyvtárról és legújabb fejlesztéseiről Szombathely, Góczán Andrea OSZK, MEK osztály.
A MEK új fejlesztéseiről Góczán Andrea OSZK, MEK Osztály Kaposvár, november 12.
Web Application for Resource Planning
Előadó: Markója Szilárd könyvtárvezető
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
Korpásné Szűcs Melinda web-referens DEENK Korpásné Szűcs Melinda web-referens DEENK.
WEB 2.0. Amiről szó lesz… Web átalakulóban, a WEB 2.0 –Újszerű weboldalak… –Első a tartalom! –A felhasználók hatalomátvétele?! –A Web mint platform –
Kulturális honlapok minősége A MINERVA Projekt minőségi alapelvei.
Weboldalak tervezése (X)HTML.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Web: Magasszintű Programozási Nyelvek I. Eszterházy.
Karakter kódolás Összeállította: Kovács Nándor Felhasznált irodalom:
TransMotion Emberi mozgás digitalizálása
LKG-Moodle A LKG ToP ( T áv O ktatási P ortál) működéséről avagy bevezetés a MOODLE e-oktatási rendszer használatába Bánhegyesi Zoltán.
Alkalmazói programok Integrált felhasználói rendszerek Számítómunkahelyen szükséges felhasználói programokat egy csomagban, modulokban tartalmazza; az.
Forgatókönyv.
Web-programozás Lénárt Anett egyetemi adjunktus - PTE PMMK Rendszer- és Szoftvertechnológia Tanszék 1. Előadás Tananyag: A WWW A HTML nyelv alapjai.
Illés Zoltán ELTE Informatikai Kar
XML adatkezelés 1. témakör Az XML szabvány.
XML Mi az XML?  Extensible Markup Language  Kiterjeszthető jelölő nyelv  Adatok, adatstruktúrák leírására szolgál  A HTML és az SGML tapasztalataira.
Könyvtári honlapok megújítása Miért és hogyan? Vida Andrea Egyetemi Könyvtár Szeged.
Képek Káldos János Országos Széchényi Könyvtár Networkshop Április 5-7 Győr.
HTML ÉS PHP (Nagyon) rövid áttekintés. ADATBÁZISRENDSZEREK MŰKÖDÉSI SÉMÁJA Felh. interakció DB Connector MySQL ? A gyakorlaton:
Violet nails Készítette: Csőke Vivien. Bevezetés Téma: Violet nails - műkörömkészítő weblapjának elkészítése A weboldal elérhető az alábbi címen: violetnails.atw.hu.
Spanyolország gyöngyszeme: GRANADA Egy hobby portál kivitelezése.
Dokumentumkezelő rendszer javaslat PTR zRt. részére
A MEK2.0 magyar digitális könyvtári alkalmazása - eleMEK Moldován István OSZK MEK osztály ”Networkshop” Pécs, április
Illés Zoltán ELTE Informatikai Kar
N E M Z E T I A U D I O V I Z U Á L I S A R C H Í V U M
Nyílt rendszerek összekapcsolása
Rétegmentesítés megvalósítása XML segítségével Kovács Máté.
Moduláris könyvtári rendszer elektronikus dokumentumgyűjtemények kezeléséhez: az eleMEK projekt Drótos László Perlaki Attila Országos Széchényi Könyvtár,
Az Office 2007 új fájlformátumai. DOCX, XLSX, PPTX, ACCDB: Új nyílt szabványú XML alapú fájlformátum (DOC nem nyílt szabványú) XPS: A dokumentum.
Turisztikai informatikai alkalmazások BA Turizmus- vendéglátás – Gödöllő Összeállította: Pető István TARTALOMKEZELŐ RENDSZEREK.
A JaDoX, mint repozitórium szoftver a közgyűjteményi informatikában JaDoX 3 Monguz Portál24 Monguz Kft. Mazula Zoltán.
Lente Tamás Méliusz Juhász Péter Könyvtár
Kulcsrakész Közgyűjteményi Portál
Az informatika alapfogalmai Adatok tárolása Adatok továbbítása
INFORMATIKA 2. alkalom -1. rész november 18. Gyakorló 001.
DRUPAL Előadja: Nagy Nikoletta :05.
Internet és kommunikáció
INFORMATIKA 2. alkalom -1. rész október 6. Gyakorló 001.
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

A Magyar Antikvakorpusz fejlesztése

A nyers korpusz főbb adatai A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb szó) A minimális mintaméret: 1000 szó A teljes korpusz mérete: kb szó ~ kb n

A fejlesztés főbb céljai Minél több teljes szöveg Minél tágabb időintervallum Minél mélyebb TEI-annotáció Rugalmas kereshetőség Szöveg-kép összekapcsolás Interaktív kutatóbázissá fejlesztés

A diakrón korpuszok építésének a nehézségei A betűhív rögzítés nehézségei –A kézírás és a régi nyomtatványok esetében először a grafémákat kell elkülöníteni –A grafémák számítógépen való tárolásának és megjelenítésének a problémája Az annotáció nehézségei –Az ortográfiai sokszínűség és az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt

A Magyar Antikvakorpusz szövege Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.

A digitális antikvafilológia speciális kérdése: a karakterkezelés A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd). Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait. Kétféle megoldás van: –ajánlások a Private Use Area használatára, –javaslattétel a Unicode konzorciumnak. A Unicode 5.1-be pl. 152 javaslatukat vették föl.

A Medieval Unicode Font Initiative

A Magyar Antikvakorpusz szövege A konverziós szkript lefuttatása után:

Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)

A fontkészlet böngészőbe varázslása: a cufón projekt Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljukonline generátorFontForge-szkripttel SVG Ezután az SVG-útvonalakból VML-útvonalakat készít a szkriptVML Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerveréreJSON A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös - sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket JavascripttelHTML 5

Szabványos annotáció: az XML- kódolás eXtensible Markup Language (az SGML szabvány egyszerűsített változata) A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való A jelölőelemek (tagek) szabadon bővíthetők. Használatuknak szigorú szintaxisa van.

Text Encoding Initiative 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében. Az első (P1) Guidelines 1990-ben jelent meg. Jelenleg a P5 a legújabb standard (2007) óta a TEI az XML-t ajánlja ben konzorcium alakult a norvégiai Bergenben. Jelenleg is számos szervezet, egyetem, könyvtár támogatja és használja az ajánlásokat. Bár formálisan csak egyetlen magyar tagja van a konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).

A TEI-dokumentumok felépítése (…) (…) (…) (…)

A TEI-header

A kereshetőség és interaktivitás biztosítéka: a Drupal CMS A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System) Lehetővé teszi rugalmas web 2.0-ás oldalak építését Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére

A jelenlegi állapot Hamarosan elkészül a Drupal-alapú honlap Ez lehetőséget biztosít a rugalmas keresésre A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben

Köszönöm a figyelmet! Látogassák meg: