Szöveg- és karakterkódolás XML alapokon Király Péter Arcanum Adatbázis Kft.
Szöveg- és karakterkódolás xml alapokon A projektek Hungarológiai alapkönyvtár Klasszikus társadalomtudományi (művelődéstörténeti) művek: „spenót” (irodalomtörténet) Magyar néprajz II–VIII. Magyar színháztörténet Demeter Tibor 40 kötetes bibliográfiája (magyar irodalom idegen nyelven) „saját” adatbázisaink Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon Szedés Szövegrögzítés Általában kézi szedés Rögzített szedési útmutatás (szintek, jegyzetek, képek, különleges karakterek) Szövegszerkesztővel történik (MS Word, Unipad) Kapott anyagok konvertálása (MS Word, nyomdai anyagok /QuarkPress, FrameMaker/, adatbázisok /Access, MySQL, PgSQL/, egyedi/ritkán használt/elavult szoftverek ld. Drótos Laci előadásait) Automatikus karakterfelismerés Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon Szedés: problémák Képes-e a szedő tagelni? Milyen formában? Nem csökkentjük-e drasztikusan azt a hatékonyságot, amiben ő a legjobb? Az egyedi szoftver korlátai (karakterek, szintek, szemantikus elemek) Hogyan olcsóbb és/vagy gyorsabb? Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon Korrektúra Mindig „kézi” korrektúra (létezik – bár kihalóban – a „korrektor” nevű szakmunkatárs, régebben a nyomdák környékén volt fellelhető) Korrektúrázási útmutató (általában azonos a szedési útmutatóval) A szedés kinyomtatásával, papíron, tollal történik Általában többszöri korrektúraforduló hoz csak kielégítő* eredményt Szöveg- és karakterkódolás xml alapokon
Korrektúra: problémák „Ragaszkodás a tipográfiához” „Ragaszkodás a helyesíráshoz” Mindig az adott projekt dönti el, hogy hogy írjuk át a szöveget (akadémiai helyesírás, korabeli ízek megtartása, vélelmezett sajtóhibák) [a közép-latin oklevélszöveg és az indoeurópai nyelvészet professzorának találkozása a korrektúrapéldány fölött] „pont, pont, vesszőcske” hibák észrevétele Előre elképzelni az adatbázist, és aszerint dolgozni „visszajavító” foglalkoztatása szükséges Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon Adatbázisépítés NEM XML! hanem Teljes szövegű adatbáziskezelő, ami tud egy sor dolgot, amit az XML ígér tudunk belőle XML fájlt konvertálni Alternatívák: Folio, Word, WordPerfect, QuarkXPress, FrameMaker, OpenOffice, egyedi szoftverek, pl. Classical Text Editor Szöveg- és karakterkódolás xml alapokon
…vagy közvetlen szerkesztés XML-szerkesztők oXygen, XML Spy, Stylus Studio Általános szerkesztők plug-inekkel jEdit, Emacs, TEI-Emacs, Eclipse Programozók egyszerű, de nagyszerű szövegszerkesztői TextPad, UltraEdit, NoteTab Quark Xpress Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon konvertálás Folio->FFF (Folio Flat File) FFF > (Perl scriptek) >XML Validálás, hibajavítás (az FFF-ben), újra konvertálás XML + XSL > (xsl processzor) > HTML (vagy ami tetszik) Igény szerint utófeldolgozás (Perl) HTML validálás, hibakeresés, visszajavítás Quark Xpress Szöveg- és karakterkódolás xml alapokon
Konvertálás: problémák Az XSLT a rekurzióra épül, ami nagyon forrásigényes algoritmus Nincsenek kiforrott, gyors processzorok Nagy fájlok esetén nehézkes a használata (vagy különféle kompromisszumokat kell kötni) Karakterkonverziók („natív” ansi/ascii karakterek, karakter egyedek) Quark Xpress Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon Előnyök Robosztus, többé-kevésbé kompromisszummmentes (ld. szövegkritikai DTD), tartósítható állomány Beépített hibaellenőrzés Egyszerűbb újrafelhasználni, mint a valamilyen célra „kihegyezett” formátumokat Ha nem is a „megígért” ütemben, de mégiscsak gyarapodó támogatás Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon Nehézségek Konverziós problémák Nagyfokú munkafegyelem és kooperációs készség szükséges Pontos előzetes megállapodások, folyamatos konzultáció Nincsenek kézhezálló, valóban kényelmesen és gyorsan használható eszközök Számos dolog csak ígéret és nem jelenvalóság (pl. szofisztikált keresés) költséges Szöveg- és karakterkódolás xml alapokon
Szöveg- és karakterkódolás xml alapokon < ez nem az a kulcs Kérdések, problémák, konzultációs és bosszankodási/bosszantási lehetőség: kiru@arcanum.hu Szöveg- és karakterkódolás xml alapokon