ETO-jelzetek posztkoordinált visszakeresése Piros Attila Témavezető: Dr Boda István
Cél Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával.
Miért az ETO? Egyetemes, minden szakterületre kiterjedő, hierarchikus rendszer 0 – Általános tartalmú írásművek. 00 – A tudomány és kultúra legáltalánosabb alapjai. 004 – Számítástechnika. 004.4 – Szoftver. Program. 004.42 – Programozás. 004.422 – Programok elemei. 004.422.3 – Változó. 004.422.35 – Változó deklaráció. 004.422.352 – Explicit változó deklaráció.
Miért az ETO? Rugalmas A hierarchiában nem szereplő fogalmak leírására általános és speciális alosztások rendszere áll rendelkezésre 510.6+510.2(075.8)(47+51)=161.1 Matematikai logika és halmazelmélet. Egyetemi tankönyv orosz nyelven. 004.451.7:004.7 Osztott idejű adatfeldolgozás számítógépes hálózatokban. Névalosztások is használhatók 004.655.3 T-SQL Szabványos lekérdező nyelv (SQL) – T-SQL 004.912=93C++ C++ -ban írt szövegszerkesztő program Bővíthető más osztályozási nyelvből vett jelzetekkel
Miért az ETO? Világszerte elterjedt és használt Egyike a világ két legelterjedtebb osztályozási rendszerének A táblázatok legalább 51 nyelvre le vannak fordítva Több, mint száz éve használják (Magyarországon is) dokumentumok tartalmi feltárására Létező nagy gyűjtemények vannak már feldolgozva vele Olyan rendszerre van szükségünk, ami már rögzített jelzetek feldolgozására (retrospektív konverzió) is alkalmas Folyamatosan karbantartott és aktualizált
Miért az ETO? Online elérhető: egyelőre csak 2.600 osztály, 51 nyelven (magyarul is!) UDC Summary (böngészhető) http://www.udcc.org/udcsummary UDCS Linked Data, letölthető SKOS (XML/RDF) formátumban: http://udcdata.info/ Minden osztály és alosztás (műveletek is) saját URI-al rendelkezik
Eddigi megoldások Csak részmegoldások vannak Ok: az ETO természetes nyelvi jellege, a szabályainak ebből adódó bonyolultsága és következetlensége Például: műveletek használhatósága és jelentése táblázatonként változó Pl. összekötés, viszonyítás, aposztróf részjelzetek határa és szerepe nem mindig egyértelmű szempont szerinti általánosan közös alosztások és speciális alosztások számjelzetes speciális alosztások pont-nullás alosztások (372.814.08 – világnézet alapja tantárgy)
Megoldástípusok Prekoordináció: Jelzetelemek manuális kiemelése. Így működtek az offline szakkatalógusok is. Hátrányai: Nem automatizálható Intervallumok kezelésére alkalmatlan (megfelelő kereső algoritmus megoldhatná) Csak a kiemelt jelzetek kereshetők, minden más elvész a kereső számára Nagy az indexelő felelősége
Megoldástípusok Jelzetelemek egyesével történő bevitele: A rendszer nem a kész ETO-szám beírását várja el, hanem az egyes jelzetelemek megadását. Előnye: böngészhetővé tehetők az elemek, ami megkönnyítheti az indexelést Hátrányai: Körülményes a jelzetbevitel Nem automatizálható Nem kezeli eléggé az ETO rugalmasságát (több azonos típusú alosztás, alosztások műveletei stb.)
Megoldástípusok Keresés csonkolással: Hátrányai: A kereső személyre nagy terhet ró az ETO rugalmassága miatt (mindig számba kell venni minden lehetőséget, alaposan ismerni kell az ETO-t és a rendszert (!) is) nagyon lassúak ezek a keresések, és indexszel sem gyorsíthatók intervallumok kezelése lehetetlen (visszahívás sérül) számok egymáshoz való kapcsolódása (tehát az az információ, hogy pl. melyik alosztás melyik részjelzethez kapcsolódik) elvész (nagy a zaj, a precízió sérül) mivel az ETO maga is hierarchikus rendszer, egy kereső algoritmusnak ezt csonkolás nélkül is kezelnie kell.
Cél Olyan módszert adni a jelzetek eltárolására és visszakeresésére, amely a lehető legnagyobb pontosságú és teljességű találati listát eredményezi anélkül, hogy akár a indexelőtől akár a keresőtől az elmentendő illetve visszakeresendő jelzetek szabályos elkészítésén vagy kiválasztásán túl bármiféle erőfeszítést igényelne (mint például a fontosnak vélt jelzetelemek kiemelését, a jelzetek csonkolását, permutációját vagy a szabványos jelzetelemek más karakterrel történő helyettesítését). A hatékonyság empirikus vizsgálata.
Teendők ETO által felvetett kérdések és problémák elemzése: A jelzeten belül milyen információkat kell figyelembe venni és invertálni illetve elmenteni Mire kell figyelni a jelzetek elemzésekor, milyen problémák lehetnek Kész (jöhetnek elő új kérdések, az ETO is változik)
Teendők Automata elkészítése: XML séma definíció: Véges automata, bemenő jelei az index karakterei, kimenet egy XML, ami reprezentálja a jelzetet. Diagram kész, implementáció folyamatban XML séma definíció: Elsősorban technikai célt szolgál A UDC Summary URI-ainak segítségével felhasználható a komplex jelzetek összekötésére a UDC Linked Data-val A séma definíció készen van
Teendők Az adatok adatbázisba mentése Alapelvek le vannak írva Keresés részletes kidolgozása és implementálása
Irodalomjegyzék Adatbázis transzformációalapú kereshetőségjavítása: ETO-kereshetőség a BME OMIKK Aleph rendszerében / Marton József; Prokné Palik Mária.- Bp.: TMT, 56. évf. (2009) 2. sz. Egyetemes Tizedes Osztályozás. – Bp.: OSZK-KI, 2005. Az ETO alkalmazása a gépesített dokumentációs és könyvtári munkában / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. Az ETO az Országos Széchényi Könyvtár számítógépes rendszerében / Zöldi Péter. – In: Könyvtári Figyelő, 1993. 3. sz. - http://ki.oszk.hu/kf/1993/10/az-eto-az-orszagos-szechenyi-konyvtar-szamitogepes-rendszereben Bevezetés az információkereső nyelvek elméletébe és gyakorlatába. – B. Hajdu Ágnes; Babiczky Béla. – Bp.: Universitas kiad., 1998 Észrevételek egy ETO-ról szóló tanulmányhoz / Ungváry Rudolf. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/eszrevetelek-mandy-gabor-tanulmanyahoz Könyvtári feldolgozó munka : Osztályozás és szakkatalógus szerkesztés / Babiczky Béla – Bp.: Tankönyvkiadó, 1975. Könyvtári információkeresés / Ungváry Rudolf, Vajda Erik. – Bp.: Typotex, 2002. Könyvtári osztályozási segédletek : a segédkönyvtárosképzés céljára / Mándy Gábor. - http://etotanf.x3.hu Kutatási tervezet az ETO-nak mint gépesített referencia-keresőrendszer indexelési nyelvének kiértékelésére / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. – p. 231-233 Régi ETO, új ETO / Mándy Gábor. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/regi-eto-uj-eto/ Research Project for the Evaluation of the UDC as the Indexing Language for a Mechanized Reference Retrieval System: Progress Report for the Period July 1, 1965-January 31, 1966 / Pauline Atherton Cochrane; Robert R. Freeman UDC Summary Linked Data. - http://udcdata.info/ UDC as Linked Data. – In: UDC Blog, 2012.08.26. - http://universaldecimalclassification.blogspot.hu/2012/08/udc-as-linked-data.html UDC Summary. - http://www.udcc.org/udcsummary/php/index.php Könyvtárosok kézikönyve : 2. kötet / Horváth Tibor; Papp István Az Egyetemes Tizedes Osztályozás (ETO) alapelvei, reviziójának és kiadásának szabályai / Csengődy Eszter. – Budapest: OMIKK, 1983 Szemléletváltozás az ETO jelzetszerkesztésében / Babiczky Béla. – In: Könyvtári Figyelő, 1985. 1. sz.
Köszönöm a figyelmet.