Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Osztályozási rendszerek, információkereső nyelvek I

Hasonló előadás


Az előadások a következő témára: "Osztályozási rendszerek, információkereső nyelvek I"— Előadás másolata:

1 Osztályozási rendszerek, információkereső nyelvek I
Darányi Sándor SZTE BTK Könyvtártudományi Tanszék

2 Gyakorlati tudnivalók
IKNY1-hez könyv: B. Hajdu Ágnes – Babiczky Béla (1998). Bevezetés az információkeresö nyelvek elméletébe és gyakorlatába. Budapest: Universitas Kiadó. ( ) Pajor Enikö: gyakorlatok, útmutatás Bekötött linkek magyarul vagy angolul Ékezetek Két félév két nap alatt, legközelebb nov. 18. A fóliákat megkapják Vizsga: számítógépes teszt

3 A tantárgy célja A tantárgy az információkeresést elösegítö ismeretábrázolás hagyományos és automatizált formáit tekinti át Az ismeretszervezést elökészítö formai és tartalmi feltárás eszközeire és módszereire összpontosít: Azokra az értelmezési eljárásokra, amelyekkel a dokumentumokat a könyvtárakban és információs szolgáltatásokban elemezni szokás, illetve Az így létrejövö osztályozási rendszerekre A megértést segítö áttekintés, szemléleti alapozás a könyvtári gyakorlathoz

4 I. rész: Körkép A könyvtári osztályozás a rend tudománya
Várkonyi Nándor ( ) Az emberiség két egyetemes álma: Rend Közös nyelv, vö. Leibniz ( ) characteristica universalis-a vagy Frege ( ) Begriffschrift-je A 20. sz.-ra a kettö összefügg Rend: Hérakleitosz ún. kozmikus töredékeiben jelenik meg az európai filozófiában elöször Kozmosz = rend (a.m. világrend); kozmein = 1. berendezni, rendbehozni, 2. szépíteni (-> kozmetika) A rendezés egyetemes probléma Ilja Prigozsin (kémiai Nobel-díj 1977) szerint minden emberi tevékenység 30 %-át ez teszi ki Az elsö részben körkép a könyvtárról

5 Átalakuló könyvtárak A könyvtárnak régen megõrzési funkciója volt, ma emellett elsõsorban információkat gyûjt, tárol és szolgáltat Különbözö irányokból különbözö szemléletü és érdekü szakmai közösségek támadják és igyekeznek helyettesíteni, a könyvtár fogalmát kikezdve, átértelmezve, mással helyettesítve Társadalmi és szellemi kihívások ütközözónája Kép forrása: Public libraries open way for drinks, snacks and mobiles

6 A nyomtatástól az egyetemes bibliográfiai számbavételig
Johannes Gutenberg (kb ), német aranymüves és nyomdász, neki tulajdonítjuk a mozgatható betükészlettel való nyomtatást Európában (kb. 1450), valamint a nyomdászat gépesítését általában. Fömüve az ún. Gutenberg Biblia. Konrad Gessner (1516 –1565) svájci természettudós, ”a bibliográfia atyja”. Bibliotheca universalis (1545): az ö koráig valaha élt valamennyi szerzö katalógusa latinul, görögül és héberül, müveik címleírásával, kb tétel tematikus elrendezésben.

7 A szervezés/rendezés kényszere...
...mélyen emberi, vszg. ösztön. ”Az emberi gondolkodás alapformája” (Hajdu – Babiczky) A tanulási képesség elöfeltétele, hogy elemezni és csoportosítani tudjuk az adatokat, információt, ismereteket, tényeket stb. Azért csoportosítjuk öket, mert el kell raknunk, majd megint meg kell találnunk. A visszakeresés (”information retrieval”) hatásfoka a csoportosítás szervezettségétöl függ. Összehányt információt nem, vagy csak nehezen lehet ismét megtalálni.

8 Az információ természete
A vonatkozó fogalmak ”folyékonyak”. Pl. XY számára a folyamat ez: adat  információ  tudás (ismeret)  megértés  bölcsesség. Ezek közül melyekkel foglalkoznak a köz- és magángyüjtemények (könyvtár, levéltár, múzeum)? Lezáratlan vita arról, információt vagy tudást (ismeretet) szervezünk-e nagyobb egységekbe Tudás (ismeret) = az egyén elméjében, aki tanulmányozta és megértette az anyagot; információ = az ismeret (tudás) átadása és/vagy átvétele Pl. a referensz könyvtáros tudása segít abban, hogy az olvasók kérdéseire választ adjon A tudásmenedzsment (”knowledge management”) népszerü fogalommá vált az adminisztratív szervezetekben

9 A rögzített információ természete
Más módszerek kellenek pl. a beszélt, a hallott, a csak (át-, el-)gondolt információ szervezéséhez A rögzített információ sokkal több, mint csak a szöveg. A szervezési egység az ”információs csomag”, a bibliográfiai tétel, nem egyszerüen a leírás Ilyen ”információs csomagokat” gyártunk a bibliográfiai számbavétel során

10 A rögzített információ természete folyt
A bibliográfiai számbavétel hat funkciója: Számon tartja, milyen típusú ”információs csomagok” léteznek és/vagy keletkeznek Számon tartja mindazon müveket, amelyek ilyen csomagok részei Rendszerezve gyüjteménnyé szervezi az ”információs csomagokat”, akár intézményröl, akár pl Internet állományokról van szó, stb. Listázza a címleírás szabályai szerint készült ”csomagokat” Nevet, címet, tárgyat, ill más hasznos hozzáférési pontokat rendel az egyes ”csomagokhoz” Biztosítja, hogy minden egyes ”információs csomag” vagy a másolata megtalálható legyen

11 Az információ rendezése a könyvtárakban
A gyüjteményszervezés legrégebben a könyvtárakban tart A gyüjteményszervezés a következökön alapul: A könyvtár rendelései a kiadóktól Ajándékok és adományok A fenntartóval, ajándékozóval közösen kidolgozott fejlesztési tervek új dokumentumállományt érkeztetnek elöre meghatározott gyüjtökör szerint Folyóiratok elöfizetése (ha az e-változat miatt nem mondják le) A bejövö anyagokat valamilyen elv szerint rendezni kell, pl. betürendben vagy más rendben, a.m. osztályozás szerint, polcokra kerül Az osztályozás a katalogizálási folyamat része, amely a következö lépésekböl áll: A fizikai tétel leírása Bizonyos nevek, címek stb. hozzárendelése a tételhez hozzáférési pont gyanánt Ezeknek az adatoknak a normatív, hibátlan felvétele A tétel tartalmi feltárása A tartalmi feltárás eredményét kifejezö jelzetek hozzárendelése Ún. hívószám (call number), pl. a Cutter szám hozzáadása az osztályozási jelzethez, amely egy bizonyos példány fizikai azonosítását, lokalizálását végzi el A végeredmény, az ún. rekord elkészítése a MARC (Machine Readable Cataloging) szabvány szerint, majd bevitele egy vagy több integrált könyvtári adatbázisba

12 Katalogizálás folyt. A katalogizálás föbb eredményei:
Kialakított gyüjtemény Olyan katalógus felépítése és fenntartása, amely a gyüjteményhez a hozzáférés módját megadja Az online katalógusok elött a könyvtár fö cédulakatalógusa, könyvkatalógusa vagy COM (Computer Output Microform) katalógusa mellett voltak egyéb fajták is (pl. tanszéki könyvtári, folyóirat-, speciális formátumú [pl. kisnyomtatvány-], polcjegyzék, stb.) A legtöbb online katalógus mindezeket összevonva kezeli Továbbá a legtöbb online katalógus része az integrált könyvtári rendszernek, emiatt cirkulációs [feldolgozási] információ csatlakozik minden cédulához (rekordhoz, ”információs csomaghoz”) A helyi online katalogizálást (”mije van a könyvtárnak”) fokozatosan felváltják az ún. union katalógusok (”mije van a hálózatnak”), ami az Internet által (”mit ér el a könyvtár”) közelít Gessner egyetemes bibliográfiai számbavételéhez (350 év után, de ezt vö. az Internet ”robbanásával”, a deep web problémájával, illetve a Google-jelenséggel)

13 Online katalógus és tájékoztatási munka
Az online katalógusok lehetnek kapcsológépek (gateway) külsö rendszerekhez, pl az OCLC bibliográfiai hálózathoz vagy az RLIN-hez, ezek megmondják, hol található az olyan ”info csomag”, ami nekünk nincs meg Bibliográfiai és szöveges adatbázisok is elérhetök a kapcsológépröl ( dokumentum másolati szolgáltatások) Nagy lökés a világháló (WWW). Sok könyvtár katalogizálja az Interneten elöforduló dokumentumokat a felhasználói számára (URL hyperlink a katalóguscédulán) A visszakereshetöség élesben a tájékoztatásban (referensz) döl el. Ha egy tétel nem található, újra kell szervezni az infót. Mindez a könyvtárosok és a könyvtári adminisztráció együttmüködését kívánja.

14 Atlas of Cyberspace WWW képek

15 Információ szervezése az Interneten
A levéltárakat, múzeumokat és müvészeti galériákat átugrottuk Internet: ”Mintha egy könyvtárban a földre borították volna a könyveket, katalógus nélkül” A változás gyorsabb, mint a rendezés (6-9 hét = 1 WWW év, dotcom-os idökben legalábbis) OCLC WorldCat – globális katalógus Keresögépek (search engines) Elektronikus/digitalizált dokumentumok automatikus indexelése és osztályozása A szemantikus világháló (Semantic Web)

16 Digitális könyvtárak A 90-es évek elejétöl: egy témához kapcsolódó, közösen épített link-gyüjtemények az intézmények tájékoztatási oldalain A 90-es évek közepén: teljesen vagy részben elektronikus dokumentumok szervezett gyüjteménye, mind a struktúra, mind a visszakeresése egy helyen (egy gépen, egy honlapról stb); nem egyszerüen mutatók (pointer) sorozata; egy bizonyos közösség számára A 21-dik században: információkeresö rendszerek és információs intézmények (a könyvtár csak egy közülük!) ”felturbózott” integrációja; az új tartalom magában foglalja az információ elöállítását és felhasználását is, nemcsak a keresését (Borgman) A távoktatás meg az élethossziglan tanulás következtében a könyvtár vagy átalakul, vagy eltünik A testreszabott digitális könyvtáraktól a szabványos, az összes részfolyamatot gépesítö, egyszerü, piacon vagy ingyen is kapható formák felé (vö. Greenstone) Pl. a digitális könyvtár a multimédia adatbáziskezelö csomag távoktatást támogató moduljává válhat (ma egész, holnap rész) A digitális könyvtárak szervezése metaadatokon (pl Dublin Core), XML/RDF sémákon, ontológiákon, taxonómiákon alapul, portálokon keresztül érhetök el (portál = kirakat, itt: jelszavas hozzáférés sok tartalomszolgáltatóhoz, sorban vagy egyszerre [párhuzamosan]) Az osztályozás neve itt már gyakran Knowledge Organization Systems (KOS), különösen a világhálón

17 A könyvtárossal rokon fogalmak
”Információépítész” (information architect): Tisztázza a honlap ”küldetését” és céljait Eldönti, milyen információ – tartalom és funckiók – hova kerül a struktúrában, megtervezi a hozzáférési pontok fajtáit és megoszlását (mit lehessen keresni/böngészni), vonzó kirakatokat tervez és rendez be, kéz a kézben a honlaptervezövel (website designer) Megtervezi, idövel hogyan változzon, bövüljön a lap struktúrája Adatmodellezö (data administrator): mindenféle intézményi adatot, adatszerkezetet és folyamatot modellez Rendszert tervez, amely egymással kapcsolatban álló modellek sorozata Elkészíti a rekord-menedzsment fogalmi modelljét Ennek alapján logikai rendszertervet készít A logikaiból fizikai modell készül, amelyet adatbáziskezelö rendszerként (DBMS) munkába állítanak (implementálnak) Ha az adatmodellt rendszeresen frissítik és a fogalmi modell változásaihoz igazítják, akkor az sokáig kiszolgálja az intézményt

18 Rokon fogalmak folyt: (Vállalati) tudásmenedzsment
1. szakasz: ”A tudás hatalom”: tanulj többet, légy a hatalmasok egyike a társadalomban 2. szakasz: A vállalatok dolgozóik elbocsátásával ismereteket és know-how-t veszítenek; a müszaki fejlödés ezt nem kompenzálja a várt mértékben 3. szakasz: egy intézmény akkor marad fenn, ha rendelkezik alkalmazottai tudásával; az ismereteknek ez az összessége az ”ereje” A tudásmenedzsment a fejlett technika segítségével ezt a tudást gyüjti, rendezi és használja Kell hozzá az ismeret meghatározása Az ismeret az elmében ”lakik”: Információ, (szöveg)környezet és tapasztalat keveréke Csoportok és közösségek közös tapasztalata, ha egy bizonyos keverék bevált Döntésekhez és válaszlépésekhez vezetö tömény, magas fokon rendezett tényanyag A tudás/ismeret ”lappang” (tacit), nem nyilvánvaló, de azzá lehet tenni az innováció érdekében Cél: tudásraktárak (knowledge repositories), jobb hozzáféréssel (knowledge access), javítani az ismeretek mint környezet színvonalát a tárolt tudás leírásával, osztályozásával és visszakeresésével Hasonlít a szakértöi tudáshoz a szakértöi rendszerekben Jelenleg lényegében tartalom-menedzsment, de dolgoznak a tartalom (szöveg)környezetének gépi megértésén és kiaknázásán

19 II. rész: Az osztályozás elmélete
Miröl fogunk beszélni az IKNY1-2 tantárgyban? Alapok Iskolák Vívmányok (termékek) Gépesítési lehetöségek

20 Tartalom – szöveg, kép...

21 Alapok Az osztályozás és IKNY az információs bázis (könyvgyûjtemény, folyóiratok, kutatási jelentések stb.) gyûjtése, tárolása, nyílvántartása, tartalmi elemzése, majd az információk felhasználása szempontjából perdöntö jelentõségû Az információk tárolásának és a rájuk épülõ tájékoztatásnak a módszerei az évszázadok során változáson mentek keresztül, ám számos olyan jellemzõjük is felismerhetõ, amely az emberi gondolkodás (a fogalomalkotás és a nyelv) maradandó sajátossága Az információkeresés alapja minden korban a rendezettség és a kezelhetõség volt Elõfeltételei a történelem során jelentõsen változtak. A legrégibb idõszakokban az irodalomban kialakult tevékenységi formák, mûfajok, oktatási rendszerek, illetve az ezek alapját képezõ tudományfelosztási elvek alakították ki a tájékoztatás célját szolgáló könyvtári és bibliográfiai osztályozási rendszereket (szak-rendszereket) Ezeknek az új korban klasszikus, széles körben elterjedt módszerei fogalmazódtak meg Az osztályozástörténetében a 19., majd a 20. század fordulópontot jelentett. Kialakult az információkeresést tudományosan megalapozó osztályozáselméleti kutatás és irodalom Filozófiai, logikai, nyelvészeti, tudományrendszerezési és tudományszervezési elvek + a tudomány és technika haladása Részei: Az osztályozás logikai és matematikai alapelvei, A könyvtári és bibliográfiai szakrendszerek típusai, az ezekkel kapcsolatos alapfogalmak, A tudományfelosztáson alapuló osztályozási rendszerek (szakrendszerek) fejlõdéstörténete A régebbi keletkezésû szakrendszerek, A 19. század végétõl keletkezett fontosabb, napjainkban is használt, vagy érezhetö hatású jelentõs könyvtári és bibliográfiai szakrendszerek, A nyelvi eszközökkel megvalósuló információkeresés (tárgyszavas osztályozás, indexelési eljárások, tezauruszos információtárolás és keresés, szintaktikus nyelvek) kérdései

22 A tudományok fejlödése és az információ
A tudomány a természet, a társadalom és a gondolkodás objektív összefüggéseirõl szerzett, igazolható ismeretek rendszere. Egyik fontos feladata, hogy kialakítsa és rögzítse saját felépítését, a fogalmai között meglévõ belsõ viszony- és szabályrendszert. A tudományok fejlõdése során alapvetõen két felosztási rendszer jött létre: a tárgyi és a megfigyelõi. A megfigyelõi felosztás a megfigyelt jelenség, tudományterület nem minden ismérvét veszi számba, hanem csupán egyet, vagy néhányat emel ki közülük. A megfigyelõi megközelítés módszerét legteljesebb következetességgel a kibernetika alkalmazza. A kitüntetett szempontok a kibernetikában általában az energia vagy az információ. Információs fogalomrendszerrõl beszélve elsõsorban a dolgok szerkezetét, szervezetét, mûködési mechanizmusát vizsgáljuk. Egyes vélemények szerint a korábbi fizikai felfogással szemben a világ alkotó elemei, az anyag és az energia kiegészülnek az információval. A tudományok és az információ fogalma szorosan összekapcsolódott a huszadik századra, és nem csak a filozófiában és a tudományrendszertanban, hanem szinte valamennyi területen. A könyvtári osztályozásban a feltárandó, kifejezendõ dokumentum tartalmát sokan az információ fogalmával cserélték fel.

23 Az információk tartalmi megközelítése
A könyvtári feldolgozó munkának két területét különböztethetjük meg : A dokumentumok formai leírását és azonosítását, ez a katalogizálás, illetve a bibliográfiai leírás feladata A dokumentumok tartalmi vagy tárgyi feltárását, mellyel az osztályozás foglalkozik A két rész szorosan összefügg, például némelyik azonosításra szolgáló jegy képes tartalmat is jellemezni, vagy a tárgyi megközelítés során is eljuthatunk a konkrét mûig A feldolgozás során szurrogátum keletkezik, az eredeti dokumentum helyettese

24

25 Mindennek az alapja: feldolgozás és feltárás
Feldolgozás: a dokumentum formai ismérveinek számbavétele a mü, illetve példányai azonosítása végett A feldolgozás célja: Lehetövé teszi a formai jegyek alapján való keresést (vö. böngészés), illetve A tartalmi feltárást Müfaja: a bibliográfiai leírás = címleírás, címfelvétel Feltárás: a dokumentum tartalmi ismérveinek számbavétele a benne található információk alapján A feltárás célja: a dokumentumok Nyilvántartása Rend(szer)ezése Megtalálásának biztosítása (vö. keresés) Müfaja: az osztályozás = szakozás A kettö nem válik el élesen egymástól, egymást feltételezi E kettö hatásfokától függ az egész információs rendszer hatásfoka, az olvasó/felhasználó véleménye a könyvtárról, a tájékoztatási szolgáltatásról

26 Szurrogátum Az egy dokumentumról összegyûjtött formai és tartalmi ismeretek összessége. Egybegyűjti mindazon ismérveket, melyek alapján a felhasználó megtalálja a keresett dokumentumot Funkciói A dokumentum feltárása, A dokumentum tárolása és A visszakeresés biztosítása. A hagyományos visszakeresõ rendszerben, a katalógusban a szurrogátum fogalmán a bibliográfiai tételt - nem kizárólag a bibliográfiai leírást! -, míg a számítógépes rendszerekben a rekordot értjük. Általában a szurrogátum lényegesen bõvebb, mint az egyszerû bibliográfiai leírás és osztályozási jelzet együttese, tartalmazhat referátumot, kiegészítéseket stb. Az eredeti mü egy példánya és a felhasználó között ez létesít kapcsolatot

27 Példa a szurrogátumra: a bibliográfiai tétel
A leírás tárgyát képező dokumentum összes feldolgozott ismérve, pl.: Leíró (bibliográfiai) adatok (szerzöségi/bibl. adatok: pl. cím, [2] kiadás, megjelenési adatok) Besorolási adatok (egységesített cím, egységesített szerzöi névalak, sorozati cím, lelöhely, jelzet [polc]) – ami alapján katalógust építek; a bibliográfiai adatok értelmezése, ”metaadat” Metaadat: pl. egy adatelem értelmezése, meghatározása (ld.MeSH rekord) = adat az adatról Tartalmi jellemzők (jelzetek, tárgyszavak, bármi)

28 A tartalmi feltárás szintjei
1. szint: Bibliográfiai leírás. A formai azonosításra szolgáló jegyek összességét adja, de ezek egy része képviselheti a tartalmat is (esetlegesen) 2. szint: Osztályozás. Bizonyos tartalmi ismereteket állapít meg a dokumentumról, s azt röviden valamilyen fogalmi lánccal kifejezi, ez által az információk átfogó tartalmi csoportosítására alkalmas. Az ismérvek összefoglalóan megjelenhetnek táblázatokban, tárgyszójegyzékekben stb. 3. szint: Referálás. Összefüggõ szövegben, tömören és röviden elmondja a dokumentum tartalmi jegyeit és lehetõvé teszi annak eldöntését, hogy célszerû-e tanulmányozni a dokumentumot. A referátum lehet Indikatív (jeladó): Röviden ismerteti a dokumentum fõ témáját és a fontosabb eredményeket. Informatív: az eredeti dokumentum tanulmányozásának kisebb mértékû pótlására hivatott. Autoreferátum: ha a szerzõ saját mûvérõl készít referátumot. Annotáció: a dokumentum rövid jellemzése annak tartalma, rendeltetése, formája és nyelvi sajátosságai alapján. 4. szint: Tömörítvény. Összefüggõ szövegben, minden az eredeti mûben lényeges tartalmi jegyet magában foglal (táblázatokat, ábrákat stb. is). Képes pótolni az eredeti mûvet. 5. szint: Szemlék. Analitikus-szintetikus mûfaj, mely egységes vezérelv alapján több hasonló témájú dokumentumot dolgoz fel.

29 Feltártsági mutatók Címleírási egység feltártsági mutatója: ”ismérvek (besorolási helyek) átlagos száma / dokumentum” Referátum, tömörítvény stb. feltártsági mutatója (Senko): ”kivonat szavainak száma / eredeti dok szavainak száma” Másik módszer (Perry & Kent): ”(az eredeti dok releváns mondatai – a kivonat releváns mondatai) / az eredeti releváns mondatai” (0-1 közötti érték) Ennek a komplementere: ”Z (zaj) = a kivonat nem releváns mondatainak száma / a kivonat összes mondatának száma” De mi a releváns?

30 Szurrogátum, relevancia, pertinencia
”A dokumentum tartalmilag releváns egy keresökérdésre, ha, elvben, megfelel neki, képes válaszolni rá…(…) A pertinencia az eredeti mü és a felhasználó eredeti problémája (kérdése, témája, szerepe, feladata) közötti megfelelés …” [Soergel, D.: Indexing and Retrieval Performance: The Logical Evidence]

31 Kitérö: természetes és mesterséges nyelvek
Bármely nyelv jellemzöi: morfológia (alaktan), szintaxis (mondattan), szemantika (jelentéstan) [+ a szemiotikában pragmatika (használat)] Természetes nyelvnek (a mesterséges nyelvekkel szemben) az emberek által használt olyan nyelvet nevezzük, amely egy közösség (törzs vagy nemzet) életében nemzedékről-nemzedékre spontán vagy tudatos folyamatok (pl. nyelvújítás) során szabadon fejlődik, változik. Egyes források szerint ma (mások szerint még több) mindennapos használatban elterjedt természetes nyelvről beszélhetünk. Nyelvészeti szempontból az egymással kisebb-nagyobb hasonlósággal rendelkező természetes nyelveket csoportosítani lehet. A csoportosítás legfelsőbb szintje a nyelvcsaládokba történő szelektálás. Vannak emberek által használt, de nem természetes, hanem mesterséges nyelvek is, melyeket nyelvelméleti, matematikai vagy informatikai célból alkottak. A mesterséges nyelvek közül ismertek a programozási nyelvek, amelyeket szokás környezet-független nyelveknek is tekinteni. Környezet-függő (context-sensitive) tulajdonsága ellenére újabban a természetes nyelvek feldolgozása (Natural Language Processing, vagy NLP) óriási fejlődésnek indult, és a számítástechnika egyik vezető alkalmazási tématerületévé vált. Az említett terület azonban egy még szélesebb ismertekörbe, a magyarul csak nyelvtechnológiaként emlegetett témakörbe tartozik.

32 Nyelv, dokumentum, ... A szöveges mûvek tartalmának kifejezése a nyelv által. Az IKNY közös vonása, hogy mindegyikük a természetes nyelvbõl ered vagy ezekbõl levezethetõ. A nyelv egy adott, egyezményesen kialakult jelsorozat és a nyelvtani szabályok együttese. A jeleknek egy adott nyelvben megengedett halmazát ábécének nevezzük. A nyelvi jelsorozatok véges, rögzített halmaza a szótár. A szótár legkisebb, önálló értelemmel még bíró eleme, lexikai egysége a szó. A szavak, mondatok információt hordoznak. A közölhetõség és a felhasználás érdekében ezeket valamilyen anyagi hordozón rögzítik. A rögzített információk egyik megjelenési formája a dokumentum.

33 ...információ Matematikai információ- (kommunikáció-) -elmélet (Shannon 1948): adó, vevö, csatorna, zaj, redundancia. A nyelvvel nem, csak a kód elemeivel, egy eseményalgebra eseményeivel foglalkozik. Az entrópia mint központi fogalom révén köze van a termodinamikához. Az információ a fizikában a határozatlanság mértékét, az entrópiát érintö (csökkentö, növelö) változás. Egy jel = egy esemény; a bekövetkezés információértéke a valószínüsége reciproka. Minél ritkább, annál ”újabb”, annál nagyobb az információtartalma. Miért annál nagyobb? Mert rendszerben meg kell tippelni a következö eseményt. Ilyenkor az egy jelre esö átlagos információt az entrópia (= bizonytalanság, rendezetlenség, határozatlanság, ritkaság) méri. Ha biztos, ami következik, nincs információ. Ha teljesen bizonytalan, maximális az info tartalma. Ennek a szemantikához semmi köze: az információ a bizonytalansággal határos, és nem egy üzenetre vonatkozik, hanem üzenetek statisztikai jellegéböl számítjuk. Az információ a nyelvben a jelentés, amelyet egy formai egység (szó, mondat, bekezdés, stb.) hordoz. Jelentéselméletek. Két- és háromkomponensü jel a szemiotikában. Olyan, mint egy töltéseloszlás a térben. Két absztrakció, hely és jelentés, találkozik. A két meghatározást a ritkaság (újdonság – újság) mértéke köti össze. Mivel statisztikai is, szemantikus is, ebben az értelemben az információ univerzális, az anyag és az energia mellett a világegyetem egyik építököve, a strukturálódás ”nyersanyaga”, a változás katalizátora.

34 A szójelentés néhány elmélete
Kétkomponensü (Saussure) vs. háromkomponensü jel (Peirce) Egy szó vagy egy mondat jelentése nem egy fogalom, egy entitás, vagy a dolgok valamilyen állapota (Lyons 1968:411), hanem ehelyett ezeknek az egyvelege, amely legalább három fö részböl áll: “a szó jelentése a használata módja” (Wittgenstein), “a szó jelentése a következménye” (Bloomfield), illetve “a szó azt jelenti, amire utal” (Peirce) “A jelentés a használat módja”: a beszédben elöforduló szövegkörnyezet értelmezi a szót (Harris); “A jelentés az utalás”: ‘X = Y Z-n ek, vagy amíg Z tart’ Jelentésrelációk a nyelven belül (két szó viszonya) vs. Utalás a nyelven kívülre (a ”valóságba”) (Lyons 1968)

35 Vissza a témához: Katalógusok, részletesebben
A könyvtárak történetében az elsõ információs tár a katalógus. A könyvek elrendezése, csoportosítása, osztályozása a kezdetektöl a könyvek elhelyezési rendjének, a könyvraktáraknak a visszatükrözése. A rokon tartalmú, azonos témakörbe tartozó könyvek egymás mellé helyezésével szakcsoportok jöttek létre. Ez vezetett a könyvtárak szakrendi beosztásához. A könyvgyûjtemények jelentékeny megnövekedése a tartalom alapján való csoportosítás helyett a mechanikus elhelyezéshez (pl.: kurrens számozás) vezetett, és a tartalom szerinti csoportosítás már csak a tételekröl készített tárgyi katalógusban tükrözõdött. A tájékozódási igények két nagy típusa: Az olvasó valamely általa ismert mûvet keres, Az olvasó egy általa megjelölt témáról, tárgyról meghatározott típusú irodalmat keres Az elsõ esetben a formai (leíró) katalógus alapján található meg a keresett dokumentum. A leíró katalógusba a kiválasztott besorolási adatok betûrendjében kerülnek be a bibliográfiai tételek. Ezek a besorolási adatok a következõk: szerzõ(k) vagy testület neve, cím és közremûködõk neve. A betûrendes leíró katalógus arra ad választ, hogy mely szerzõ, mely mûve, milyen kiadásban található meg. A második esetben a tárgyi katalógus nyújt segítséget, mely a katalóguscédulákat úgy rendezi, hogy az azonos témakörbe tartozó dokumentumok katalógustételeit azonos osztályozói kifejezés, jelzet alatt gyûjti össze.

36 Katalógusok folyt A tárgyi katalógusok fontosabb típusai különbözõ megközelítések alapján Nyelvük szerint: Természetes nyelvi alapúak Tiszta (mellérendelõ, klasszikus) tárgyszókatalógus Rendszerezõ (alárendelõ) tárgyszókatalógus Mesterséges nyelvûek Szisztematikus (szakrendi, rendszerezõ, szak-) katalógus Szerkezetük szerint: Tiszta (mellérendelõ stb) tárgyszókatalógus Rendszerezõ tárgyi katalógus (szakkatalógus) természetes nyelvû, pl.: rendszerezõ tárgyszó mesterséges nyelvû, pl.: ETO A mû tárgyát kifejezõ elnevezések (tárgyszavak) betûrendjében szerkesztett tárgyi katalógus a tiszta tárgyszókatalógus. A fogalmakat más fogalmakkal kapcsolatuk (hasonlóság és különbség, rokonság, alárendeltség stb.) alapján kialakított rendben tervszerûen felsoroló katalógus a szisztematikus, rendszerezõ, más szóval a szakkatalógus.

37 Osztályozás, részletesebben
Az a logikai tevékenység, amely során a jelenségeket, tárgyakat hasonlóságuk foka szerint egybegyűjtjük és különbségeik foka alapján elkülönítjük. Az emberi gondolkodás alapvető formája, párhuzamos a fogalomalkotással. Célja tartalmilag összetartozó, olyan kisebb csoportok képzése, ahol lehetőség van az általánostól a specifikusig való keresésre. Ha dokumentumokon történik, könyvtári osztályozás. Általánosan: a dolgok egymáshoz való viszonya és logikai kapcsolatai lehetõvé teszik egységes rendszerek létrehozását, melyekben a fogalmak különbségeik és hasonlóságaik alapján az általánostól a specifikus felé haladva meghatározott helyet foglalnak el. Azt az eljárást, amely ilyen rendszert hoz létre, osztályozásnak nevezzük. A filozófiai tudományrendszerek két felosztási (részekre osztási, taglalási) módot ismernek: tárgyit és megfigyelõit. A jelenségek tárgyi felosztása: Arisztotelész (Kr.e ). A csúcs Linné ( ). A törzsi társadalmak óta ismeretes (Claude Lévi-Strauss) A jelenségek megfigyelöi felosztása: pl. kibernetika. Nem minden ismérv, csak vagy az energia, vagy az információ felöl.

38 Osztályozás folyt A könyvtári osztályozás elsõdlegesen gyakorlati, a tudományok osztályozásának tükrözése csak másodlagos, eszköz szerepet játszik. A tárgyaknak, jelenségeknek több olyan tulajdonságuk is lehet, melyek a felosztás alapjául kiválaszthatók. Ugyanazon tárgynak, fogalomnak tehát több, önmagában helyes osztályozása lehetséges. Ahhoz, hogy megfelelõen osztályozzuk a dolgokat, helyesen kell elemezni a tartalmat, és jól kell ismerni az adott célt, az osztályozási rendszert, az osztályok közötti kapcsolódási lehetõségeket. Ugyanabban az információkeresõ nyelvben ragaszkodnunk kell az ismérvek azonos szempontból való megválasztásához, mert az osztályozás csak így lesz következetes és használható. Az osztályozásnak Ranganathan óta három szintjét különböztetjük meg. Az elsõ a fogalmak szintje, amikor az osztályozandó dokumentum tárgyát fogalmakkal határozzuk meg. Második az elnevezések szintje, a nyelvi szint, amikor megfelelõen pontos elnevezéseket választunk a fogalmaknak. A harmadik a jelzetelés szintje, amikor egy adott osztályozási rendszer jelkészletébõl megállapítjuk a dokumentum tartalmát, tárgyát legjobban kifejezõ jelzeteket.

39 Az osztályozás logikai és matematikai alapelvei 1: A fogalom
Dolgok, jelenségek legfõbb ismertetõjegyeibõl a tudatban kialakított gondolati forma A valóság általánosítása és absztrakciója A megismerés egyik alapformája Mindaz, amit a nyelv megnevezni képes Az osztályozás mindig fogalmi síkon zajlik Ismertetöjegy: Jellemzõ vonás, tulajdonság, amelynek alapján valami felismerhetõ, megkülönböztethetõ A jelentés elemei, nemcsak a szavak jelentését értelmezik, hanem a bonyolult fogalmakból egyszerûbbet, az egyszerûbõl bonyolultabbat alakíthatnak ki A különbözõ dolgok közös ismertetõjegyei azokat egy osztályba egyesítik, és az egy osztályba tartozó tárgyak, jelenségek fogalmainak hasonlóságát tükrözik Megkülönböztetö jegy (differentia specifica): A dolgok közötti különbséget tükrözi Az adott osztályon belül a továbbosztályozás alapjául szolgálhat Nem (genus) és faj (species), mint fölé- és alárendelt osztály (hierarchia): Nemet tükrözö jegyek: lényeges, közös ismérvek, amelyek a tárgyakat egy fölérendelt, általánosabb osztályban egységesítik, más osztályoktól pedig megkülönböztetik. Fajt tükrözö ismertetöjegy: az a közös ismérv, amelyik egy adott osztályon belül megkülönbözteti a fogalmak egy csoportját

40 Alapelvek 1 folyt.: A fogalom tartalma és terjedelme
A fogalom tartalma (intenzió, NEM intenció) a benne általánosított dolgok lényeges ismertetõjegyeinek összessége. Pl. virág, tulipán A fogalom terjedelme (extenzió) mindazon dolgok összessége, amelyre az ismérvei illenek. Pl. virágok, tulipánok Egy fogalom tartalma és terjedelme egymással fordított arányban van. Pl. élõlény - ember - nö - író - Szabó Magda A fogalom tartalmának megragadása, az ismérvek teljessége az osztályozás helyessége szempontjából döntõ (milyenség, minöség) A fogalom terjedelme azt tükrözi, hogy a fogalomba milyen tárgyak tartoznak, amelyeknek közös ismertetõjegyeik vannak, mekkora a vonatkozó osztály (mennyiség)

41 Alapelvek 2: Kategória Fogalmi kategória: Az ismérvek számának növelésével vagy csökkentésével az általánosítás különbözõ fokaira juthatunk. Végletesen létezik olyan állapot is, amikor a tartalmat mindössze egyetlen ismérv határozza meg. Ezeket a fogalmakat fogalmi kategóriáknak hívjuk. Az osztályozásban fontos szerepet kapnak, a szintén elég általánosnak tekinthetõ szakkategóriák A kategóriákból levezethetõ, de még kellõen általános fogalmakat alkategóriáknak hívjuk A facetták a fogalmi kategóriák olyan alkategóriái, amelyek egy-egy szakterület általános fogalmait, a felosztás speciális, különbözõ, elõre rögzített szempontjait képviselik egy adott tudományterületen A kategóriák kiindulópontjai lehetnek az egyes osztályozási rendszereknek

42 Alapelvek 3: Osztály A fogalom a terjedelmét alkotó dolgok osztályát képviseli. Az elemek olyan nyílt összesége, melyet közös tulajdonságok, ismertetõjegyek jellemeznek Az osztályok elemei rendelkeznek az osztályra jellemzõ, valamennyi lényeges ismérvvel, a kitüntetett szemantikai jellemzõkkel, de ezen túl más megkülönböztetõ ismérvekkel is. Az osztályon belüli megkülönböztetés ezen eltérõ ismérvek alapján lehetséges Ha egy osztályon belül az elemek egy csoportja a kitüntetett szemantikai jellemzõk mellett más közös tulajdonságokkal is rendelkezik, alosztályt alkot. Pl.: állat (osztály) - emlõs (alosztály): oroszlán, kutya, bálna stb. A bálna, a kutya és az oroszlán mindegyike rendelkezik az állatfaj szemantikai jellemzõin túl közös ismérvekkel: elevenszülõ, emlõibõl táplálja kicsinyeit stb. Ezzel az állatok osztályán belül újabb csoportot képeznek: az emlõsök alosztályát Mind az osztály, mind a fogalom meghatározásából következik, hogy rájuk és az õket meghatározó ismérvekre alkalmazhatók a szimbolikus logika és a matematikai halmazelmélet megállapításai.

43 Alapelvek 3 folyt.: Müveletek osztályokkal
Logikai müveletek: a fogalmak összekapcsolására az úgynevezett logikai operátorok használhatók. A legegyszerübb kapcsolatok a következõk : ÉS (logikai szorzás, metszet), VAGY (logikai összeadás, unió), NEM (logikai kivonás), nincs kapcsolat (diszjunkció), bennefoglalás (komplementer halmaz) Példák: ”állat ÉS négylábú” = négylábú állat; ”állat VAGY négylábú” = vagy állat, vagy négylábú, pl. asztal; ”állat NEM négylábú” = pl. madarak A logikai müveletek halmazmüveleteknek felelnek meg, amelyeket a Boole-algebra tárgyal és Venn-diagramok szemléltetnek

44 Alapelvek 4: Meghatározás és relációk
Meghatározás: valamely fogalom tartalmának értelmezése, a fogalmat alkotó lényeges ismérvek (reális ~: tudományos, nominális ~: mit jelöl a szó, verbális ~: mit jelent egy idegen szó) Reláció: halmazok, vagy egy halmaz elemei között megállapított kapcsolat Fogalmi reláció: a fogalmak vagy ismérvek közötti kapcsolatok A reláció mind a matematikában, mind a logikában az alapfogalmak közé tartozik, de hasonlóan jelentékeny szerepet tölt be az osztályozásban is. Az osztályozás a fogalmi egységek közötti relációk kialakításának módszere. Tehát ilyen értelemben a relációk az osztályozás felépítését, vázát adják Relációk vannak a szemantikában is (ld. nemsokára) Két fogalom közti reláció jelölése: aRb (”a R relációban áll b-vel”) A relációkat csoportosíthatjuk a kapcsolatok iránya alapján irányított és irányítatlan összefüggésekre: Irányított összefüggés: a két fogalom közötti kölcsönös (két irányú) kapcsolat nem azonos, hanem más összefüggést képvisel. Tehát nem cserélhetõk fel. Irányítatlan összefüggés: a két fogalom közötti kapcsolat fordítottja is ugyanazt az összefüggést képviseli.

45 Alapelvek 4 folyt: Irányított relációk
1. Generikus reláció: fölé(F)-alárendeltségi(A) reláció 2. Szerkezeti reláció: egész(T) - rész(P) reláció 3. Irányultsága(R) – függõsége, eredménye (E): okozat - ok eredmény - eredet termék - elõidézõ rendeltetés - eszköz tárgy - alap következmény - kiindulás, stb. 4. Irányított jellemzõ (X): tulajdonsága mozgása helye ideje anyaga személyi vonatkozása, stb. rovar – bogár (rovar: fölérendelt, bogár: alárendelt) könyv – címoldal (könyv: egész, címoldal: rész) forgács – forgácsolás (forgácsolás: elöidézö, forgács: termék); vagy: toll - írás (az írás eszköze a toll, a toll rendelte-tése az írás) labda – piros (a labda tulajdonsága, hogy piros); ló - vágta (a ló mozgása a vágta), stb.

46 Alapelvek 4 folyt: Irányítatlan relációk
5. Irányítatlan jellemzõ (X): közös fölérendelt hasonlóság ellentét, stb. 6. Ekvivalencia reláció: a közös tulajdonságokkal rendelkezõ fogalmakat gyûjti össze. Vagyis a szinonímákat (hasonló jelentésû szavak) és kváziszinonímákat (majdnem teljesen hasonló jelentésû szavak) egy helyre rendezi. apa – anya  szülõ madzag - kötél világosság - sötétség stb. kutya - Hund, kutya – eb: különbözõ nyelvû alakváltozatok, illetve a szinonímák között

47 Relációtulajdonságok
Reflexív (visszaható), ha egy elem egy adott relációban áll önmagával: aRa Például a Szegeden születettek halmaza; reláció: ugyanott született, mint. Irreflexív (nem visszaható) egy reláció, ha az elõzõ azonosság nem áll fent. Szimmetrikus egy reláció, ha a kapcsolatban álló fogalmak sorrendje felcserélhetõ, az adott reláció oda-vissza: aRb és bRa Például Sándor és Géza barátok. (Sándor barátja Gézának, és ugyanakkor Géza is barátja Sándornak.) Aszimmetrikus egy reláció, ha a kapcsolatban álló fogalmakat felcserélve más relációt kapunk. Például minden bogár rovar, de nem minden rovar bogár. Megjegyezzük, hogy asszimetria esetén is fennállhat aRb és bRa, de csak akkor, ha a = b. Egyértékû egy reláció, ha egy fogalom mindig csak egyetlen másik fogalomhoz kapcsolódik az adott relációban. Például Géza anyja Katalin. Többértékû egy reláció, ha egy fogalom több fogalomhoz is kapcsolódhat ugyanazzal a relációval. Például a kutya fölérendeltje a háziállat és az emlõs is. Tranzitív egy reláció, ha fennáll a következõ azonosság: aRb és bRc  aRc. Például az emlõs alárendeltje a háziállat, a háziállat alárendeltje a kutya, tranzitívitás esetén az emlõs alárendeltje a kutya is. A tranzitívitásnak fontos szerepe van az osztályozásban. Segítségével többek között hierarchialáncokat képezhetünk (emlõs - háziállat - kutya - spániel).

48 Szemantikai relációk Két szó egymással a helyettesíthetöségük arányában ekvivalens, a.m. jelenti ugyanazt (Lyons 1968) Jelentésrelációk (sense relations) két vagy több szó között: Teljes szinonimia: ENSZ – Egyesült Nemzetek Kváziszinonimia: kutya – eb Összemérhetetlenség: kutya – Egyesült Nemzetek Meronimia / holonimia (része-egésze stb.): ujj – kéz, fa – erdö Hiponimia / hipernimia (nem-faj stb.): bíbor, karmazsin, kármin – vörös Homonimia (poliszémia): daru1 – daru2 Antonimia: háború – béke, hosszú – rövid, meleg - hideg Jelentöségük a tezaurusz- és ontológia-építésben van

49 WordNet ontológia szótári jelentéssel kiegészítve

50 III. rész: Könyvtári osztályozási rendszerek tipológiája
Osztályozáselméleti iskolák Tudományfelosztáson alapuló osztályozások Nyelvészeti irányzat A statisztikai iskola A könyvtári osztályozás célja Az osztályozási rendszerek, információkeresõ nyelvek tipológiája

51 Tudományfelosztáson alapuló osztályozások: föbb tudnivalók és fogalmak
A 19. sz. második felében alakultak ki Filozófiai tudományfelosztás + természetes logika (a klasszikus logika szabályai szerint) Szerkezetük hierarchikus Pl. Dewey Tizedes Osztályozása, Cutter Kiterjesztõ Osztályozása, az Egyetemes Tizedes Osztályozás, a Library of Congress rendszere, Ranganathan Kettöspontos Osztályozása stb. Egy adott kornak a dokumentumokban megjelenő ismérveit tükrözik Korlátaik: Szigorú logikai elvek határozzák meg Nem lehet átfedés: !! egy tudományág : egy hely  egy könyv : egy hely !! Nehézkessé válhatnak /nehezen fejleszthetőek

52 Nyelvészeti irányzat: föbb tudnivalók és fogalmak
Információkeresõ nyelvek: a 20. század elejétõl. IKNY és osztályozás szinonímák  osztályozás = mesterséges nyelv Mondattan + szótár a dokumentumból (mondat- + szójelentés) Milyen szótárai lehetnek az IKNY-nek: nagyon rendszerfüggö. Pl osztályozási táblázat (pl = Mo. története); tárgyszójegyzék; tezaurusz; ontológia A szócikkek pl. tezauruszcikk. A szócikkekben a szavak által jelölt fogalmakat összetartó kapcsolatokat értelmi összefüggéseknek nevezzük. Az információkeresõ nyelvek értelmi összefüggései a rendszer szerkezetét képzõ irányított/irányítatlan relációk A tartalom legkisebb egységei: Szövegszó: a szövegben ténylegesen, változatlan alakban elõforduló szó Címszó: a címben ténylegesen elõforduló szövegszó Kulcsszó: az információ lényegére jellemzõ, a tartalmi fetárásra alkalmas szövegszó Tárgyszó: a tartalmat röviden, tömören, egyértelmûen kifejezõ, természetes nyelven megfogalmazott szabványosított szó Deszkriptor: a legáltalánosabb információkeresõ nyelvi kifejezés, mely az információk feltárására, tárolására és visszakeresésére közvetlenül felhasználható (ld. tezaurusz) Nemdeszkriptor: az információk feldolgozására és keresésére közvetlenül nem, csak a vele összekapcsolt deszkriptor útján vagy annak figyelembevételével használható kifejezés (pl utalók, ld tezaurusz) Mire jó a nyelvszerüség? Segítségével a dokumentum tartalma  dokumentumképpé (szurrogátum 1) alakítható át, a természetes nyelvü felhasználói kérdés  keresökérdéssé (szurrogátum 2) alakítható át. Szurrogátum 1 & 2 viszonya alapján rangsoroljuk a válaszokat = információkeresés

53 Statisztikai irányzat: föbb tudnivalók és fogalmak
A matematika szűkebb területeinek felhasználása elméletben és gyakorlatban Elvei: Alapja a természetes nyelv Ennek statisztikai törvényszerűségeit állapítja meg Ezek alapján hozza létre osztályait Számítógépek megjelenése  lehetőség szöveges információk nagy tömegének kezelésére  automatikus osztályozás

54 A könyvtári osztályozás célja
Az információk és hordozóik, a dokumentumok visszakeresésének biztosítása Ennek érdekében az információkeresõ rendszernek képesnek kell lennie egyedi információk leírására, osztályok alkotására és a kialakított halmazok, ismérvek esetenként változó csoportosítására is Azt az eszközt, mely segítségével az osztályozást végezzük, osztályozási rendszernek, vagy mint láttuk, információkeresõ nyelvnek hívjuk Az osztályozási rendszer hármas feladata: az információk tartalmának leírása, tárolása és a lehetõleg többszempontú visszakeresés biztosítása Csoportosíthatók: Az alkalmazott nyelv szerint Az osztályozási módszerek szerint Mélységük szerint Szerkezetük szerint Tartalmuk szerint Az automatizálás mértéke szerint A felhasználás célja szerint

55 1. szempont: Az alkalmazott nyelv szerint
Természetes nyelven alapulók: Szövegszavas: osztályozási kifejezések változtatás nélkül a dokumentum címébõl, eredeti szövegébõl, pl. kulcsszó. Osztályozás mélysége = dokumentumok tárgyalásának mélysége. Szabályozott nyelvû: rögzített szabályrendszerek határozzák meg a szóalakokat és ezek használatát, pl. tárgyszavas, deszkriptoros rendszerek stb. Segítségükkel lehetõség nyílik az eltérõ szóalakok egységesítésére a homonímák és szinonímák megfelelõ kezelésére. Elönyök: mindkettö közvetlen kapcsolatban áll az aktuális szaknyelvvel. A betûrendes szerkezet és a szavak függetlensége következtében viszonylag könnyû követni a terminológiák, a tudományos eredmények változását is. Mind egyedi infomációk, mind csoportok leírására alkalmasak. Hátrányuk: az osztályozási rendszer használatán keresztül nem kapunk semmilyen képet a tudományok, adott szakterület egészére, felépítésére stb. vonatkozóan. Az IKNY egy adott nyelvhez, sõt könyvtárhoz kötött. Mesterséges nyelven alapulók: a dokumentumok tartalmát kódokkal, szimbólumokkal írják le, pl. ETO. Elõnyeik: a rendszerek könnyen áttekinthetõk, a jelzetek egyértelmûek, alkalmasak egyetemes és nemzetközi osztályozásra. Hátrányaik: a tudományok átalakulásait, változásait nehezen képesek követni, a kódokat és az adott struktúrát meg kell tanulni, gépi adatfeldolgozásra nehézkesen használhatók.

56 Az alkalmazott nyelv természetes nyelv
Kulcsszó: Átmeneti elem a formai feldolgozás és tartalmi feltárás között (pl. címek tartalmilag releváns szavai) Könyvtári rendszerekben: címekben, szerzőségi közlésben fordul elö Tágabb értelemben származhat a tartalmi feltárásból is Peter Luhn KWIC (Keyword-In-Context): a jellemző kifejezések előfordulnak / annál többször, minél lényegesebbek

57 Az alkalmazott természetes nyelv szabályozott
Természetes nyelvű kulcsszavak szabályozása: Szóalakok összevonása Homonímák megkülönböztetése Szinonímák elemzése Tárgyszó: egy tárgykört vagy annak részletét a legrövidebben megfogalmazó kifejezés Szabványosított Természetes nyelvű A dokumentum tartalmi jellemzésére felhasználható Lehetővé teszi a tárgyi alapú visszakeresést Információs tezaurusz Az osztályozási kifejezések egymás közti (nyelvi/logikai) kapcsolatainak szabályozása fogalmi összefüggéseik feltüntetésével Lexikai egysége a deszkriptor: Az információk feltárására és keresésére közvetlenül alkalmazható, tartalmilag kitüntetett kifejezés

58 Az alkalmazott nyelv mesterséges nyelv
A dokumentumok tartalmát kódokkal, szimbólumokkal írja le, pl. számokkal: Dewey, ETO

59 2. szempont: Az osztályozási módszerek szerint
Hierarchikus (példa: prekoordinált, tezaurusz, ETO): Az osztályozandó fogalmakat egyetlen egésznek fogják fel, s valamilyen szempont alapján részekre bontják. A hierarchiát mindig a legáltalánosabb fogalomtól lefelé építik. Az értelmi összefüggések közül a tranzitív tulajdonságokkal rendelkezõ relációkat (generikus, szerkezeti) használják fel a fogalmi láncok kialakítására Az alá- és fölérendeltséggel kialakított hierarchia-szinteket terminológiailag is megkülönböztetik egymástól. Például az ETO-ban fõosztály, osztály, alosztály, szakcsoport stb. Lehet monohierarchikus (enumeratív): egy fogalomnak csak egyetlen fölérendelt fogalma lehet, egy helyen szerepel. Egyszerü használni, merev Vagy polihierarchikus (analitikus-szintetikus): a fogalomnak több fölérendeltje is lehet, tehát a felosztás több dimenziós, a fogalom többhelyütt. Mellérendelö: fogalmai önállóak és egymástól függetlenek, az osztályozási kifejezéseket semmilyen szabály nem rendeli egymáshoz, azokat mindig az osztályozandó dokumentumok halmaza határozza meg. Gyakran természetes nyelv = IKNY. Példa: posztkoordinált tárgyszó; Ranganathan

60 Az osztályozás módszere hierarchikus
Újabb szintek beillesztése megoldható Az egyes fogalmak részletezhetők A bontások (= pl történelem; magyar történelem stb.) döntési pontok: csak egy felosztást lehet a további bontás alapjának tekinteni  merevek; gráf; nem lehet ad hoc bontogatni A dokumentumok tartalmának differenciált feltárására nem alkalmasak Nem kedveznek a visszakeresésnek

61 Az osztályozás módszere mellérendelő
Fogalmai: Önállóak (kulcsszó, tárgyszó) Egymástól függetlenek Természetes nyelvűek Egy-két szintig bármely kapcsolatot ki tudnak fejezni, de sekély hierarchia; betürendben a tárgyszavak, pl történelem, angol; történelem, magyar (hátravetett jelzö)

62 3. szempont: Mélységük szerint
Generalizáló: Átfogó problémák leírására szolgáló rendszerek, osztályozási fogalmai általánosak Elsõsorban a nemzetközi információcserében és a szakterületek speciális információkeresõ nyelveinek összefogásában van jelentõségük Individualizáló: Mély tartalmi feltárást biztosítanak Egyedi információkat írnak le Jelentõségük az ilyen jellegû információk iránti megnövekedett érdeklõdés miatt igen nagy

63 4. szempont: Szerkezetük szerint
Prekoordinált: pl. ETO Az osztályok sorrendje, kapcsolatrendszere, az osztályozási fogalom helye eleve meghatározott, így független a dokumentum tartalmától Az osztályozási folyamat a (numerikus, alfanumerikus) jelzethez való besorolással, illetve az osztályozás céljára felhasznált ismérvek koordinálásával, azaz a jelzetelemek meghatározott szabályok szerinti összekapcsolásával, a jelzetalkotással lezárul (szintaxis) Posztkoordinált: pl. tárgyszavazás A lexikai egységek a dokumentum tartalmától függõen rendelhetõk egymás mellé A fogalmak sorrendje elõzetesen nem szabályozott Az osztályozási munka befejezéseként az ismérvek összekapcsolása elmarad Az elemzést nem követi jelzetalkotás. Az elemek összekapcsolása a keresés szakaszában, a keresõ által meghatározott szempontok szerint jön létre

64 5. szempont: Tartalmuk szerint
Egyetemes: Felölelik az emberi tudás egészét, az ismeretek teljes körét Osztályozásukban a különféle szakterületek fogalmait összehangoltan rendezik el Speciális (szakterületi, autonóm): Egy-egy tudományterület, szûkebb szakterület, ágazat ismereteit foglalják magukba Figyelemmel vannak az adott szakterületen mûködõ szakemberek, kutatók sajátos igényeire és szokásaira is

65 6. szempont: Az automatizálás mértéke szerint
Ha az osztályozásás munkafolyamataiban nem használnak gépi megoldásokat, akkor a rendszer nem automatikus Gyakori, hogy a lexikai egységek megállapítása intellektuális úton történik, míg a rendezés és a szelektálás számítógéppel. Ez a rendszer félautomatikus Az automatikus osztályozási rendszerekben mind az osztályozási fogalmak meghatározását, mind csoportosításukat géppel végzik

66 7. szempont: A felhasználás célja szerint
Tudományokat osztályozó (filozófiai, történeti stb.), Ismeretközvetítõ (könyvtári, bibliográfiai, dokumentációs stb.) Ismeretszervezõ (kutatási, irányítási stb., knowledge organization). Az ismeretszervezés elmélete, mely e három közül a legösszetettebb és legpraktikusabb is egyben, egészen új területnek számít az információkeresõ nyelvek elméletében ”A KO az osztályozás szervezésének (a fogalmi hozzáférés struktúrájának) optimalizálásával foglalkozik az ismereteket tároló intézményeknél vagy szolgáltatatásoknál, hogy megkönnyítse az információ visszakeresését, új ismeretek szintetizálását és megosztását felhasználói csoportok számára (...), valamint hogy stratégiai jelleggel, hosszú távra azonosítson minden ismeretforrást és –áramlást, kihasználásukat és továbbfejlesztésüket, szem elött tartva hozzájárulásukat az intézmény vagy szolgáltatás által termelt üzleti értékhez”, vö

67 IV. rész: Rövid osztályozástörténet
Tudományfelosztáson alapuló osztályozások Hierarchikus osztályozási rendszerek (Dewey, ETO) Mellérendelö osztályozási rendszerek (Ranganathan) Nyelvészeti irányzat Tárgyszókatalógusok Indexek Információs tezaurusz Ontológia Statisztikai irányzat Automatikus osztályozás Automatikus kategorizálás

68 Tudományfelosztáson alapuló osztályozások: Hierarchikus rendszerek
Az elsö információrobbanás: Gutenberg A második: 19. sz. Az elsö referálólap: Chemisches Zentralblatt [1829] Gyüjteményszervezési problémák: tematikus rendezés hogyan? Számos újkori példa a tizes felosztásra (10 osztály: Leibniz [ ], Bolyai Farkas [1833], Ampére [1984], Shurtleff [1856], Dewey [ ], Otlet & LaFontaine [1894]) Új a közös alosztások gondolata (Dewey, Cutler, ETO) Hármas rendszer [Harris 1870]: tudomány, müvészet, történelem (Bacon alapján) Bacon: Instauratio magna (1605) a tudományos megismerés alapja a tapasztalat az emberi értelem feladata a tapasztalatok feldolgozása, általánosítása három forrás (emlékezet  történelem; képzelet  müvészet; értelem  bölcselet)

69 Hierarchikus rendszerek: Dewey
1885 Dewey Decimal Classification = DDC (Tizedes Osztályozás) Sikeres fiatalkori munka alapján (1876) Alapja: filozófiai tudományfelosztás Jelzeteit gyakran összekapcsolják a Kongresszusi Könyvtár tárgyszavaival (LCSH) és osztályozási jelzeteivel (LCC) 30 nyelvre fordították le 2000 elején 22 keresőszolgáltatás használta 1876-ban ezer jelzet sem, 3 jegyig kidolgozva; 1959 [16. kiad.] jelzet Svédországban pl most vezetik be a SAB nemzeti tárgyszórendszer helyett

70 Dewey folyt. Jellemzői: Gyakorlati jellegű
Jelzetelés: tizedes törtek használata A tizes számrendszer merev keretei között mechanikus: tíz főosztály tíz-tíz osztály tíz-tíz alosztály

71 Dewey folyt. Közös (pl irodalom lehet angol; történelem is) alosztások: formai, nyelvi, földrajzi, irodalmi műfajok (nullával kezdődő számjegyek) A nyelvek jelölése a nyelvészet és az irodalom osztályaiban megegyező számjegyekkel A földrajzi helyek jelölésére külön függelék – minden földrajzi helynek egy jelzet, hátul, kitalálta nekik A hierarchikus táblázat mellett betűrendes mutató (relatív index - a szakrendszer szerves része) oda-vissza (szám-nyelv)

72 Dewey folyt. Formai alosztások: 01 Bibliográfia, 02 Kézikönyv, 03 Szótár, 04 Értekezés, 05 Folyóirat, 06 Társasági kiadvány, 07 Oktatási anyag, 08 Gyûjtemény, 09 Történet. Tudományfelosztás és jelzetek: 100 Filozófia és rokontudományok 200 Vallás 300 Társadalomtudományok 400 Nyelvészet 500 Természettudományok 600 Hasznos tudományok 700 Müvészetek 800 Irodalom 900 Történelem (a 0 osztály formai csoportjai nem képeznek tárgyi fõosztályt) Jelzetelés pl.: 510 Matematika (általában) 510.9 A matematika története (az helyett) 420   Angol nyelvészet 820   Angol irodalom

73 Kettöspontos osztályozás: Ranganathan
Shiyali Ramamrita Ranganathan ( ) Felismeri, hogy az osztályozás is nyelv Nem a fogalmakból indul ki, hanem az egyes szakterületek fõ ismérveit, elemeit sorolja fel táblázataiban, és a mûvek tartalmának kifejezésére ezeket, illetve ezek jelzeteit egyesíti, szintetizálja Az analitikus-szintetikus osztályozásnak ez az értelmezése mély elemzõ munkát tételez fel, amelyet elõször a fogalmak elemzése szintjén kell elvégezni, azután az elnevezések szintjén kell megfogalmazni, és ezt követõen lehet rátérni a jelzetelés szintjén a szakjelzet megalkotására A 108 fõosztály (1972) sorrendje elvi szempontból a következõ: Általános mûvek Bevezetõ tanulmányok Természettudományok és mûszaki tudományok Humán tudományok Társadalomtudományok

74 Ranganathan: jelzetszerkesztés
Az osztályokon belül nem, vagy csak alig ad meg alosztályokat Kidolgozta az egyes szakterületek speciális kérdéseinek, problémáinak jellemzésére, illetve jelölésére szolgáló ismérvek (karakterisztikák) táblázatait. Ezek egy-egy meghatározott szempont alapján sorolják fel az ismérveket ún. facettákba osztva, és a jelölésükre szolgáló izolátokat (alosztásokat) az egyes facetták táblázatában tizedes számokkal jelölte A tartalomra megadható izolátok jelzeteit különféle írásjelekkel kell összekapcsolni megadott szabályok szerinti sorrendben. Eredetileg az ismérvek kapcsolásának legfontosabb írásjele a kettõspont (colon) volt, és innen ered a Kettõspontos Osztályozás (Colon Classification) elnevezés is. A mûvek tartalmának a fogalmak szintjén való analízise alapján a könyvtárosnak kell a szakjelzeteket összekapcsolnia a megadott szabályok szerint. Ezért nevezte Ranganathan a CC-t az elsõ analitikus-szintetikus osztályozásnak Valamennyi osztály számára öt alapkategória: PMEST – aspektusok (facetták) Egyediség (perszonalitás, P); anyag (matéria, M); energia (E); térbeliség, hely (spatium, S); idöbeliség (tempus, T) Betürendes index a föfacettákhoz Noha már alig használják, nagy hatása volt világszerte, és a mellérendelö, többszempontú indexelés gondolatával megalapozta a mai számítógépes szolgáltatásokat

75 Hierarchikus rendszerek: ETO
Mandello Gyula  Paul Otlet, Henry LaFontaine: Dewey hozzájárulásával, de a TO-n nagyot alakítva Formai eltérés: a fogalmak hierarchikus felépítésének jobb felismerhetõsége érdekében a "háromjegyû minimum" elvét elvetették, és a fõosztályokat egy, az osztályokat két, az alosztályokat három számjeggyel jelölték Lényeges: a jelzetekkel kifejezett fogalmak összekapcsolását lehetõvé tették a relációk A komplex fogalmak jelölésére, továbbá a Deweynél még csak csírájukban található alosztásokat külön táblázatokká fejlesztették: Az ún. segédtáblázatokban a minden osztályban alkalmazható (általánosan közös) alosztások A fötáblázatban az egyes osztályokban, szakterületeken belül használható speciális (korlátozottan közös) alosztások sorozatait Mindezzel megnövelték az osztályozási rendszer flexibilitását, a TO enumeratív, monohierarchikus struktúráját az analitikus-szintetikus osztályozási rendszer irányába tágították ki

76 ETO folyt. A fogalmak hasonlóságán és különbözőségén alapul
Fogalmak alá- és fölérendeltségét fejezi ki Mindig a tágabb fogalom alá rendeli a szűkebb fogalmakat Magyarországon a legelterjedtebb osztályozási rendszer (még mindig sok könyvtár használja, miközben online is van már, de ebben szakoznak; nem merik kidobni, 40 év; polcrendszer alapja az SZTE könyvtárában) A természetes nyelvektől független jelzetek: számjegyekből, írásjelekből, betűkből A tizedes törtek rendszerének szabályai szerint épül fel

77 ETO folyt. Átfogó osztályozási rendszer
60 000 osztályból és a segédtáblázatokból áll Teljes kiadás négy, rövidített 20 nyelven Típusai: Teljes kiadás (kb ezer fogalom) Közepes kiadás (kb ezer fogalom) Rövidített kiadás (kb ezer fogalom) Speciális (szakágazati) kiadások Internetes szolgáltatásokban is alkalmazható (2000 elején 11)

78 ETO jelzetalkotás Fötáblázat osztályai: 0 Általános tartalmú mûvek
1 Filozófia, pszichológia 2 Vallás, teológia 3 Társadalomtudományok 4 (1964 óta betöltetlen fõosztály, eredetileg Nyelvészet) 5 Alaptudományok. Matematika. Természettudományok 6 Alkalmazott tudományok 7 Szépmûvészetek. Iparmûvészetek. Szórakozások, játékok, sport 8 Nyelvészet. Irodalom 9 Régészet. Földrajz. Életrajz. Történelem Pl alosztályokra bontás: 6 Alkalmazott tudományok 62 Mûszaki tudományok 621 Általános gépészet 621.3 Elektrotechnika Híradástechnika Rádiótechnika Rádióberendezések Rádióadó berendezé-sek Alosztások rendszere: Àltalánosan közös alosztások Korlátozottan közös alosztások

79 ETO folyt. Kereshetősége:
A számformátumú jelzeteknek nincsenek nyelvi korlátaik (nyelvfüggetlen, fogalmi nyelv) Nem felhasználóbarát osztályozó rendszer: Fogalmaira az ETO-számok természetes nyelvű feloldásait ismerve lehet keresni A központozások / mellékjelek használata bonyolult

80 Nyelvészeti irányzat: Tárgyszavas osztályozás és tárgyszókatalógusok
Alkalmas leírásra, tárolásra és visszakeresésre Leírásra a természetes nyelv szabályozott szavait, szóösszetételeit használja Osztályozási eszköz is A rendszerben az osztályozói fogalmak egymástól függetlenek, közöttük értelmi összefüggések nem, vagy csak esetlegesen vannak (mellérendelõ) Tárolás a tárgyszókatalógusban Lehetõség van a fogalmak utólagos összekapcsolására, valamint a keresõképhez igazítására a visszakeresés során (posztkoordináció) Biztosítja a többszempontú visszakeresést Fogalomszervezési szintje sekély, a módszer viszont rugalmas és gépesíthetö

81 Tárgyszavas osztályozás
Nyelvtanilag szabványosított formájú Természetes nyelven alapuló kifejezés A dokumentum, információ lényegének leírására alkalmas Rövid, tömör, egyértelmű Három megoldás ismert: A tárgyszavakat a szövegbõl emeljük ki, s változatlanul, vagy alaktani változásokkal építjük be az osztályozási rendszerbe. A szavakat a szövegbõl emeljük ki, de ezeket az osztályozási rendszerben azonos fogalmat jelölõ, ám más megnevezéssel illetett tárgyszavakra cseréljük, ha a kiemelt kifejezés nem esik egybe a rendszerben elfogadott megnevezéssel. A tartalmat a szövegben nem feltétlenül szereplõ tárgyszóval jellemezzük, s szabályozott alakban a rendszerbe illesztjük Az eredmény: Szabad tárgyszavas osztályozás: bármely szó felhasználható, nincs elõre kidolgozott szótár, de szabványosított alak kell (normalizálás) Kötött tárgyszavas osztályozás: már meglevö szótárt, szókészletet = tárgyszójegyzéket használunk

82 Tárgyszóként használhatók
Tudományszakok, diszciplinák nevei, pl. atomfizika, irodalomtörténet stb. Tudományos elméletek nevei, pl. relativitáselmélet, vezetéselmélet stb. Tudományos iskolák vagy irányzatok nevei, pl. reneszánsz, statisztikai irányzat stb. Tudományos problémák, eljárások, gyakorlati alkalmazások nevei, pl. határozatlansági reláció, gazdálkodás stb. Tudományos szakkifejezések, pl. káló, esszé stb. Objektumok, élõlények, dolgok nevei, pl. könyv, kutya, olvasók stb. Folyamatok, történések nevei, pl. változás, születés stb. Tudományos módszerek megnevezései, pl. kísérlet, modellezés stb. Tartalmi és formai tulajdonságok megnevezései, pl. keménység, bibliográfia stb. Intézmények, szervezetek, testületek nevei, pl. Somogyi-könyvtár, Magyar Tudományos Akadémia stb. Események nevei, pl. trianoni békekötés, honfoglalás stb. Földrajzi nevek, pl. Duna, Hódmezõvásárhely stb. Korszakok, idõpontok és idõtartamok nevei, pl. l984, Kádár-korszak stb. Személynevek, alkotások címei, pl. Németh László, József és testvérei stb. Közismert rövidítések, pl. IFLA, KFKI stb.

83 A tárgyszóalkotás szabályai
Tartalmi szabályok: A lehetö legspecifikusabb kifejezés(eke)t válasszuk A specifikusság szintje függ a könyvtár típusától (pl Cegléd vs MTA) Hivatkozások besegítenek Lásd még: generikus  specifikus Lásd utaló: kerti munka  munka, kerti A dokumentumok tartalmát a keresönyelven írjuk le Alapvetö a következetesség Formai szabályok: Morfológiai szempont: Előnyös, ha főnév Jelzőt csak szerkezetben lehet használni Lehetőleg egyes számban használjuk (kivéve csoportok, gyűjtőfogalmak neveit és a plurale tantum-okat (aminek csak többes számban van értelme, vagy többesben más a jelentése, mint egyesben – medium/media; vö. tollazat, madarak vs. tollazat, pinty) Szemantikai szempont: kezelni kell A szinonimákat (a rokon értelmű fogalmakat) Homonimákat (azonos alakú, de különböző értelmű szavakat)

84 Formai szabályok folyt.
Szerkezete, megjelenése szerint a tárgyszó egyszerü (egytagú) vagy összetett (többtagú) Az összetett tárgyszó részei: fõtárgyszó, altárgyszó, melléktárgyszó Az összetett tárgyszavak elsõ tagja a fõtárgyszó, pl. osztályozás. Az altárgyszó a fõtárgyszó tagolására szolgáló, inverzió útján keletkezett tárgyszó, pl. osztályozás, automatikus. A melléktárgyszó a fõtárgyszó pontosabb értelmezését szolgáló, nem inverzióval keletkezett tárgyszó, pl. leltározás (könyvtár). De a homonímák után szükséges tárgyszó is melléktárgyszó, pl. rák (betegség). Összetettnél alkotóelemek sorrendje - próbálkozások: Elöl mindig a fönév áll (de pl matematikai statisztika) Tárgyszóláncok permutációja: mindegyik kerül vezetö helyzetbe Általánosságban: minél több tárgyszó sorolható be egynél több kategóriába, az osztályozás egyértelmûségének biztosítása érdekében annál indokoltabb a kategóriák jelölése

85 A tárgyszókatalógus alapjai folyt.
A feltárás eszköze: a tárgyszavak alapján létrehozott betűrendes katalógus Cédulák egymást szoros betűrendben követik  a formailag - alakilag hasonló tárgyszavak (és nem fogalmak) kerülnek egymás mellé (vö. lexikonok, szótárak, tárgyszavas könyvkatalógusok) A keresés hatékonyságát javítják az utalók: Szinonima utaló: egyes névvariánsról szabványosra, eb  ld kutya Szintagma utaló: az összetett tárgyszó preferált alakjára, mellérendelö osztályozás  ld osztályozás, mellérendelö Hivatkozás: egy további helyet is megjelöl a keresésre, vívás  ld kardvívás Kétféle tárgyszókatalógus van: tiszta és rendszerezö

86 A tárgyszókatalógus típusai
Tiszta: a specifikus tárgyszó elvére épül A tárgyszavak egymással mellérendelõ viszonyban vannak A tárolás és visszakeresés pusztán formai jegyek alapján, mechanikus betûrendben történik A használó rendszerint az összetett tárgyszavak elsõ tagjára kereshet, esetenként találkozhat invertált alakokkal is A tárgyszavak a fogalmak különbözõ hierarchia szintjein vannak, s általában képtelenek fogalmi szintek kifejezésére. Például: raktár raktáros rendelés rendelés-keret rendezvény rendezvénynaptár Rendszerezö: Betûrend + valamilyen struktúra A tárgyszó kiválasztásakor általánosabb és specifikusabb fogalmakat is használnak Szerkezetét tekintve két altípusa van: bokrosító és alárendelõ tárgyszókatalógus

87 Rendszerezö tárgyszókatalógus folyt
Bokrosító: A tárgyszavak nagy része mechanikus betûrendben, de ha a használat úgy kívánja, a tárgyszavak egyrészét felbontja részfogalmakra, s ezek fõtárgyszó-altárgyszó szerkezetûek lesznek Gyakran invertálással hozzák létre. Az invertálás eredményeként az amúgy szétszóródó fogalmak egy helyre gyûlnek Egy-két hierarchia szintnél nem képes többet kifejezni Például: állam állományalakítás állományellenõrzés bibliográfia - ajánló - bio - nemzeti - másodfokú - szak bibliográfiai leírás

88 Rendszerezö tárgyszókatalógus folyt
Alárendelö: Többnyire egytagú kifejezéseket használ, s ezek az általánosítás különbözõ fokain foglalnak helyet A tárgyszavak elrendezése az eddigiektõl eltérõen fogalmi szintek figyelembevételével történik A betûrend csak az azonos hierarchia szinteken belüli rendezõ elv A rendszer az áttekinthetõség érdekében 5-6 alárendelési szintnél többet nem alkalmaz Példa: mechanika - folyadékok - - felszíni jelenségek felületi feszültség kapillaritás - - hidrodinamika - - hidrosztatika - - kinetikus folyadékelmélet - légnemûek - - aerodinamika - - kinetikai gázelmélet - mechanikai rezgések

89 Alárendelö rendszerezö tárgyszókatalógus folyt
Mutatók: Szerkesztéssel karbantartás a bövülés során A betûrendes mutató a katalógusban használt tárgyszavak és altárgyszavak betûrendes jegyzéke, melyet elsõsorban az alárendelõ rendszereknél használunk. A szakrendi mutató - szisztematikus index - szakterületenként csoportosítja az elõforduló tárgyszavakat

90 A tárgyszókatalógus alapjai
Rendszerező tárgyszavas rendszer: Átfogó fogalmak  altárgyszavak (vö alosztás; történelem vs angol történelem) Az azonos témakörökkel foglalkozó információk egy helyen találhatók Rendszerező tárgyszókatalógusok: egy-egy csoporton belüli bontás Formai Földrajzi Időbeli Tárgyi szempontok alapján alkatalógusokra bontva

91 Nyelvészeti irányzat: Indexek
Index: általános értelemben mutató, itt: jellemzök rendezett jegyzéke (tárgymutató, névmutató, szerzõ, cím, tartalom, testület, kiadó, ISBN, képlet stb.) A rendezett ismérvek szerint a dokumentumok visszakereshetök, ergo osztályozási végtermék Gépi vagy kézi, kurrens vagy retrospektív, többnyire egynyelvü

92 Gépi indexek Jellemzöi:
Létezõ vagy virtuális dokumentumgyûjteményeket indexelnek A használt osztályozási kifejezések nem intellektuális tevékenység eredményei, hanem félig-meddig mechanikusan, a dokumentum címébõl vagy szövegébõl származnak Az osztályozási kifejezéseket nem kiragadva, hanem valamilyen szövegkörnyezet, tárgyszólánc stb. feltüntetésével adja meg Az osztályozási kifejezések rendezésére ciklikus permutációt használ Fajtái: Címindex Kulcsszóindex Tárgyi index Hivatkozási index

93 Gépi indexek folyt Kulcsszó: az információ lényegére jellemzõ, a tartalmi feltárásra alkalmas szövegszó Kulcsszóindex: ha a kulcsszó kiválasztáshoz nemcsak a címet, hanem az egész szöveget feldolgozzák Címindexek: a dok tartalmának leírására az eredeti címbõl, a módosított vagy kiegészített címbõl, esetleg a mesterségesen alkotott címbõl származó kulcsszavakat használ. Ha jó a cím... KWIC (Luhn 1959): ”keyword in context”, normalizálás, permutálás Példa: finanszírozásának problémái és a könyvtárügy.+ A kultúra könyvtárügy.+ A kultúra finanszírozásának problémái és a kultúra finanszírozásának problémái és a könyvtárügy.+ A KWOC: ”keyword out of context”, normalizálás, permutálás Finanszírozás A kultúra finanszírozásának problémája és a könyvtárügy  Könyvtárügy A kultúra finanszírozásának problémája és a könyvtárügy Kultúra A kultúra finanszírozásának problémája és a könyvtárügy

94 Gépi indexek folyt Tárgyi / tárgyszóindex:
Kötött, néha kötetlen szókészletet is képes kezelni Gyakran nagyon hasonlítanak a címindexekhez, ám a tárgyszóláncok megalkotása komoly intellektuális tevékenység A számítógép kész tárgyszóláncokat kap s ennek alapján állítja elõ a tárgyi indexet. Az elõállításnak különbözõ szabályai vannak. Pl permutált tárgy index. Fajtái: Sima permutált tárgyszóindex: az indexelö a fontos tárgyszavakat a lánc elemeiként, a.m. egyedként fogja fel; a gép ciklikusan permutálja, majd elsõ tagjuk szerint betûrendbe rakja Eredeti lánc: MAGYAR. LÍRA. ROMANTIKA. HASONLAT. A ciklikus permutáció és a betûrendezés után: HASONLAT. MAGYAR. LÍRA. ROMANTIKA LÍRA. ROMANTIKA. HASONLAT. MAGYAR MAGYAR. LÍRA. ROMANTIKA. HASONLAT ROMANTIKA. HASONLAT. MAGYAR. LÍRA Lánceljárásos permutált tárgyszó index: a tárgyszavakat nem önálló, különálló elemekként kezeli, hanem a specifikustól generikusig rendezve a tárgyszóláncon belül, fogalmi szinteket jelez. Példa: HASONLAT. ROMANTIKA. MAGYAR. LÍRA ROMANTIKA. MAGYAR. LÍRA MAGYAR. LÍRA LÍRA Hivatkozási index (Garfield, Science Citation Index,1964) Kizárólag géppel (bibliometria, szcientometria, webometry, informetry) Hivatkozott mü és hivatkozó közötti tartalmi kapcsolatot mér, térképez Indexelés bibliográfiai tételekkel = nincs terminológiai probléma Tudományos teljesítmény mérése, rangsorolás, minösítés eszköze is

95 Nyelvészeti irányzat: Információkeresö tezaurusz
Az osztályozási rendszerek általános problémája a lexikai egységek közötti kapcsolatok feltérképezése ill szervezésük nagyobb egységekké A tipizálás két iskolája a kontextusfüggetlen relációkat, értelmi összefüggéseket használó tezauruszok, ill a szintaktikus IKNY-ek kontextustól függö, de relációmegörzö transzformációi es években ismerték fel a relációk elem-voltát, fontosságát. Thesaurus (görög) = kincsesház, kincstár Paradoxon: (szó)szemantikával a szintaxist is Meghatározás (MSZ ): "Az információkeresõ tezaurusz természetes nyelven kifejezett fogalmak olyan tartalmilag szabályozott, szükség szerint változtatható szótára, amelyben feltüntetik a legfontosabb fogalmi összefüggéseket. A tezaurusz fõ rendeltetése információk feldolgozása és keresése."

96 Meghatározások A tezaurusz egy-egy szakterület teljesnek mondható, természetes nyelven kifejezett fogalomgyûjteménye, ahol a fogalmak közötti kapcsolatokat is feltüntetik. A fogalmak és a relációk azonos értékûek a rendszerben. A "szükség szerint változtatható szótár" kifejezés rámutat a fogalmi teljesség idõbeli rögzítettségére és a bõvíthetõség biztosításának követelményére is. A tezauruszban a fogalmak lexikai egységek formájában jelennek meg. A tezaurusz lexikai egységei a deszkriptor és a nemdeszkriptor. A deszkriptor az információk leírására, és visszakeresésére közvetlenül alkalmazható szó. A nemdeszkriptor a deszkriptor szinonim vagy szinonimnak tekintett kifejezése, mely az információk leírására és visszakeresésére közvetlenül nem, csak a vele összekapcsolt deszkriptor figyelembevételével használható. A tezaurusz segítségével megvalósítható a dokumentumok osztályozása és indexelése. Lehetõség van az azonos tartalmú dokumentumok csoportba sorolására, az egyedi információk leírására és a változó szempontok szerinti rendezésére, s ezek tárolására. A rendszer felhasználható hatékony keresõprofilok szerkesztésére. A tezaurusz elsõdleges feladatain túl fontos szerepet tölthet be a szakmai nyelv és terminológia egységesítésében. A deszkriptorok gyakoriságvizsgálata képet ad a kutatási témák megoszlásáról és fejlõdési irányairól.

97 A tezauruszkészítés menete
Elökészítö munka Induló szóanyag összegyüjtése [Automatikus] szóstatisztikai elemzés Az adott területre vonatkozó tájékoztatási segédeszközök elemzése, pl. lexikonok, enciklopédiák, értelmezõ szótárak, név- és tárgymutatók Gyakorlott osztályozási szakemberek és a feltárandó terület tudományos képviselõi közvetlen megbeszéléseken gyûjtik össze a szakkifejezéseket Meglévõ osztályozási rendszerek és szókészletek felhasználása A fentiek kombinációi Szókészlet elemzése, a legfontosabb deszkriptorok kiválasztása és a deszkriptorok betûrendes mutatójának elkészítése Deszkriptorok gráfszerû kifejtése A deszkriptorok közötti relációszerkezet kialakításával a deszkriptorcikkek létrehozása. A nemdeszkriptorok kijelölése A tezaurusz fõrészének szerkesztése a kapott deszkriptorcikkekbõl A csúcsdeszkriptorok - legmagasabb szintû, legfontosabb jellemzõk - kijelölése. A hierarchikus rész láncszerû szerkesztése a fölé- és alárendelési reláció alapján A kiegészítõ jegyzékek elkészítése A kész tezaurusz ellenõrzése, kiegészítése, és a modellkísérletek végrehajtása

98 A lexikai egységek formája
Szabályok: A deszkriptorokra vonatkozó formai szabályok lényegében megegyeznek a tárgyszavakéval A lexikai egységeket szabványos nyelvtani alakban, lehetõleg fõnévként kell megadni A deszkriptorok általában egyes számú fõnevek, kivéve, ha a kifejezés gyûjtõfogalom, vagy csak többes számban használatos, vagy ha az egyes számú és többes számú változat jelentése között különbség van A lexikai egység lehet köznév, tulajdonnév, számnév és betûszó is. Ha a rövid alakot választottuk, közölni kell a teljes alakot, zárójelben fel kell oldani és utalni kell róla Szerkezetét tekintve a deszkriptor lehet egytagú vagy többtagú (összetett szó, több szóból álló kifejezés) szó. Többtagú szót akkor használhatunk, ha jelentése nem következik összetevõinek jelentésébõl (pl. királyvíz), összetevõi fontos vagy rendezõ szerepet töltenek be az osztályozásban, illetve túl általánosak stb. A többtagú kifejezéseket természetes sorrendben írjuk le és nem invertálunk, hisz a szerkezetet úgyis a relációk képezik. Utalókat csak a több szóból álló kifejezések fontos, önálló elemeirõl készítünk, pl. a természetes és a mesterséges nyelvek esetében célszerû utalni a mesterséges nyelvekrõl

99 Szemantikai egységesítés
Szabályok: A szinonimák és kváziszinonimák kitüntetett szerepet töltenek be a rendszerben. A tezauruszban szinonimán a tartalmilag egymást helyettesítõ, kváziszinonimán az adott szakterületen azonosnak tekinthetõ kifejezéseket értjük. A szinonimakapcsolat esetei: Különbözõ alakú, magyar nyelvû kifejezések, pl. eb - kutya Egy fogalom magyar és idegen nyelvû változata, függetlenül attól, hogy meghonosodott-e mindkettõ, pl. szerkezet - struktúra Egy fogalom köznapi és tudományos változata, pl. sósav - hidrogénklorid Egy fogalom rövidített és teljes megnevezése, pl. ETO - Egyetemes Tizedes Osztályozás Egyéb alakváltozatok: szófaji, igekötõs stb. eltérések, pl. információs tezaurusz - információkeresõ tezaurusz; hûlés - kihûlés. A rendszerben a szinonimákat a legfontosabb fogalmi kapcsolatok közé soroljuk és L (lásd), illetve H (helyettesíti) relációkban tüntetjük fel. Egyes tezauruszok a szinonimák közül gyakran kiemelnek egyet (deszkriptor - nemdeszkriptor) és ezt használják a leírásban és a keresésben is. Más esetben a névvariánsokat használják, s a megfeleltetést utólagos összekapcsolással oldják meg. A homonímák - többjelentésû szavak - megkülönböztetése a zárójelben utánnuk tett értelmezõ segítségével történik: entrópia (információelmélet) entrópia (termodinamika).

100 A tezauruszcikk szerkezete
Szabályok: A tezauruszcikk a deszkriptorcikk és a nemdeszkriptorcikk közös elnevezése A tezauruszcikk az élén álló vezérdeszkriptorból és a hozzá fogalmilag közvetlenül kapcsolódó, s e kapcsolatok jellegét is feltüntetõ deszkriptorokból áll A cikken belüli kapcsolatok, relációk sorrendje meghatározott. Egy adott reláción belül a lexikai egységek betûrendben sorolódnak fel, a közöttük lévõ esetleges kapcsolatok feltüntetése nélkül. Deszkriptorcikként szerepelhet egyedül álló vezérdeszkriptor is A nemdeszkriptorcikk a nemdeszkriptorból, valamint a leíráskor és kereséskor helyette használt deszkriptorból áll A rendszerben feltüntetett minden egyes kapcsolat "fordítottjának" is meg kell jelennie a megfelelõ tezauruszcikkben

101 Példa A tezauruszcikk felépítése néhány kitüntetett, gyakran használt relációval: VEZÉRDESZKRIPTOR H  szinonimája F  fölérendeltje A  alárendeltje T  egésze (totum) P  része (pars) R  meghatározottja (rezultáns) E  meghatározója (elõfeltétel) X  rokonsági kapcsolat A tezauruszszabványban felhozott példa: FORGÁCSOLÁS H  forgácsoló alakítás F  anyagszétválasztás     megmunkálás A  esztergályozás     fúrás     köszörülés     marás     üregelés     vésés T  gyártástechnológia P  forgásvezetés     nyíró igénybevétel R  forgács     forgácsolási felület E  forgácsoló szerszámgép     forgácsoló szerszám X  forgácsolhatóság     szerszámelrendezés

102 A tezaurusz relációi Szinonima (L-H) reláció. Irányultságát tekintve két típusa van: L (lásd a szinonimát) A nemdeszkriptorcikkekben használjuk, a lexikai egység által jelölt fogalom helyett a jelet követõ deszkriptort kell alkalmazni, pl.: STRUKTÚRA L Szerkezet H (nemdeszkriptort helyettesít) A jelet követõ nemdeszkriptor a deszkriptorcikk élén álló vezérdeszkriptort helyettesíti, pl.: SZERKEZET H Stuktúra Fölé- és alárendeltségi /generikus, nem-faj/ (F-A) reláció. Ha egyik fogalom alárendeltje a másiknak. (A logikában az alárendelt fogalmak összessége (uniója) kiadja a fölérendelt fogalmat. A tezauruszban ez nem feltétel) KÖNYVTÁR A közmûvelõdési könyvtár KÖZMÛVELÕDÉSI KÖNYVTÁR F könyvtár Egész-rész /szerkezeti/ (T-P, totum-pars) reláció. Fizikai, szerkezeti kapcsolatokat határoznak meg a fogalmak között. A részfogalmak nem rendelkeznek az egész fogalom valamennyi ismérvével = az egész több/más, mint részeinek összessége CÍMLAP VERZÒ P verzó T címlap

103 A tezaurusz relációi folyt
Rezultáns és elõfeltétel (R-E) reláció. A rezultáns (következtetés) reláció több hasonló jellegû tartalmi kapcsolat összefoglaló elnevezése. "A vezérdeszkriptor által jelölt tárgy, folyamat stb. rendeltetése, okozata, eredménye, terméke, célja, tárgya, következménye (együttvéve: meghatá-rozottja) a jelet követõ deszkriptor által jelölt folyamat, tárgy stb. (együttvéve: meghatározó)." Például: CERUZA R írás Az elõfeltétel (kiindulás) reláció is, irányított reláció lévén, több hasonló jellegû tartalmi kapcsolat foglal össze. "A vezérdeszkriptor által jelölt folyamat, tárgy stb. létének, létrehozásának, mûködésének, meghatározásának oka, eredete, elõidézõje, eszköze, alapja, kiindulása (együttvéve: meghatározója) a jelet követõ deszkriptor által jelölt tárgy, folyamat stb. (együttvéve: meghatározott)." Például: ÍRÁS E Ceruza Rokonsági (X) reláció. A tezauruszban más módon ki nem fejezhetõ, lényeges kapcsolatok tartoznak ide, pl.: ellentét, hasonlóság stb

104 A tezaurusz felépítése
Bevezetõ rész tartalmazza a címlapot és a bevezetést (cél, szerkezeti felépítés, készítés módja, mennyiségi jellemzõk stb.) A szótári rész a tezauruszban lévõ lexikai egységek különbözõ ismérvek szerint rendezett jegyzékeinek együttese. . A kötelezõ szótári részek: a fõrész, a jelentéskör szerint csoportosított rész és a lexikai egységek betûrendes mutatója. A tezaurusz fõrésze tartalmazza a tezauruszcikkeket vezérdeszkriptoraik betûrendjében. A fõrész egységei deszkriptorcikkek és a nemdeszkriptorcikkek. A jelentéskör szerint csoportosított rész egy helyre gyûjti a tartalmilag összetartozó deszkriptorokat. A csoportosítás történhet szakterületek és ezek alterületei, illetve fogalmi kategóriák (facetták, vetületek) és ezek alkategóriái szerint. A legkisebb csoportokon belül a lexikai egységek betûrendben vannak. A lexikai egységek betûrendes mutatója a vezérdeszkriptorokat és a nemdeszkriptorokat betûrendben sorolja fel. A mutató elmaradhat, ha megegyezik a fõrészben található vezérdeszkriptorok és nemdeszkriptorok sorrendjével. A további lehetséges részek: a hierarchikus rész, a grafikus rész és a kiegészítõ jegyzékek nem minden tezauruszban találhatók. Kidolgozásuk nem kötelezõ, de gyakran segítik a tájékozódást. A hierarchikus rész általában a tranzitív relációk (generikus, szerkezeti) alapján kiemeli a tezauruszcikkekbõl a hierarchikus kapcsolatban álló fogalmakat, s ezeket a legáltalánosabbtól a legkonkrétabbig láncba fûzi. Ez a fajta elrendezés rendkívül hatékonyan segíti a keresést. A grafikus rész a jelentéskör szerint kiválasztott deszkriptorokat és kapcsolataikat gráfok segítségével ábrázolja. A kiegészítõ jegyzékek azoknak a kifejezéseknek, neveknek (pl.: tulajdonnevek) a betûrendes jegyzékei, melyek az osztályozásban és indexelésben felhasználhatók, de beépítésük indokolatlan a fõrészbe.

105 OSZK Köztaurusz / Taxaurusz grafikus rész

106 Tezauruszok AGROVOC OSZK UNESCO

107 Nyelvészeti irányzat: Ontológiák
A mesterséges intelligenciával kapcsolatban használt ontológia szó nem egyértelmű kifejezés. A filozófiában már régóta használják, ott a létezés témáját jelöli. (Sokan összekeverik az episztemológiával, amely a tudásról szól annak főnévi és igei értelmében, azaz a tudás egyszerre tény, az a cselekvés vagy állapot, hogy valamit tudunk, és a szerzett ismeretek összessége, rendszere, azaz valamilyen reprezentáció.) Az ismeret vagy a tudás megosztása kontextusban az ontológia a fogalomalkotás, fogalom feltérképezés (conceptualization) specifikációját, vagyis konkrét körülírását, megkülönböztetését jelenti. Az ontológia azon fogalmak és viszonyok leírásának fajtája, amelyek egy vagy több ágens viselkedésére vonatkozik. Gyakorlati célból az ontológiai egy formális szerkezetű szótárban szereplő meghatározások csoportját jelenti. Bár nemcsak ez az egyetlen módja van a fogalomalkotás specifikálásának, e módszernek van néhány olyan tulajdonsága, amik miatt az jól használható a tudásmegosztásra a MI-ban. Ontológiákat a MI területén abból a célból készítenek, hogy lehetővé váljon a tudás megosztása és ismételt felhasználása. Ennek eszközei a különbözö funkciójú software robotok. Az ontológiák a robotok között kommunikációt segítik, lényegében egy-egy kifejezés értelmét kódolják számukra, ami az ismeretek megosztásához vezet közöttük. A MI rendszereknél létrehozott közös szókincs (szótár) a közös tudást képviseli vagy reprezentálja. Egy szakterület fogalmainak specifikációjá, az osztályok, relációk, funkciók (függvények) és egyéb objektumok meghatározásait nevezik ontológiának. A definíciókat a kijelentéskalkulus (predicate calculus) szabályai szerint írják le, amit azután lefordítanak speciális reprezentációs nyelvekre.

108 Ontológiák folyt Gyakorlati szempontból egy közös ontológia azt a szótárt adja meg, amelynek segítségével az ágensek egymás között kérdéseket és válaszokat tudnak megfogalmazni. A szótárt használó ágensnek nem kell megosztania a tudásbázisát, mert minden ágens tud olyasmit, amit a másik nem, és egy ontológiát használó ágensnek nem kell tudni a közös szótár segítségével összeállítható minden kérdésre válaszolni. Felhasználási ötlet: a szemantikus világháló (Semantic Web)

109 Ontológiák – példák Upper ontology Ontológia
AGROVOC: tezauruszból ontológia Protégé Protégé csomag


Letölteni ppt "Osztályozási rendszerek, információkereső nyelvek I"

Hasonló előadás


Google Hirdetések