Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék.

Hasonló előadás


Az előadások a következő témára: "Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék."— Előadás másolata:

1 Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék

2 Osztályozás és információkeresés •Elöljáróban: –Az ínformációkeresés felfogható ad hoc osztályozásnak is –A felhasználó pillanatnyi érdeklödése a szurrogátum, az ennek megfelelö találatok osztályát keressük –Ahogy változik az érdeklödés, úgy kerülnek más osztályok elötérbe –Ehhez a WWW a könyvtár

3 Alkalmazási területek Automatikus indexelés Automatikus osztályozás InformációkeresésInformáció vizualizálás

4 Az elöadás tartalma 1.Információkeresés a gyakorlatban 2.Automatikus indexelés 3.Automatikus osztályozás 4.Vektorteres információkeresés 5.A mély web és jelenségei (idöben változó fogalmi térképek)‏ 6.Az információ láttatása

5 Nem részletezett problémák •Powers of ten (“A tizes hatványai”, video): miröl van szó? Az univerzum mérete m, az emberi nagyságrend a 10 0 m, a kvantumfizika m körül, a mérhetöség határa m, az extrapolációk határa m: ott “van/történik” valami m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, amely agyi tevékenységünkért felelösPowers of ten •Mire képes az információelmélet?  IR, IV (vö. Lem, Az Úr hangja, kb 78 old.): “nem keresni kell, hanem kiszürni a feleslegeset” •Mire képes a nyelvábrázolás? Milyen matematikai objektumok mennyit bírnak el? •Mit tesz a szokás? Vö. Beethoven V. szimfónia másképpmásképp

6 1. Információkeresés a gyakorlatban •A könyvtár legfontosabb információ-keresési eszközei –Bibliográfiák –Katalógusok –Indexelö és referáló kiadványok –Adatbázisok –Nyilvántartások –Keresömotorok és webkatalógusok

7 Bibliográfiák •Hagyományosan a könyvtár legfontosabb keresöeszköze •Az irodalmat leíró listák rendezési elve: –tárgykör –szerzö –nyelv –idötartam (periódus, korszak)‏ –különgyüjtemények –kiadók –dokumentumtípus

8 Az OSZK adatbázisai (példák)‏ •A MNB adatbázisai A MNB adatbázisai •Katalógusok: –NEKTÀR (OSZK online katalógus)‏NEKTÀR –MOKKA (Magyar Országos Közös Katalógus)‏MOKKA –Hungarika adatbázisok –AV kötelespéldány –EPA (Elektronikus Periodika Archivum)‏EPA –IKER (Magyar Idöszaki Kiadványok Repertóriuma)‏IKER –NPA (Nemzeti Periodika Adatbázis)‏NPA

9 Az OSZK adatbázisai folyt (példák) ‏ •Gyüjtemények: –Törzsgyüjtemény (Könyvek / idöszaki kiadványok)‏ –Különgyüjtemények (kéziratok, kisnyomtatványok, térképek, szinháztörténet, zenemüvek stb.)‏ –Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok)‏Bibliotheca Eruditionis –E-CorvinákE-Corvinák –Magyar Elektronikus Könyvtár (MEK)‏MEK –Magyar és Nemzetközi Cikkek (MANCI)‏MANCI –OSZK Digitális Könyvtár (OSZKDK)OSZKDK –Magyar Digitális Képkönyvtár (MDK)MDK

10 Katalógusok •Két célközönség –Könyvtárosoknak –Olvasóknak •Mi és miért –”Ismert” mü vagy hivatkozás elöjegyzése –Mije van a könyvtárnak X-röl vagy Y tárgykörben –Irodalomtípusok, müfajok –Merre találom ezt vagy azt

11 Közös (osztott) katalógusok •Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.: –A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben –Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa)‏Libris –Pl. BURK (közmüvelödési könyvtárak közös katalógusa)‏ –Pl. Bibliotek.se (a Libris és a BURK együtt)‏Bibliotek.se

12 Z39.50 szabvány •Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy egy szerveren fusson a protokoll, a felhasználó gépén pedig a megfelelö keresöprogram (kliens). •A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ •Letölthetö az OSZK honlapjáról

13 OPAC •Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok –Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, amelyben van kölcsönzési (helyi és táv-), beszerzési, cirkulációs, statisztikai modul is •Katalógustípusok (példa)‏ –Szerzöi –Tárgy –Idörendi

14 Indexelö és referáló kiadványok •Típusai: –Tárgyköri, szakterületi –Földrajzi, regionális –Idö szerint korlátozott –Dokumentumtípus szerint korlátozott, stb.

15 Webes keresöszolgáltatások •Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat •Lehetövé teszik ilyen lapok teljes szövegü keresését •A világháló keresésének manapság ”legbarátságosabb”, legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.).WebcrawlerAltavistaYahooGoogle

16 Webes keresöszolgáltatások folyt •Három külön részböl állnak: –Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek mentén halad (vö. pók, csúszómászó)‏ –Indexelö – elemzi a honlapokat, információt csapat ki belölük, amelyet automatikus indexelésre és keresésre használnak –Keresömodul – felhasználói felület, amelynek funkcióival a szolgáltatás indexében keresni lehet

17 Felhasználói felület •Lehetövé teszi-e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb •Milyen keresöszintaxist enged meg a program? Boole-operátorok, szintakitikai operátor, csonkolás stb. •Tartozik-e hozzá egyszerü vagy bonyolult felhasználói interface? •Lehet-e vele keresni különbözö speciális indexekben? •Milyen rangsorolási / rendezési algoritmust használ?

18 Webkatalógusok (directory) •Ember-alkotta keresöeszköz •A katalogizálás valamilyen formája, hierarchikusan felépítve •A felhasználó akár egy szót kereshet, akár böngészhet (kattinthat) egy ismereti hierarchiában •Sokkal szükebb szakterületre, mint a ”szokásos” keresöszolgáltatások •Ilyen katalógust fenntartani drága és bonyolult •Példák: Infomine és Open Directory ProjectInfomineOpen Directory Project

19 Infomine GUI

20 Open Directory Project GUI

21 Speciális keresöszolgáltatások •Google ScholarGoogle Scholar •Google Books •ScirusScirus •Windows Live AcademicWindows Live Academic •Hírek •Térképek •Video, stb.

22 Google Scholar GUI

23 Scirus GUI

24 Metakeresök •Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt •Pl. Dogpile, Metacrawler, Metafind, Mamma MetasearchDogpileMetacrawlerMetafindMamma Metasearch •Asztali változat: CopernicCopernic •Az eredmények többféle módon szemléltethetök •Az eredmény csoportokra bontható, pl. klaszterálással: Yippy (korábban Clusty)Yippy Clusty •Megj. – metakereséssel mindig csak részleges találati listát kapunk, mivel az algoritmus a közös találati lista elsö 50 vagy 100 tételét fogja csak bemutatni

25 Dogpile GUI

26 Metacrawler GUI

27 Metafind GUI

28 Metasearch GUI

29 Információtechnológia •Technika a különbözö adatformátumok begyüjtésére, tárolására, feldolgozására, publikálására és prezentálására •Nem azonos az információtudománnyal •Nem azonos a könyvtártudománnyal •Nem azonos a szakinformatikákkal (könyvtári, régészeti, néprajzi, turisztikai stb.)

30 Információs rendszer •Az adatkezelés, a.m. begyüjtés, feldolgozás, tárolás és terítés müveleteit végzö rendszer •Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki felszerelést, mind az emberi tevékenységet

31 Kapcsolat adatbázissal •Képernyö (felhasználói felület, user interface)‏ –Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk –Így nézhetnek ki: •Szöveg- / parancsalapú •Menüalapú •Formanyomtatvány (kérdöív)‏ •Web interface •Kombinációik

32 Kapcsolat adatbázissal folyt •Keresönyelv –Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést – A webalapú interface értelmezi, mit akarhatott a felhasználó, mit jelenthet a kérdés –Példák: UB könyvtár adatbázisokUB könyvtár adatbázisok

33 Parancsok •Rendesen a következök lehetnek: –A keresés parancsa (Search, Find, keress stb)‏ –Boole- (logikai) -operátorok –Szintaktikai (közelségi) operátorok –Csonkolás –Maszkolás –Mezökeresés (kitüntetett mezök)‏ –Szükítési lehetöségek (idö, nyelv, dok típus, stb)‏

34 Boole- (logikai) operátorok •NEM –Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak a kutyáról szóló dokumentumok •ÉS –Kutya ÉS macska = csak a mindkettöt tartalmazó dokumentumok (is-is)‏ •VAGY –Kutya VAGY macska = vagy egyiket, vagy a másikat, vagy mindkettöt tartalmazó dokumentumok

35 A logikai operátorok müveleti sorrendje •Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet •Mint a matematikában •NEM > ÉS > VAGY –Volvo VAGY Saab ÉS export –(Volvo VAGY Saab) ÉS export

36 Szintaktikai (közelségi) operátorok •A szavak közti viszonyt fejezik ki: –X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít. –NEAR – A szavaknak egymáshoz közel kell állniuk, a sorrendjük mellékes. A táv megadható NEARn formában, ld fent. –SAME – A szó ugyanabban a mezöben (adataelemben) szerepeljen, pl. Web of Science Web of Science

37 Csonkolás és maszkolás •Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya  pulikutya, agárkutya, kutya vs kutya$  kutya, kutyakaja, kutyasampon stb. •A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke  Gizike, gözeke •A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet

38 Mezökeresés •A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl •A legtöbb adatbázis elöre meghatározza a kereshetö mezöket és sorrendjüket (akár az egész bibliográfiai tételben, akár a kulcsszavakra szükitve stb)‏ •A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím, referátum, tárgyszó, ill egyre gyakrabban teljes szöveg). •Probléma: zaj – hogyan mérjük a relevanciát? •Információkeresés hatékonyságának mérése a vektormodellnél

39 A keresökérdés szükítése, bövítése •A keresökérdés a felhasználói probléma szurrogátuma •A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére –Sok rendszer, sok profil •A legtöbb adatbázisban lehetöség van arra, hogy a keresökérdést szükítsük vagy bövítsük: –Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve –Nyelv szerint –Dokumentumtípus szerint: cikkek, könyvek, konferenciakiadványok stb

40 Szemantikai problémák a keresési folyamat során •A 60-as évek angol autóira keresek •Az ”angol autók" ÉS 1960-as évek nem dob ki olyan találatokat, amelyekben a fenti kifejezések nem szerepelnek, pl Bentley és •A Bentley angol márka (hiponimia)‏ •1962 az 1960-as évek része (meronimia)‏

41 A keresökérdés szükítése, bövítése folyt •Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban)‏ •A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre •Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns találatok száma nö •Vagyis a találati halmaz számossága a találatok pontossága rovására nö •Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ

42 Keresés és böngészés Keresés –Precíz kérdés, válaszok a relevancia rangsora szerint –Releváns válaszok korlátozott számban –Kellenek hozzá jól definiált fogalmak (ilyenek pl. az ”egzakt tudományokban” vannak)‏ –Átfogó keresés lehetösége megvan Böngészés –Új területek megismerésére –Még hiányoznak a szójegyzékböl a megfelelö keresöszavak –Àtfogó keresésre esetlegesen alkalmas –A hiányosan definiált ún ”puha tudományokban”, szakterületeken müködik jól

43 Keresöstratégiák A problémamegoldás heurisztikus eljárásai rendkívül fontosak az on-line keresésben. Fajtái: •Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ •Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ •Egymásutáni leválogatás (successive facets, successive fractions)‏ •”Kályha-módszer” (most specific fact)‏ •Páronkénti leválogatás (pairwise facets) •Többszörös egyszerû gyorskeresés (multiple briefsearch) •Hólabdakeresés ([citation] pearl growing)‏ •Pontos megfeleltetés (exact match)‏

44 Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ • Egyszeri, Boole-operátorokkal végzett rövidre szabott keresés, hogy elõzetes képet kapjanak az adatbázis rekordjainak a kérdéssel kapcsolatos jellemzõirõl • A felhasználó által közvetlenül megadott kifejezésekkel vagy azok csonkolt változataival hajtják végre; az utóbbi esetre akkor kerülhet sor, ha ismerünk legalább egy témába vágó szerzõt, címet, kiadót stb. • A kapott találati tételekbõl megállapítható számos, az adatbázisban a vonatkozó témával összefüggésben használt deszkriptor, mellyel a részletes keresés folytatható •Nem akar többet, mint: –Meghatározott számú tételt –Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg)‏ –Ötleteket a további mazsolázáshoz

45 Keresöfogalmak alkotása (építökocka- technika, building blocks)‏ •(...) 4. A legfontosabb keresõkifejezések vagy összetevõk és a közöttük fennálló logikai ÉS, VAGY, NEM kapcsolatok megállapítása. •5. a) Az egyes keresõfogalmakat jelölõ keresõkifejezések megállapítása: szavak, szöveges kifejezések, szótöredékek, deszkriptorok, azonosítók, kódok, nem szemantikai jellegû bibliográfiai ismérvek. •5. b) A mezõ meghatározása, melyben keresni kell. •6. Minden önálló keresõfogalom (építõkocka, fazetta) részére az építõkockán belül meg kell szerkeszteni az ismérvláncok halmazát. Az egyes építõkockákba összevont keresõkifejezések között a VAGY operátort használjuk. •7. Az egyes építõkockákat ÉS, NEM (esetleg VAGY) operátorokkal összekapcsoljuk. (...) Forrás: Stephen Harter: Online információkeresés: Fogalmak, elvek és technikák. In: Ungváry Rudolf – Orbán Éva /szerk./: Osztályozás és információkeresés II. (OSzK) Budapest,

46 Keresöfogalmak alkotása (építökocka- technika, building blocks)‏

47 •Tehát felosztja a keresökérdést alkotóelemeire, utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény?”

48 Amphetamine (1967) [+] •Use For •Amphetamine (dl-) (1973) •Amphetamine Sulfate (1973) •Benzedrine (1973) –Broader Terms •Adrenergic Drugs [+] •Appetite Depressing Drugs [+] •CNS Stimulating Drugs [+] •Dopamine Agonists [+] •Sympathomimetic Amines [+] •Vasoconstrictor Drugs [+] –Narrower Terms »Dextroamphetamine »Methamphetamine »Related Terms »Phenethylamines

49 Minimal Brain Disorders (1973) Use Instead Attention Deficit Disorder with Hyperactivity •Attention Deficit Disorder with Hyperactivity (2001) –Use For ADHD (2001) Minimal Brain Disorders (1973) –Broader Terms –Attention Deficit Disorder [+] •Related Terms –Attention Span –Distractibility –Hyperkinesis –Impulsiveness –Mental Disorders [+] –Oppositional Defiant Disorder

50 PsycINFO: Age Index •adolescence (13-17 yrs) •adulthood (18 yrs & older)‏ •aged (65 yrs & older)‏ •childhood (birth-12 mo) •infancy (2-23 mo) •middle age (40-64 yrs)‏ •neonatal (birth-1 mo) •preschool age (2-5 yrs) •school age (6-12 yrs) •thirties (30-39 yrs)‏ •very old (85 yrs & older)‏ •young adulthood (18-29 yrs)‏

51 Egymásutáni leválogatás (successive facets, successive fractions)‏ •A teljesség növelésének heurisztikus módszere, hogy valamelyik kész építõkockát (keresõfogalmat reprezentáló kifejezések csoportját) töröljük és a maradékkal keresünk. •Ez persze a leggazdaságtalanabb eljárás, hiszen gondosan megszerkesztett építõkockáról mondunk le.

52 Páronkénti leválogatás (pairwise facets) •Ha mindegyik keresõfogalom (építõkocka) nagyjából azonos mértékben specifikus, azaz egyformán fontos, akkor páronként képezhetjük metszetüket. •A találati eredményeket vagy külön- külön (a páronkénti keresés eredményeként), vagy az egész keresési folyamat uniójaként nyomtathatjuk ki.

53 Többszörös egyszerü gyorskeresés (multiple briefsearch) •Ezt a stratégiát a páronkénti leválogatás esetéhez hasonlóan akkor célszerû követni, ha az összes specifikus keresõfogalom metszetének eredménye várhatóan a nullához közelít. •Alapelve, hogy több adatbázisban kell egyszerû, nagy visszahívással járó gyorskeresést végezni. •Ezáltal nagyon különbözõ jellemzõket kapunk, ami a keresés témáját illeti, melyet a további lépésekben hasznosíthatunk. Ugyanazt a tárgykört az egyes adatbázisokban ugyanis más-más módon osztályozzák (indexelik) és dolgozzák föl formai szempontból. •Ezáltal sok olyan jellemzõt megállapíthatunk, melyeket egyetlen adatbázisból körülményesebb kielemezni.

54 ”Kályha-módszer” (most specific fact)‏ •A legszükebben releváns kulcsszóval kezdünk, fokozatosan szélesítjük a kérdést, a keresöszavakat VAGY-gyal kombinálva, mintha a kályhától: –Volvo –Volvo VAGY Saab –Volvo VAGY Saab VAGY buszok –Volvo VAGY Saab VAGY buszok VAGY teherautók

55 Hólabdakeresés ([citation] pearl growing)‏ Ezt a stratégiát olyankor célszerû használni, ha nagyon kevés találatot várunk. Ellentétben az eddigiekkel, itt nem a nagy visszahívással kezdünk, hanem éppen ellenkezõleg. A leggyakoribb, hogy a felhasználó megadja az egyik, általa ismert és a tárgyba vágó dokumentum adatát, melyet kikeresünk. Ebbõl megállapítható, milyen ismérvek (deszkriptorok, tárgyszavak, jelezetek) reprezentálják a tartalmát – tehát a keresett tárgy fogalmát. Most már ezekkel végezhetõ a keresés, hogy még több hasonló adathoz jussunk stb. Gyakori, hogy a hólabdakeresést hivatkozási indexben végzik. •Pl. olyan ismert tételböl indulunk ki, amelyröl tudjuk, hogy releváns. Mely kulcsszavak használhatók? –Írt a szerzö mást is? –Melyik folyóiratban publikálta? –Van a dokumentumnak osztályozási jelzete? –Melyik folyóirat referálja a dokumentumomat? –Idézik-e mások is a dokumentumomat?

56 ”Pontos megfeleltetés” (exact match) •Pontos kérdésre pontos választ keres. •Ez a legkönnyebb? –”Koppenhágában 2001-ben tartottak a cukorbetegségröl egy konferenciát. Megvan a kiadvány a könyvtárban?”

57 A föbb stratégiák összefoglalása •Egyszerû gyorskeresés A ÉS B = Találati halmaz •Keresõfogalmak alkotása Aa VAGY Ab VAGY Ac = 1. halmaz (nagy halmaz) Ba VAGY Bb VAGY Bc = 2. halmaz (nagy halmaz) Ca VAGY Cb VAGY Cc = 3. halmaz (nagy halmaz) 1. halmaz ÉS 2. halmaz ÉS 3. halmaz = Találati halmaz •Egymás utáni leválogatás A ÉS B = 1. halmaz (nagy halmaz) A ÉS B ÉS C = 2. halmaz (az 1. halmaz származtatott része) A ÉS B ÉS C NEM D = Találati halmaz •Páronkénti leválogatás 1. FOGALOM ÉS 2. FOGALOM = B találati halmaz 2. FOGALOM ÉS 3. FOGALOM = C találati halmaz 3. FOGALOM ÉS 1. FOGALOM = A találati halmaz A találati halmaz VAGY B találati halmaz VAGY C találati halmaz = Végsõ halmaz •Többszörös egyszerû gyorskeresés 1. adatbázisban: A ÉS B = 1. találati halmaz 2. adatbázisban: A ÉS B = 2. találati halmaz 3. adatbázisban: A ÉS B = 3. találati halmaz •Hólabdakeresés Formai adat keresõszóként = 1. találati halmaz (1 vagy néhány találat/formai adat) 1. találati halmaz formai adatai = 2. találati halmaz (több találat/formai adat) 2. találati halmaz formai adatai = 3. találati halmaz (sok találat/formai adat) A további kereséshez a tételeket jellemzõ tartalmi ismérvek alapján állapítjuk meg a tartalmi keresõkifejezéseket.

58 58 2. Automatikus indexelés •Csak szövegessel foglalkozunk, képre: vö. ICONCLASS vs szimmetria [következö kép, lazításnak])‏ICONCLASSszimmetria •Algoritmikus eljárás, mely a dokumentumokból indexelésre alkalmas kifejezéseket választ ki. Az információkereséssel (information retrieval, IR) kapcsolatban is használatos –Algoritmus: parancsok véges sorozata, amely bemenö adatokból (input) kimenö adatokat (output) készít –Számítógépes program, amely a fenti algoritmusra épül és amely az indexelést végzi

59 Indexelés tapétacsoporttal A tapétacsoportok kutatása a szimmetria, közelebbröl a csoportelmélet feladata. A természetben és a kultúrában számos olyan forma van, amelyeket objektumok indexelésére lehet használni.

60 60 Bevezetés folyt •Miért használják? •Gyorsabb a kézi indexelésnél. Nagy teljes szövegü állományoknál a kézi indexelés gyakorlatilag amúgy is lehetetlen •Konzisztens, következetes eredmények •Az állomány ”elöszervezésével” javíthatja az IR hatékonyságát –Egy keresökérdés vonatkozásában, milyen jó a rendszertöl kapott válasz?

61 61 Index •Legyen D = {d 1, d 2, …, d N } az adatállomány (adatbázis)‏ •Információkeresés elött (de osztályozás elött is) D szövegszavaiból indexet kell készíteni. Ezeket a szavakat választjuk ki gép segítségével •Az index fontos adatstruktúra, kell a gyors kereséshez. A keresés ugyanis az indexben történik, nem a dokumentumban •Formája gyakran az ún invertált file –Azért invertált, mert a szót elörevetjük, utána jönnek az azonosítók

62 62 Index folyt …kutya… …macska… d5d5 d 80 kutya macska Index (normalizálva/szótövezve)‏ Dokumentumok (D)‏ Szövegszavak (morfológiai változatokkal)‏

63 63 Az indexelés lépései •Lexikai elemzés – ebben a folyamatban a bemenö adatokat szimbólumokká alakítjuk át •D dokumentumait egyetlen hosszú karaktersorozatnak tekintjük, amelyben kis- és nagybetük, számok, írásjelek stb fordulnak elö. A program ebböl az ”adatfolyamból” emel ki nagyobb, egységesített darabokat, amelyek a bemenö adatsor részeit jelképezik. Ezeknek a szimbólumoknak a halmazát nevezzük lehetséges indexkifejezéseknek •Ellentétük a letiltott szavak jegyzéke (stopwords). Pl töltelékszavak (vö szógyakorisági ábra)‏ •Valójában a tiltójegyzékkel a mondatot összetartó funkcionális szavakat dobom ki

64 Indexelés szógyakoriság alapján •Már az 1950-es években gondoltak rá, hogy a szövegszavak gyakorisága a dokumentumokban alkalmas a megkülönböztetésükre •Luhn, H. (1958). The automatic creation of literature abstracts. •A Zipf-törvény szellemében: egy szóalak gyakoriságának és a gyakorisági rangsorban elfoglalt helyének a szorzata közel konstansZipf-törvény •De: a magyar ragozó nyelv, nekünk viszont a szótövek kellenek

65 Szótövezés, normalizálás •Szótövezés: levágom a ragokat, az elötagokat, mint pl az igekötö (ha útban van)‏ –Olyan, mint a csonkolás –Karóra? Honnan tudja, hogy elérte már a szótövet? •Normalizálás: a betüzési, helyesírási variánsokat hozza egységes alakra •Mindkettönek a keresést szélesítö, bövítö hatása van

66 Egy szó szétválasztó képességének mérése •A 40-es évek végén Claude Shannon (Bell Labs) kitalált egy mértéket arra, mennyi információ van egy szignálban  információs entrópia •Ennek a képletnek egy módosításával mérni lehet, mennyire jellemzö egy- egy indexkifejezés különbözö szakterületekre (mennyire használható a megkülönböztetésükre)‏ •Teljes szövegböl készült indexre alkalmazva ezt, kiderül, hogy a letiltott szavak kapják a legalacsonyabb értéket, vagyis ezek éppen azért lettek kitiltva, mert nem osztályképzök

67 Az indexelés folyamata •Hogy az osztályozandó dokumentumok indexelése hatékony legyen, ismernünk kell a szótár méretét és változatosságát •Két lehetöségünk van: –Megpróbálhatunk több rokon kifejezést egy közös fogalom vagy ”szupertárgyszó” alá rendelni –Kiszürhetjük azokat a szavakat, amelyekben nincs elég ”megkülönböztetö erö” az adott osztályok vonatkozásában

68 Szemantikai mélyindexelés (latent semantic indexing, LSI)‏ •Statisztikai eljárás, alapja az a megfigyelés, hogy a hasonlóan használt szavak jelentése is hasonló •Vö Wittgenstein: ”meaning is use”, ”a jelentés a használat módjában rejlik” •Sokváltozós statisztikai módszerekkel a hasonló szövegkörnyezetben használt szavakat ”rávetíthetjük” egyetlen reprezentánsra, amelyet a vonatkozó kifejezések fölöttes fogalmával azonos. Ez a reprezentáns a háttérváltozó, egy mesterséges új koordinátatengely •Ennek a módszercsaládnak sok tagja van, pl a faktoranalízis vagy a (kb) sajátértékfelbontás (singular value decomposition, SVD)‏ •Így a dokumentumokat nem az eredeti kifejezésekkel, hanem fölöttes fogalmaikal indexelhetjük

69 Szemantikai mélyindexelés folyt •A hasonló elöfordulási mintázatú (kontextusú) indexkifejezéseket egy közös reprezentánsra vetíti foci BEK FIFA futball

70 (Svéd) tárgyszavak osztályozása szemantikai mélyindexeléssel •Stresshantering Hjärtinfarkt Rehabilitering Livsstil Livskvalitet Hjärtrehabilitering Könsskillnader_sjukvård •Djurförsök Försöksdjur •Hypertoni Högt_blodtryck Blodtryck •Mongolism Medicinsk_genetik Genetik_medicin Utvecklingsstörda Psykiskt_utvecklingsstörda Downs_syndrom Förståndshandikappade Medicin_historia •Miljöförstöring Hälsorisker Gifter Miljögifter •Hjärt-kärlsjukdomar Kolesterol Blodfett Hjärtsjukdomar Kärlsjukdomar Blodfettsänkande_behandling •Fingerborgsblomma Digitalis_purpurea Medicinalväxter •UV-strålning Solbränna Ultraviolett_strålning Solskyddsmedel Cancer Hudcancer Malignt_melanom Melanom •Sårbehandling Fotvård Skavsår

71 Az indexkifejezések szürése •A másik lehetöség, hogy kiszürjük azokat a szavakat, amelyek ”túlságosan” ott vannak két osztályban, és ezért nem alkalmasak arra, hogy megkülönböztessék öket •Kérdés: ”Ha csak ez az egy szót ismerjük (= fordul elö), mennyire következtethetünk belöle arra, melyik osztályba tartozik a dokumentum?” •Ezt úgy tudhatjuk meg, ha megmérjük, mennyi információ van egy osztályban vele vagy nélküle •Ezt a különbséget ”információs többletnek” (information gain, IG) hívják és a Shannon-féle entrópiából vezethetö le •A letiltott szavak IG értéke alacsony

72 Dokumentumok automatikus indexelése – meghatározás •A dokumentum és a leíró jelzetek (dokumentumoknál: tárgyszavak) között hoz létre egy leképezést •Legyen D egy dokumentum-halmaz •Legyen V az indexkifejezések szótára Ψ : D x V → [0, 1] •Ez a vektorteres IR modell alapja is (vö bináris mátrix)‏

73 Vektormodell •Egy adatbázis minden dokumentumát n-dimenziós vektornak tekintjük ahol n a tárgyszavak száma a szótárban •d j = (w 1j, w 2j, …, w nj )‏ •Mindegyik w ij súly a t i -dik tárgyszó jelentését méri a d j -dik dokumentumban •Tf·idf-módszerek (mindjárt jönnek)‏

74 Mátrix példa meccsgyöztesfutballvesztesbíró d1d1 0,80,50,00,70,6 d2d2 0,1 0,70,10,2 d3d3 0,3 0,50,40,6 d4d4 0,80,90,40,50,8

75 Tárgyszavak súlyozása •A pl 0,5 értéket a relációban (a függvényben)‏ (d1, gyöztes) --> 0,5 a tárgyszó súlyának nevezzük a dokumentumban •Ez az érték annál nagyobb, minél erösebb a kapcsolat a dokumentum és a tárgyszó között •Egyszerü súlyozás: 0 vagy 1 (bináris)‏ •A tárgyszavak súlyozását gyakran a szó elöfordulásának gyakoriságára építjük (tf-idf = term frequency-inverse document frequency)‏ •A tf-idf mérték régóta használatos az automatikus indexelésben, és két elv kombinálására épül: –Egy tárgyszó akkor jelent valamit a dokumentumban, ha sokszor fordul elö –Egy tárgyszó akkor jelent valamit egy adatbázisban, ha kevés dokumentumban fordul elö (tartalom-terjedelem fordított aránya)‏

76 Deszkriptorokkal végzett müveletek •Már volt: –Mivel a morfológiailag gazdag nyelvek, mint a magyar, esetében hasonló jelentések kapcsolódnak hasonló szóalakokhoz, az indexelés minösége javítható szótövezéssel (= a szóalakot a szótöre csonkoljuk)‏ –Letiltott szavak (stopword) listája •Szintén volt, de másként, vö. LSI: –Tárgyszavak szürése (feature selection)‏ –Deszkriptorok átalakítása (descriptor transformation, dimensionality reduction)‏

77 Deszkriptortranszformáció •Elöfeltevés: ha egy adatbázisban egy szónak az ”elöfordulási mintázata” megegyezik másokéval vagy hasonlít rájuk, akkor a szóalakok jelentése is hasonlít(hat)‏ •Az ilyen ”mintázatot” pl faktoranalízissel elemezni lehet, vagyis az egymással összefüggö tárgyszavakat egy háttérváltozóra (faktorra) tudjuk vetíteni •A szemantikai mélyindexelés az eredeti vektorteret egy egyszerübb szerkezetü új vektortérré alakítja át, amelyben a dimenziók (= koordinátatengelyek = háttérváltozók) a tárgyszavakat összefoglaló fogalmaknak felelnek meg

78 3. Automatikus osztályozás •Felhasználási területek –Spam szürés –Szerzö azonosítása –Keresési eredmények klaszterálása –Felhasználói visszajelzések csoportosítása –Dokumentumtípus (müfaj) azonosítása –Képek indexelése –…

79 Az automatikus osztályozás célja •Géppel úgy csoportokba osztani az anyagot, mintha gyakorlott szakember osztályozta volna •Az eredményt hasonlítjuk össze, nem a hozzávezetö utat •Szellemi tevékenység modellezése matematikával (újabban fizikával, kémiával is)‏

80 Automatikus osztályozás •A gépi tanulás egyik alkalmazási területe •Az eljárás röviden: az osztályozó (classifier) nevü algoritmust arra tanítjuk, hogy felismerje egy bizonyos tartalom-fajta és az annak megfelelö osztály közötti kapcsolatot •Az osztályozó algoritmus ”emlékezetébe vési” az osztályok közötti különbségeket, paraméterkombinációk formájában tárolja, és a dokumentum hovatartozását a dokumentum meg az osztály tartalmi mintázatának egybevetésével dönti el •Az ebböl a döntésböl származó matematikai kifejezést emiatt döntési függvénynek nevezzük

81 Automatikus osztályozás folyt •A döntési függvény pl olyan geometriai határvonalként szemléltethetö, amelyet paraméter- értékek egy halmaza határoz meg •Egy másik népszerü megoldás, ha valószínüségi döntési függvényt használunk, ami megmondja, mennyire várható, hogy egy dokumentum egy bizonyos osztályba tartozik

82 Osztályozó algoritmusok fajtái •A geometriai válfaj a dokumentumokat a (néha nagyon) sokdimenziós tér pontjaiként modellezi, és olyan alapvetö mértékek segítségével osztályozza öket, mint a távolság meg a szög Példa: segédvektoros módszerek (support vector machines, SVM) •A valószínüségi válfaj olyan fogalmakat használ, mint az esemény meg az esély, s az osztályba tartozás korábbi adatai ezek alapján tippeli meg egy leendö osztályozás valószínüségét Példa: Bayes-féle valószínüségi osztályozók

83 Segédvektoros eljárás (SVM)‏ •Különösen sikerült geometriai eljárás, amely két ötletre épít: –Keressünk olyan döntési függvényt, amely annyira szétválasztja az osztályokat, amennyire lehetséges –Másoljuk át a pontokat egy nagyobb térbe, amelyben ez a (lineáris) szétválasztásuk könnyebben ábrázolható

84 Automatikus osztályozás Hilbert-térben •Hilbert-tér: a kvantummechanika elméletének fejlesztésére David Hilbert és Neumann János által bevezetett új, potenciálisan végtelen dimenziós vektortér, amelyben a részecskék viselkedése tanulmányozható •Az SVM, egy új regressziós ill osztályozási eljárás, a Hilbert-térben éri el, hogy a dokumentumok maximálisan elkülönüljenek az adatokban megnyilvánuló osztályokba •KisfilmKisfilm

85 •Legyen D egy dokumentum-halmaz •Legyen C egy kategória (osztály)-halmaz •Az ”igazi” osztályozás egy függvény, Φ : D x C → {0, 1} •Az automatikus osztályozás gépi tanulást alkalmaz Φ becslésére •A becsült Φ jele: Φ’ Dokumentumok automatikus osztályozása – meghatározás

86 Milyen lehet az osztályba sorolás? •“Egycimkés”: egy dokumentum csak egy osztályba tartozik •”Többcimkés”: dokumentumonként több osztály •Bináris osztályozás: a kategóriák halmazának, C-nek csak két eleme van, pl {-1, +1} –A spam-szürés pl bináris osztályozásból indul ki

87 A gépi tanulás szakaszai •Egy Φ-et közelítö Φ’ osztályozási függvény a dokumentumhalmazt három részre osztja: egy gyakorló- csoportra (training set), egy finomítási csoportra (validation set) meg egy tesztcsoportra (test set)‏ •A gyakorló-csoporton tanulja meg az algoritmus a Φ’ függvényt •A második csoporton Φ’ javítása, optimalizálása következik paraméterek finomhangolásával •Majd a teszten ellenörizzük Φ’ hatásfokát (kézzel elöosztályozott kontroll- anyagon)‏

88 A gépi tanulás típusai •Tanulás példa/támpont alapján (supervised learning): abból indul ki, hogy a rendszernek része a már kész oktatási anyag, illetve hogy a rendszer visszajelzést (”osztályzatot”) kap a munkája minöségéröl •Tanulás példa/támpont nélkül (unsupervised learning): kiindulási támpont és/vagy visszajelzés nélkül kell tanulni – csak a dokumentumok közötti hasonlóságok a kategóriák és a hozzárendelés (osztályozás) alapja. Klaszterálásnak (clustering) is hívják.

89 Osztályozási módszerek típusai •Példa-alapú (”lusta”) módszerek, pl a k-adik szomszéd módszere (k- nearest neighbour). Vannak kézzel osztályozott dokumentumaink, hogy a gépi osztályozás eredményével összehasonlítsuk, az algoritmus nem emlékszik a paraméterekre •Paraméter-vezérelt módszerek: a tanulási halmazból a módszer egy készletnyi paramétert tanul meg, utána a példákra már nincs szükség. Példák: Bayes-valószínüségi módszerek, neurális hálók, segédvektoros módszerek (SVM)‏

90 “Felturbózás” (boosting) •Viszonylag új módszer, nagyon jó teljesítménymutatókkal szövegosztályozáshoz •Az ún. gyenge osztályozási függvény, Φ 1 gyárt egy elözetes osztályozást a dokumentumhalmazunkra •Aztán egy új osztályozási függvény, Φ 2 olyan dokumentumokat keres, amelyeket Φ 1 korábban rosszul osztályozott – ismételten hibát keres és kijavítja •Az Φ 1, Φ 2, …, Φ n osztályozási függvények lineáris kombinációja egyfajta “szuperfüggvényt” csinál belölük

91 Az eredmények értékelése •Az osztályozási függvény kiértékeléséhez a dokumentumok teszthalmazát használjuk, ezekkel hasonlítjuk össze az eredményt •Pontosság (accuracy): a helyesen osztályozott tételek aránya •Pontosság (precision) és teljesség (recall)‏ –IR fogalmak is •Az ún. F-mérték a pontosságot meg a teljességet kombinálja paramétersúlyozással egy közös mértékké •Mikroátlagolás (microaveraging), makroátlagolás (macroaveraging)‏

92 4. Vektorteres információkeresés •Sokféle modell van, ez az egyik legnépszerübb (Gerald Salton 1975)‏ •Szervesen illeszkedik az automatikus indexelés és osztályozás gondolatköréhez (vö. értékelés)‏ •A szójelentést (szótárat) geometriai hellyé változtatja a sokdimenziós térben, a szemantikai hasonlóságot távolsággá ugyanott •Erre a helyre helyvektor mutat, a kérdés helyére is, hasonlóságuk mértéke a pontok közti távolság •A dokumentumok mint pontok koordinátái a vektor elemei; pl az indexkifejezések gyakoriságai •A tér dimenziószámát az adatbázis indexelésére használt egyedi szóalakok száma határozza meg •“Kiemelt” (markup) nyersanyagon (pl HTML) is müködik  web keresök

93 Vektortér-modell

94 A vektorteres IR modell elönyei •A Boole-algebrás kereséssel csak annyit kérdezhetünk, ”megfelel-e a keresökép egy bizonyos dokumentumnak?” Egyezik-e vele? •A vektorteres modellben a hasonlóságot geometriai eszközökkel mérni tudjuk, és azt is, hogy mennyire. A súlyozás a mérték •A dokumentumokat sorba tudjuk rendezni a hasonlóságuk mértéke szerint (mindig az adott keresökérdésre)‏ •Az indexkifejezések egymás közti (szótári) viszonyai geometriával tanulmányozhatók

95 Vektorteres információkeresés folyt •Érettségi tételÉrettségi tétel •A dokumentumokat mátrixban írjuk le, pl az oszlopvektorok dokumentumok, a sorvektorok indexkifejezések •A súlyozás lehet bináris vagy gyakorisági (pl tfidf) •Dokumentum és kérdés (keresökép, keresöprofil) mint helyvektor, amely pontra mutat (létezik irányvektor is!)‏ •Mind a dokumentum, mind a kérdés tehát pont a térben •Hasonlóságukat a távolságuk fejezi ki •A keresökérdés vektorához hasonló dokumentumvektorokat közelségük alapján rangsoroljuk (vö. relevancia)‏ •Két pont közelségét a helyvektoraik által bezárt szög koszinusza adja meg •Kérdés, mennyire modellezi a kérdést a vektor

96 Vektorteres információkeresés folyt • A vektorteres modellben a leggyakoribb hasonlósági mérték a dokumentumvektor és a keresökép vektora által bezárt szög koszinusza • Bármely szög koszinusza egyenlö két vektor normalizált belsö szorzatával, vagyis az a modellnek van egy geometriai meg egy algebrai értelmezése is

97 Az információkeresés hatékonysága • A keresés hatékonyságának mérésére legismertebb mérték a teljesség vs pontosság (egy keresökérdés vonatkozásában)‏ Teljesség: |Ra|/|R| Pontosság: |Ra|/|A| • Szöveges adatbázisban egymással fordítottan arányosak, faktografikusban egyenes az arány

98 5. A mély web és jelenségei •Fogalma: a “mély” (láthatatlan, rejtett) web a világháló tartalmának azt a részét jelenti, amelyet a nagy keresögépek vagy nem indexelnek, vagy nemigen találnak meg. Ellentéte a “felszini” web. A kereskedelmi keresögépek csak a statikus, bekötött oldalakat dolgozzák fel, ezért a fától nem látják az erdöt Fogalma •Èrdekességek: – szer nagyobb a látható webnél, a legnagyobb a havi növekedési üteme. –2000-ben becslés szerint kb 550 milliárd egyedi dokumentumot tartalmazott, szemben a látható web kb 1 milliárd dokumentumával. –A Google típusú felszini keresögépek a weben elérhetö tartalomnak csak kb 0.03% -át keresik. –A mély web tartalmának legalább 95 %-a szabadon hozzáférhetö. –A tartalom mélysége miatt 50 %-kal nagyobb a látogatottsága, mint a látható webnek. –A mély web tartalmának több mint a fele szaktudományi adatbázisokban van

99 A látható világháló ma •Az indexelt látható világháló 2010 november 16-án legalább 2.76 milliárd oldal volt •Forrás: WorldWideWebSize.com (a becslési algoritmus leírásával) •A Google, Bing, Yahoo, Ask mérései szerint is, idöben is változó a kép

100 A látható világháló ma Forrás: worldwidewebsize.com •Az indexelt látható világháló 2010 november 22-én legalább 2.77 milliárd oldal volt •A Google, Bing, Yahoo, Ask mérései szerint is, idöben is változó a kép •Algoritmus leírása a honlapon

101 Mély web folyt •Felszini (keresögépek) vs mély (adatbázisok a weben): két réteg –Felszini: A keresögép crawlere csak a honlapot gyüjti be és indexeli –Mély: Az adatbázisok indexeihez fér hozzá valós idöben, párhuzamos kereséssel •Vö hostok (DIALOG, ESA, DIMDI, stb.) adatbázisainak lekérdezése párhuzamosanDIALOGESADIMDI •Példák: US DoE OSTI, Science.gov, WorldWideScience.orgUS DoE OSTIScience.govWorldWideScience.org

102 Az indexelés mint társasjáték •Social tagging / folksonomy = folk + taxonomy •Népi mozgalom a web indexelésére •Példák: Delicious, FlickrDeliciousFlickr •Kedvelt hasonlat: jelzetfelhö (tag cloud)‏ •Az osztályok átrendezödö súlypontjai miatt dinamikus osztályozás (vö. Salton, SMART, cluster centroid)‏ •Egyfajta statisztikus osztályozás: sokak véleménye játszik bele, mi minek minösül

103 Del.icio.us GUI

104 Egy oldal különbözö indexelése

105 Flickr GUI

106 Osztályozás és láttatás: Tag GalaxyTag Galaxy •A Flickr anyagából •Elözetes, kézi osztályozást (a fényképek társas cimkézését) teszi át térbe •Vizuális metafora: csillagközi tér •Forgatható, nagyítható •Az egyes képeket meg lehet nézni •Átvezet az információ, ezen belül az osztályozás vizualizálásához

107 6. Az információ láttatása •Célja, hogy látvány/grafika segítségével mutassa meg az adatokban rejlö struktúrákat (szabályosságokat, mintákat) •Kapcsolódik az automatikus osztályozáshoz •Friss példa: Visalix (Xerox)‏Visalix

108 Az információ láttatása folyt •Keletkezö K+F szakterület, meglehetösen összevissza még, benne ember- számítógép kapcsolat (human-computer interaction, HCI), grafikus arculattervezés, információmenedzsment, információarchitektúra •Meghatározás (Lengler & Eppler 2007): ”Vizualizálási módszeren olyan rendszerszerü, szabályalapú, külsö, permanens grafikus ábrázolást értünk, amely az információ átlátását, megértését és kommunikálását elösegíti” •Az IV módszerek is osztályozhatók •Az IV módszerek a komplexitást (a tartalom folytonosságát) térbeli/idöbeli szerkezetekkel fejezik ki

109 Taxonómia: The periodic table of visualization methods (Lengler & Eppler 2007)‏The periodic table of visualization methods

110 Egy másik taxonómia: VisualComplexityVisualComplexity

111 Egy harmadik: Atlas of CyberspaceAtlas of Cyberspace

112 Térbeli szerkezet: ”karfioltér”

113 Idöbeli szerkezet: ”jelzetfelhök” (tag clouds)‏”jelzetfelhök” (tag clouds)‏

114 A láttatás szerepe folyt •Az IV vizuális metaforákat használ (pl a periodikus tábla is hasonlat)‏ •A képen látható szituációt valami ismerthez hasonlítva, a láttatás megkönnyíti a megértését (a szituáció itt az entitások közötti relációk összessége, pl része-egésze reláció) •Példa: iratok a dossziéban, dosszié az iratszekrényben, iratszekrény a részlegben, részleg a könyvtárban, stb •Egy jó metafora összetett tartalmat fejez ki egyszerüen. Pl egy metrótérkép vagy egy történet hatékony templátok (elöképek). •A képi metafora funkciója kettös: –Elhelyezi az információt, hogy szervezze és strukturálja, –A metafora révén hangsúlyozza a kulcsmozzanatokat.

115 Vizuális metaforák •Kutatási kulcsprobléma: hogyan lehet kifejezö, hatékony vizuális metaforákat találni, amelyek elvont tartalmat képre fordítanak le •A metafora az ösvény, amely a már értettöl a megértendöhöz vezet •Típusok (Eppler – Burkhard 2004)‏ –Természeti jelenségek (hegy, fa, szakadék, gyémánt, tornádó, vízesés, tüzhányó, folyó, barlang stb)‏ –Ember-alkotta tárgyak (mérleg, létra, kerék, út, híd, ernyö, vödör, inga, trójai faló stb)‏ –Cselekedetek (hegymászás, séta, halászat, vadászat, aratás, stb)‏ –Fogalmak (család, béke, káosz, fraktál, fenntarthatóság stb)‏

116 ”A tárgyalások hídja”

117 ”A piac mint lépcsösor”

118 Néhány GUI alternativa (LIVA projekt, ) ‏LIVA projekt •Három metafora és a kapcsolódó módszerek: –Térkép, térképészet  tematikus domborzat –Fogalmi tér  3-d információcsillagászat, dokumentumgalaxisok –Rugó  dokumentumok és keresöképek eloszlása vonzás-taszítás eröegyensúlya alapján (force-directed placement, FDP); fejlödö osztályozási tér (”karfiotér”)‏ •Mind térszerkezet, de az FDP idöbeli is

119 Domborzat 1 Tematikus táj: Burk Oh [=Sociala frågor och socialpolitik] 544 x 8928, SVD k=100, QC σ =0.5,1-2. fötengely, összes dokumentum

120 Domborzat 2

121 Domborzat 3

122 Domborzat 4

123 Dokumentumgalaxis 1: BURK Ph [= Träteknik och träindustri] 432 x 1251, az elsö 200 dokumentum (szemantikai mélyindexelés alapján)‏

124 Dokumentumgalaxis 2: az elsö 200 dokumentum 16 különbözö fogalmi altérben

125 Eröegyensúly (FDP)‏ •Rugó, vonzás-taszítás, erös magerö taszítás nélkül – fizikai erötípusok, amelyek a dokumentumok csoportosulásának (az osztályozás önszervezödésének) modellje lehetnek •Pl a taszítás a dokumentum hosszával arányosan nö, a vonzás a relevanciával arányosan •Az a legjobb elrendezés, ahol az energiatartalom minimális (a lejtö alján)‏ •Pl az IR folyamat egyes lépcsöit láttathatja, integrálja az IV-et az IR-rel

126 ”Karfioltér” 1: keresöképek •1. kérdés: visualisation colour graphics •2. kérdés: 3D surface graphics –Két dokumentum köszös a két kérés között

127 ”Karfioltér” 2: keresöképek •3. kérdés: agents –A 3. kérdésre az elsö 50 dok halmaza nem fed át az 1-2. kérdés találati halmazaival, amelyek megtartják eredeti szerkezetüket, míg az új halmaz tölük elkülönül. •4. kérdés: collaborative agent visualisation –Mivel ez erösen kapcsolódik mind a 3. (agents), mind az 1. (visualisation colour graphics) kereséshez, a találati halmazaik automatikusan összekapcsolódnak, balról jobbra ebben a sorrendben: agents, collaborative agent visualisation, visualisation colour graphics, és 3D surface graphics.

128 A LIVA GUI prototípus

129 IV összegzés •Tárgyszó- és dokumentum-szigetek, fogalmi csillagképek: magasabbfokú morfológiák •Az információrobbanás is metafora, az ösrobbanásé. A tágulás (vö. mély web) következtében dokumentumgalaxisok keletkeznek és rendezödnek át, amelyeket térképezni kell •A fogalmi dinamika (nyelvfejlödés) problémája: változó osztályozásokváltozó osztályozások •A nagyságrendek és a kommunikáció kérdése: felfog-e a nyelv mindent, fogalmakkal minden leírható-e?


Letölteni ppt "Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék."

Hasonló előadás


Google Hirdetések