Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Osztályozási rendszerek, információkereső nyelvek II

Hasonló előadás


Az előadások a következő témára: "Osztályozási rendszerek, információkereső nyelvek II"— Előadás másolata:

1 Osztályozási rendszerek, információkereső nyelvek II
Darányi Sándor SZTE BTK Könyvtártudományi Tanszék

2 Osztályozás és információkeresés
Elöljáróban: Az ínformációkeresés felfogható ad hoc osztályozásnak is A felhasználó pillanatnyi érdeklödése a szurrogátum, az ennek megfelelö találatok osztályát keressük Ahogy változik az érdeklödés, úgy kerülnek más osztályok elötérbe Ehhez a WWW a könyvtár

3 Automatikus indexelés Automatikus osztályozás Információ vizualizálás
Alkalmazási területek Automatikus indexelés Automatikus osztályozás Információkeresés Információ vizualizálás

4 Az elöadás tartalma Információkeresés a gyakorlatban
Automatikus indexelés Automatikus osztályozás Vektorteres információkeresés A mély web és jelenségei (idöben változó fogalmi térképek)‏ Az információ láttatása

5 Nem részletezett problémák
Powers of ten (“A tizes hatványai”, video): miröl van szó? Az univerzum mérete 1035 m, az emberi nagyságrend a 100 m, a kvantumfizika 10-8 m körül, a mérhetöség határa m, az extrapolációk határa m: ott “van/történik” valami m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, amely agyi tevékenységünkért felelös Mire képes az információelmélet?  IR, IV (vö. Lem, Az Úr hangja, kb 78 old.): “nem keresni kell, hanem kiszürni a feleslegeset” Mire képes a nyelvábrázolás? Milyen matematikai objektumok mennyit bírnak el? Mit tesz a szokás? Vö. Beethoven V. szimfónia másképp

6 1. Információkeresés a gyakorlatban
A könyvtár legfontosabb információ-keresési eszközei Bibliográfiák Katalógusok Indexelö és referáló kiadványok Adatbázisok Nyilvántartások Keresömotorok és webkatalógusok Eftersom databaser blivit allt mer viktiga kommer jag ägna dessa särskild uppmärksamhet, senare. 6

7 Bibliográfiák Hagyományosan a könyvtár legfontosabb keresöeszköze
Az irodalmat leíró listák rendezési elve: tárgykör szerzö nyelv idötartam (periódus, korszak)‏ különgyüjtemények kiadók dokumentumtípus

8 Az OSZK adatbázisai (példák)‏
A MNB adatbázisai   Katalógusok: NEKTÀR (OSZK online katalógus)‏ MOKKA (Magyar Országos Közös Katalógus)‏ Hungarika adatbázisok AV kötelespéldány EPA (Elektronikus Periodika Archivum)‏ IKER (Magyar Idöszaki Kiadványok Repertóriuma)‏ NPA (Nemzeti Periodika Adatbázis)‏ För mer information om vad databaserna innehåller – gå till Libris specialdatabaser. 8

9 Az OSZK adatbázisai folyt (példák)‏
Gyüjtemények: Törzsgyüjtemény (Könyvek / idöszaki kiadványok)‏ Különgyüjtemények (kéziratok, kisnyomtatványok, térképek, szinháztörténet, zenemüvek stb.)‏ Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok)‏ E-Corvinák Magyar Elektronikus Könyvtár (MEK)‏ Magyar és Nemzetközi Cikkek (MANCI)‏ OSZK Digitális Könyvtár (OSZKDK) Magyar Digitális Képkönyvtár (MDK) Samma som ovan 9

10 Katalógusok Két célközönség Könyvtárosoknak Olvasóknak Mi és miért
”Ismert” mü vagy hivatkozás elöjegyzése Mije van a könyvtárnak X-röl vagy Y tárgykörben Irodalomtípusok, müfajok Merre találom ezt vagy azt

11 Közös (osztott) katalógusok
Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.: A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa)‏ Pl. BURK (közmüvelödési könyvtárak közös katalógusa)‏ Pl. Bibliotek.se (a Libris és a BURK együtt)‏

12 Z39.50 szabvány Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy egy szerveren fusson a protokoll, a felhasználó gépén pedig a megfelelö keresöprogram (kliens). A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ Letölthetö az OSZK honlapjáról

13 OPAC Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, amelyben van kölcsönzési (helyi és táv-), beszerzési, cirkulációs, statisztikai modul is Katalógustípusok (példa)‏ Szerzöi Tárgy Idörendi

14 Indexelö és referáló kiadványok
Típusai: Tárgyköri, szakterületi Földrajzi, regionális Idö szerint korlátozott Dokumentumtípus szerint korlátozott, stb.

15 Webes keresöszolgáltatások
Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat Lehetövé teszik ilyen lapok teljes szövegü keresését A világháló keresésének manapság ”legbarátságosabb”, legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.). 15

16 Webes keresöszolgáltatások folyt
Három külön részböl állnak: Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek mentén halad (vö. pók, csúszómászó)‏ Indexelö – elemzi a honlapokat, információt csapat ki belölük, amelyet automatikus indexelésre és keresésre használnak Keresömodul – felhasználói felület, amelynek funkcióival a szolgáltatás indexében keresni lehet

17 Felhasználói felület Lehetövé teszi-e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb Milyen keresöszintaxist enged meg a program? Boole-operátorok, szintakitikai operátor, csonkolás stb. Tartozik-e hozzá egyszerü vagy bonyolult felhasználói interface? Lehet-e vele keresni különbözö speciális indexekben? Milyen rangsorolási / rendezési algoritmust használ? 17

18 Webkatalógusok (directory)
Ember-alkotta keresöeszköz A katalogizálás valamilyen formája, hierarchikusan felépítve A felhasználó akár egy szót kereshet, akár böngészhet (kattinthat) egy ismereti hierarchiában Sokkal szükebb szakterületre, mint a ”szokásos” keresöszolgáltatások Ilyen katalógust fenntartani drága és bonyolult Példák: Infomine és Open Directory Project (Scholarly Internet Resource Collections, Library of University of California)‏ Består av frivilliga editors, finns också en svensk version. Lite Wiki över det hela. 18

19 Infomine GUI

20 Open Directory Project GUI

21 Speciális keresöszolgáltatások
Google Scholar Google Books Scirus Windows Live Academic Hírek Térképek Video, stb.

22 Google Scholar GUI

23 Scirus GUI

24 Metakeresök Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt Pl. Dogpile, Metacrawler, Metafind, Mamma Metasearch Asztali változat: Copernic Az eredmények többféle módon szemléltethetök Az eredmény csoportokra bontható, pl. klaszterálással: Yippy (korábban Clusty) Megj. – metakereséssel mindig csak részleges találati listát kapunk, mivel az algoritmus a közös találati lista elsö 50 vagy 100 tételét fogja csak bemutatni Clusty kategoriserar och ger dig förslag på ytterligare termer för att begränsa din sökning, Vivisimo.com 24

25 Dogpile GUI

26 Metacrawler GUI

27 Metafind GUI

28 Metasearch GUI

29 Információtechnológia
Technika a különbözö adatformátumok begyüjtésére, tárolására, feldolgozására, publikálására és prezentálására Nem azonos az információtudománnyal Nem azonos a könyvtártudománnyal Nem azonos a szakinformatikákkal (könyvtári, régészeti, néprajzi, turisztikai stb.)

30 Információs rendszer Az adatkezelés, a.m. begyüjtés, feldolgozás, tárolás és terítés müveleteit végzö rendszer Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki felszerelést, mind az emberi tevékenységet

31 Kapcsolat adatbázissal
Képernyö (felhasználói felület, user interface)‏ Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk Így nézhetnek ki: Szöveg- / parancsalapú Menüalapú Formanyomtatvány (kérdöív)‏ Web interface Kombinációik 31

32 Kapcsolat adatbázissal folyt
Keresönyelv Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést A webalapú interface értelmezi, mit akarhatott a felhasználó, mit jelenthet a kérdés Példák: UB könyvtár adatbázisok

33 Parancsok Rendesen a következök lehetnek:
A keresés parancsa (Search, Find, keress stb)‏ Boole- (logikai) -operátorok Szintaktikai (közelségi) operátorok Csonkolás Maszkolás Mezökeresés (kitüntetett mezök)‏ Szükítési lehetöségek (idö, nyelv, dok típus, stb)‏ 33

34 Boole- (logikai) operátorok
NEM Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak a kutyáról szóló dokumentumok ÉS Kutya ÉS macska = csak a mindkettöt tartalmazó dokumentumok (is-is)‏ VAGY Kutya VAGY macska = vagy egyiket, vagy a másikat, vagy mindkettöt tartalmazó dokumentumok

35 A logikai operátorok müveleti sorrendje
Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet Mint a matematikában NEM > ÉS > VAGY Volvo VAGY Saab ÉS export (Volvo VAGY Saab) ÉS export 35

36 Szintaktikai (közelségi) operátorok
A szavak közti viszonyt fejezik ki: X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít. NEAR – A szavaknak egymáshoz közel kell állniuk, a sorrendjük mellékes. A táv megadható NEARn formában, ld fent. SAME – A szó ugyanabban a mezöben (adataelemben) szerepeljen, pl. Web of Science 36

37 Csonkolás és maszkolás
Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya  pulikutya, agárkutya, kutya vs kutya$  kutya, kutyakaja, kutyasampon stb. A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke  Gizike, gözeke A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet 37

38 Mezökeresés A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl A legtöbb adatbázis elöre meghatározza a kereshetö mezöket és sorrendjüket (akár az egész bibliográfiai tételben, akár a kulcsszavakra szükitve stb)‏ A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím, referátum, tárgyszó, ill egyre gyakrabban teljes szöveg). Probléma: zaj – hogyan mérjük a relevanciát? Információkeresés hatékonyságának mérése a vektormodellnél 38

39 A keresökérdés szükítése, bövítése
A keresökérdés a felhasználói probléma szurrogátuma A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére Sok rendszer, sok profil A legtöbb adatbázisban lehetöség van arra, hogy a keresökérdést szükítsük vagy bövítsük: Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve Nyelv szerint Dokumentumtípus szerint: cikkek, könyvek, konferenciakiadványok stb

40 Szemantikai problémák a keresési folyamat során
A 60-as évek angol autóira keresek Az ”angol autók" ÉS 1960-as évek nem dob ki olyan találatokat, amelyekben a fenti kifejezések nem szerepelnek, pl Bentley és 1962. A Bentley angol márka (hiponimia)‏ 1962 az 1960-as évek része (meronimia)‏

41 A keresökérdés szükítése, bövítése folyt
Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban)‏ A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns találatok száma nö Vagyis a találati halmaz számossága a találatok pontossága rovására nö Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ

42 Keresés és böngészés Keresés
Precíz kérdés, válaszok a relevancia rangsora szerint Releváns válaszok korlátozott számban Kellenek hozzá jól definiált fogalmak (ilyenek pl. az ”egzakt tudományokban” vannak)‏ Átfogó keresés lehetösége megvan Böngészés Új területek megismerésére Még hiányoznak a szójegyzékböl a megfelelö keresöszavak Àtfogó keresésre esetlegesen alkalmas A hiányosan definiált ún ”puha tudományokban”, szakterületeken müködik jól

43 Keresöstratégiák A problémamegoldás heurisztikus eljárásai rendkívül fontosak az on-line keresésben. Fajtái: Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ Egymásutáni leválogatás (successive facets, successive fractions)‏ ”Kályha-módszer” (most specific fact)‏ Páronkénti leválogatás (pairwise facets) Többszörös egyszerû gyorskeresés (multiple briefsearch) Hólabdakeresés ([citation] pearl growing)‏ Pontos megfeleltetés (exact match)‏ 43

44 Egyszerü gyorskeresés (briefsearch, quick & dirty)‏
Egyszeri, Boole-operátorokkal végzett rövidre szabott keresés, hogy elõzetes képet kapjanak az adatbázis rekordjainak a kérdéssel kapcsolatos jellemzõirõl A felhasználó által közvetlenül megadott kifejezésekkel vagy azok csonkolt változataival hajtják végre; az utóbbi esetre akkor kerülhet sor, ha ismerünk legalább egy témába vágó szerzõt, címet, kiadót stb. A kapott találati tételekbõl megállapítható számos, az adatbázisban a vonatkozó témával összefüggésben használt deszkriptor, mellyel a részletes keresés folytatható Nem akar többet, mint: Meghatározott számú tételt Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg)‏ Ötleteket a további mazsolázáshoz

45 Keresöfogalmak alkotása (építökocka-technika, building blocks)‏
(...) 4. A legfontosabb keresõkifejezések vagy összetevõk és a közöttük fennálló logikai ÉS, VAGY, NEM kapcsolatok megállapítása. 5. a) Az egyes keresõfogalmakat jelölõ keresõkifejezések megállapítása: szavak, szöveges kifejezések, szótöredékek, deszkriptorok, azonosítók, kódok, nem szemantikai jellegû bibliográfiai ismérvek. 5. b) A mezõ meghatározása, melyben keresni kell. 6. Minden önálló keresõfogalom (építõkocka, fazetta) részére az építõkockán belül meg kell szerkeszteni az ismérvláncok halmazát. Az egyes építõkockákba összevont keresõkifejezések között a VAGY operátort használjuk. 7. Az egyes építõkockákat ÉS, NEM (esetleg VAGY) operátorokkal összekapcsoljuk. (...) Forrás: Stephen Harter: Online információkeresés: Fogalmak, elvek és technikák. In: Ungváry Rudolf – Orbán Éva /szerk./: Osztályozás és információkeresés II. (OSzK) Budapest,

46 Keresöfogalmak alkotása (építökocka-technika, building blocks)‏

47 Keresöfogalmak alkotása (építökocka-technika, building blocks)‏
Tehát felosztja a keresökérdést alkotóelemeire, utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény?” 47

48 Amphetamine (1967) [+] Use For Amphetamine (dl-) (1973)
Amphetamine Sulfate (1973) Benzedrine (1973) Broader Terms Adrenergic Drugs [+] Appetite Depressing Drugs [+] CNS Stimulating Drugs [+] Dopamine Agonists [+] Sympathomimetic Amines [+] Vasoconstrictor Drugs [+] Narrower Terms Dextroamphetamine Methamphetamine Related Terms Phenethylamines 48

49 Minimal Brain Disorders (1973) Use Instead Attention Deficit Disorder with Hyperactivity
Use For ADHD (2001) Minimal Brain Disorders (1973) Broader Terms Attention Deficit Disorder [+] Related Terms Attention Span Distractibility Hyperkinesis Impulsiveness Mental Disorders [+] Oppositional Defiant Disorder 49

50 PsycINFO: Age Index adolescence (13-17 yrs)
adulthood (18 yrs & older)‏ aged (65 yrs & older)‏ childhood (birth-12 mo) infancy (2-23 mo) middle age (40-64 yrs)‏ neonatal (birth-1 mo) preschool age (2-5 yrs) school age (6-12 yrs) thirties (30-39 yrs)‏ very old (85 yrs & older)‏ young adulthood (18-29 yrs)‏ 50

51 Egymásutáni leválogatás (successive facets, successive fractions)‏
A teljesség növelésének heurisztikus módszere, hogy valamelyik kész építõkockát (keresõfogalmat reprezentáló kifejezések csoportját) töröljük és a maradékkal keresünk. Ez persze a leggazdaságtalanabb eljárás, hiszen gondosan megszerkesztett építõkockáról mondunk le.

52 Páronkénti leválogatás (pairwise facets)
Ha mindegyik keresõfogalom (építõkocka) nagyjából azonos mértékben specifikus, azaz egyformán fontos, akkor páronként képezhetjük metszetüket. A találati eredményeket vagy külön- külön (a páronkénti keresés eredményeként), vagy az egész keresési folyamat uniójaként nyomtathatjuk ki.

53 Többszörös egyszerü gyorskeresés (multiple briefsearch)
Ezt a stratégiát a páronkénti leválogatás esetéhez hasonlóan akkor célszerû követni, ha az összes specifikus keresõfogalom metszetének eredménye várhatóan a nullához közelít. Alapelve, hogy több adatbázisban kell egyszerû, nagy visszahívással járó gyorskeresést végezni. Ezáltal nagyon különbözõ jellemzõket kapunk, ami a keresés témáját illeti, melyet a további lépésekben hasznosíthatunk. Ugyanazt a tárgykört az egyes adatbázisokban ugyanis más-más módon osztályozzák (indexelik) és dolgozzák föl formai szempontból. Ezáltal sok olyan jellemzõt megállapíthatunk, melyeket egyetlen adatbázisból körülményesebb kielemezni.

54 ”Kályha-módszer” (most specific fact)‏
A legszükebben releváns kulcsszóval kezdünk, fokozatosan szélesítjük a kérdést, a keresöszavakat VAGY-gyal kombinálva, mintha a kályhától: Volvo Volvo VAGY Saab Volvo VAGY Saab VAGY buszok Volvo VAGY Saab VAGY buszok VAGY teherautók 54

55 Hólabdakeresés ([citation] pearl growing)‏
Ezt a stratégiát olyankor célszerû használni, ha nagyon kevés találatot várunk. Ellentétben az eddigiekkel, itt nem a nagy visszahívással kezdünk, hanem éppen ellenkezõleg. A leggyakoribb, hogy a felhasználó megadja az egyik, általa ismert és a tárgyba vágó dokumentum adatát, melyet kikeresünk. Ebbõl megállapítható, milyen ismérvek (deszkriptorok, tárgyszavak, jelezetek) reprezentálják a tartalmát – tehát a keresett tárgy fogalmát. Most már ezekkel végezhetõ a keresés, hogy még több hasonló adathoz jussunk stb. Gyakori, hogy a hólabdakeresést hivatkozási indexben végzik. Pl. olyan ismert tételböl indulunk ki, amelyröl tudjuk, hogy releváns. Mely kulcsszavak használhatók? Írt a szerzö mást is? Melyik folyóiratban publikálta? Van a dokumentumnak osztályozási jelzete? Melyik folyóirat referálja a dokumentumomat? Idézik-e mások is a dokumentumomat? 55

56 ”Pontos megfeleltetés” (exact match)
Pontos kérdésre pontos választ keres. Ez a legkönnyebb? ”Koppenhágában 2001-ben tartottak a cukorbetegségröl egy konferenciát. Megvan a kiadvány a könyvtárban?” 56

57 A föbb stratégiák összefoglalása
Egyszerû gyorskeresés A ÉS B = Találati halmaz Keresõfogalmak alkotása Aa VAGY Ab VAGY Ac = 1. halmaz (nagy halmaz) Ba VAGY Bb VAGY Bc = 2. halmaz (nagy halmaz) Ca VAGY Cb VAGY Cc = 3. halmaz (nagy halmaz) 1. halmaz ÉS 2. halmaz ÉS 3. halmaz = Találati halmaz Egymás utáni leválogatás A ÉS B = 1. halmaz (nagy halmaz) A ÉS B ÉS C = 2. halmaz (az 1. halmaz származtatott része) A ÉS B ÉS C NEM D = Találati halmaz Páronkénti leválogatás 1. FOGALOM ÉS 2. FOGALOM = B találati halmaz 2. FOGALOM ÉS 3. FOGALOM = C találati halmaz 3. FOGALOM ÉS 1. FOGALOM = A találati halmaz A találati halmaz VAGY B találati halmaz VAGY C találati halmaz = Végsõ halmaz Többszörös egyszerû gyorskeresés 1. adatbázisban: A ÉS B = 1. találati halmaz 2. adatbázisban: A ÉS B = 2. találati halmaz 3. adatbázisban: A ÉS B = 3. találati halmaz Hólabdakeresés Formai adat keresõszóként = 1. találati halmaz (1 vagy néhány találat/formai adat) 1. találati halmaz formai adatai = 2. találati halmaz (több találat/formai adat) 2. találati halmaz formai adatai = 3. találati halmaz (sok találat/formai adat) A további kereséshez a tételeket jellemzõ tartalmi ismérvek alapján állapítjuk meg a tartalmi keresõkifejezéseket.

58 2. Automatikus indexelés
Csak szövegessel foglalkozunk, képre: vö. ICONCLASS vs szimmetria [következö kép, lazításnak])‏ Algoritmikus eljárás, mely a dokumentumokból indexelésre alkalmas kifejezéseket választ ki. Az információkereséssel (information retrieval, IR) kapcsolatban is használatos Algoritmus: parancsok véges sorozata, amely bemenö adatokból (input) kimenö adatokat (output) készít Számítógépes program, amely a fenti algoritmusra épül és amely az indexelést végzi 58

59 Indexelés tapétacsoporttal
A tapétacsoportok kutatása a szimmetria, közelebbröl a csoportelmélet feladata. A természetben és a kultúrában számos olyan forma van, amelyeket objektumok indexelésére lehet használni.

60 Bevezetés folyt Miért használják?
Gyorsabb a kézi indexelésnél. Nagy teljes szövegü állományoknál a kézi indexelés gyakorlatilag amúgy is lehetetlen Konzisztens, következetes eredmények Az állomány ”elöszervezésével” javíthatja az IR hatékonyságát Egy keresökérdés vonatkozásában, milyen jó a rendszertöl kapott válasz? 60

61 Index Legyen D = {d1, d2, …, dN} az adatállomány (adatbázis)‏
Információkeresés elött (de osztályozás elött is) D szövegszavaiból indexet kell készíteni. Ezeket a szavakat választjuk ki gép segítségével Az index fontos adatstruktúra, kell a gyors kereséshez. A keresés ugyanis az indexben történik, nem a dokumentumban Formája gyakran az ún invertált file Azért invertált, mert a szót elörevetjük, utána jönnek az azonosítók 61

62 Index folyt Szövegszavak (morfológiai változatokkal)‏
Dokumentumok (D)‏ Index (normalizálva/szótövezve)‏ …kutya… d5 kutya macska …macska… d80 62

63 Az indexelés lépései Lexikai elemzés – ebben a folyamatban a bemenö adatokat szimbólumokká alakítjuk át D dokumentumait egyetlen hosszú karaktersorozatnak tekintjük, amelyben kis- és nagybetük, számok, írásjelek stb fordulnak elö. A program ebböl az ”adatfolyamból” emel ki nagyobb, egységesített darabokat, amelyek a bemenö adatsor részeit jelképezik. Ezeknek a szimbólumoknak a halmazát nevezzük lehetséges indexkifejezéseknek Ellentétük a letiltott szavak jegyzéke (stopwords). Pl töltelékszavak (vö szógyakorisági ábra)‏ Valójában a tiltójegyzékkel a mondatot összetartó funkcionális szavakat dobom ki 63

64 Indexelés szógyakoriság alapján
Már az 1950-es években gondoltak rá, hogy a szövegszavak gyakorisága a dokumentumokban alkalmas a megkülönböztetésükre Luhn, H. (1958). The automatic creation of literature abstracts. A Zipf-törvény szellemében: egy szóalak gyakoriságának és a gyakorisági rangsorban elfoglalt helyének a szorzata közel konstans De: a magyar ragozó nyelv, nekünk viszont a szótövek kellenek

65 Szótövezés, normalizálás
Szótövezés: levágom a ragokat, az elötagokat, mint pl az igekötö (ha útban van)‏ Olyan, mint a csonkolás Karóra? Honnan tudja, hogy elérte már a szótövet? Normalizálás: a betüzési, helyesírási variánsokat hozza egységes alakra Mindkettönek a keresést szélesítö, bövítö hatása van

66 Egy szó szétválasztó képességének mérése
A 40-es évek végén Claude Shannon (Bell Labs) kitalált egy mértéket arra, mennyi információ van egy szignálban  információs entrópia Ennek a képletnek egy módosításával mérni lehet, mennyire jellemzö egy- egy indexkifejezés különbözö szakterületekre (mennyire használható a megkülönböztetésükre)‏ Teljes szövegböl készült indexre alkalmazva ezt, kiderül, hogy a letiltott szavak kapják a legalacsonyabb értéket, vagyis ezek éppen azért lettek kitiltva, mert nem osztályképzök

67 Az indexelés folyamata
Hogy az osztályozandó dokumentumok indexelése hatékony legyen, ismernünk kell a szótár méretét és változatosságát Két lehetöségünk van: Megpróbálhatunk több rokon kifejezést egy közös fogalom vagy ”szupertárgyszó” alá rendelni Kiszürhetjük azokat a szavakat, amelyekben nincs elég ”megkülönböztetö erö” az adott osztályok vonatkozásában

68 Szemantikai mélyindexelés (latent semantic indexing, LSI)‏
Statisztikai eljárás, alapja az a megfigyelés, hogy a hasonlóan használt szavak jelentése is hasonló Vö Wittgenstein: ”meaning is use”, ”a jelentés a használat módjában rejlik” Sokváltozós statisztikai módszerekkel a hasonló szövegkörnyezetben használt szavakat ”rávetíthetjük” egyetlen reprezentánsra, amelyet a vonatkozó kifejezések fölöttes fogalmával azonos. Ez a reprezentáns a háttérváltozó, egy mesterséges új koordinátatengely Ennek a módszercsaládnak sok tagja van, pl a faktoranalízis vagy a (kb) sajátértékfelbontás (singular value decomposition, SVD)‏ Így a dokumentumokat nem az eredeti kifejezésekkel, hanem fölöttes fogalmaikal indexelhetjük

69 Szemantikai mélyindexelés folyt
A hasonló elöfordulási mintázatú (kontextusú) indexkifejezéseket egy közös reprezentánsra vetíti foci futball BEK FIFA

70 (Svéd) tárgyszavak osztályozása szemantikai mélyindexeléssel
Stresshantering Hjärtinfarkt Rehabilitering Livsstil Livskvalitet Hjärtrehabilitering Könsskillnader_sjukvård Djurförsök Försöksdjur Hypertoni Högt_blodtryck Blodtryck Mongolism Medicinsk_genetik Genetik_medicin Utvecklingsstörda Psykiskt_utvecklingsstörda Downs_syndrom Förståndshandikappade Medicin_historia Miljöförstöring Hälsorisker Gifter Miljögifter Hjärt-kärlsjukdomar Kolesterol Blodfett Hjärtsjukdomar Kärlsjukdomar Blodfettsänkande_behandling Fingerborgsblomma Digitalis_purpurea Medicinalväxter UV-strålning Solbränna Ultraviolett_strålning Solskyddsmedel Cancer Hudcancer Malignt_melanom Melanom Sårbehandling Fotvård Skavsår

71 Az indexkifejezések szürése
A másik lehetöség, hogy kiszürjük azokat a szavakat, amelyek ”túlságosan” ott vannak két osztályban, és ezért nem alkalmasak arra, hogy megkülönböztessék öket Kérdés: ”Ha csak ez az egy szót ismerjük (= fordul elö), mennyire következtethetünk belöle arra, melyik osztályba tartozik a dokumentum?” Ezt úgy tudhatjuk meg, ha megmérjük, mennyi információ van egy osztályban vele vagy nélküle Ezt a különbséget ”információs többletnek” (information gain, IG) hívják és a Shannon-féle entrópiából vezethetö le A letiltott szavak IG értéke alacsony

72 Dokumentumok automatikus indexelése – meghatározás
A dokumentum és a leíró jelzetek (dokumentumoknál: tárgyszavak) között hoz létre egy leképezést Legyen D egy dokumentum-halmaz Legyen V az indexkifejezések szótára Ψ : D x V → [0, 1] Ez a vektorteres IR modell alapja is (vö bináris mátrix)‏

73 Vektormodell Egy adatbázis minden dokumentumát n-dimenziós vektornak tekintjük ahol n a tárgyszavak száma a szótárban dj = (w1j, w2j, …, wnj)‏ Mindegyik wij súly a ti -dik tárgyszó jelentését méri a dj -dik dokumentumban Tf·idf-módszerek (mindjárt jönnek)‏

74 Mátrix példa meccs gyöztes futball vesztes bíró d1 0,8 0,5 0,0 0,7 0,6
0,1 0,2 d3 0,3 0,4 d4 0,9

75 Tárgyszavak súlyozása
A pl 0,5 értéket a relációban (a függvényben)‏ (d1, gyöztes) --> 0,5 a tárgyszó súlyának nevezzük a dokumentumban Ez az érték annál nagyobb, minél erösebb a kapcsolat a dokumentum és a tárgyszó között Egyszerü súlyozás: 0 vagy 1 (bináris)‏ A tárgyszavak súlyozását gyakran a szó elöfordulásának gyakoriságára építjük (tf-idf = term frequency-inverse document frequency)‏ A tf-idf mérték régóta használatos az automatikus indexelésben, és két elv kombinálására épül: Egy tárgyszó akkor jelent valamit a dokumentumban, ha sokszor fordul elö Egy tárgyszó akkor jelent valamit egy adatbázisban, ha kevés dokumentumban fordul elö (tartalom-terjedelem fordított aránya)‏

76 Deszkriptorokkal végzett müveletek
Már volt: Mivel a morfológiailag gazdag nyelvek, mint a magyar, esetében hasonló jelentések kapcsolódnak hasonló szóalakokhoz, az indexelés minösége javítható szótövezéssel (= a szóalakot a szótöre csonkoljuk)‏ Letiltott szavak (stopword) listája Szintén volt, de másként, vö. LSI: Tárgyszavak szürése (feature selection)‏ Deszkriptorok átalakítása (descriptor transformation, dimensionality reduction)‏

77 Deszkriptortranszformáció
Elöfeltevés: ha egy adatbázisban egy szónak az ”elöfordulási mintázata” megegyezik másokéval vagy hasonlít rájuk, akkor a szóalakok jelentése is hasonlít(hat)‏ Az ilyen ”mintázatot” pl faktoranalízissel elemezni lehet, vagyis az egymással összefüggö tárgyszavakat egy háttérváltozóra (faktorra) tudjuk vetíteni A szemantikai mélyindexelés az eredeti vektorteret egy egyszerübb szerkezetü új vektortérré alakítja át, amelyben a dimenziók (= koordinátatengelyek = háttérváltozók) a tárgyszavakat összefoglaló fogalmaknak felelnek meg

78 3. Automatikus osztályozás
Felhasználási területek Spam szürés Szerzö azonosítása Keresési eredmények klaszterálása Felhasználói visszajelzések csoportosítása Dokumentumtípus (müfaj) azonosítása Képek indexelése U-O II: Luhn 78

79 Az automatikus osztályozás célja
Géppel úgy csoportokba osztani az anyagot, mintha gyakorlott szakember osztályozta volna Az eredményt hasonlítjuk össze, nem a hozzávezetö utat Szellemi tevékenység modellezése matematikával (újabban fizikával, kémiával is)‏

80 Automatikus osztályozás
A gépi tanulás egyik alkalmazási területe Az eljárás röviden: az osztályozó (classifier) nevü algoritmust arra tanítjuk, hogy felismerje egy bizonyos tartalom-fajta és az annak megfelelö osztály közötti kapcsolatot Az osztályozó algoritmus ”emlékezetébe vési” az osztályok közötti különbségeket, paraméterkombinációk formájában tárolja, és a dokumentum hovatartozását a dokumentum meg az osztály tartalmi mintázatának egybevetésével dönti el Az ebböl a döntésböl származó matematikai kifejezést emiatt döntési függvénynek nevezzük

81 Automatikus osztályozás folyt
A döntési függvény pl olyan geometriai határvonalként szemléltethetö, amelyet paraméter- értékek egy halmaza határoz meg Egy másik népszerü megoldás, ha valószínüségi döntési függvényt használunk, ami megmondja, mennyire várható, hogy egy dokumentum egy bizonyos osztályba tartozik

82 Osztályozó algoritmusok fajtái
A geometriai válfaj a dokumentumokat a (néha nagyon) sokdimenziós tér pontjaiként modellezi, és olyan alapvetö mértékek segítségével osztályozza öket, mint a távolság meg a szög Példa: segédvektoros módszerek (support vector machines, SVM) A valószínüségi válfaj olyan fogalmakat használ, mint az esemény meg az esély, s az osztályba tartozás korábbi adatai ezek alapján tippeli meg egy leendö osztályozás valószínüségét Példa: Bayes-féle valószínüségi osztályozók

83 Segédvektoros eljárás (SVM)‏
Különösen sikerült geometriai eljárás, amely két ötletre épít: Keressünk olyan döntési függvényt, amely annyira szétválasztja az osztályokat, amennyire lehetséges Másoljuk át a pontokat egy nagyobb térbe, amelyben ez a (lineáris) szétválasztásuk könnyebben ábrázolható

84 Automatikus osztályozás Hilbert-térben
Hilbert-tér: a kvantummechanika elméletének fejlesztésére David Hilbert és Neumann János által bevezetett új, potenciálisan végtelen dimenziós vektortér, amelyben a részecskék viselkedése tanulmányozható Az SVM, egy új regressziós ill osztályozási eljárás, a Hilbert-térben éri el, hogy a dokumentumok maximálisan elkülönüljenek az adatokban megnyilvánuló osztályokba Kisfilm

85 Dokumentumok automatikus osztályozása – meghatározás
Legyen D egy dokumentum-halmaz Legyen C egy kategória (osztály)-halmaz Az ”igazi” osztályozás egy függvény, Φ : D x C → {0, 1} Az automatikus osztályozás gépi tanulást alkalmaz Φ becslésére A becsült Φ jele: Φ’

86 Milyen lehet az osztályba sorolás?
“Egycimkés”: egy dokumentum csak egy osztályba tartozik ”Többcimkés”: dokumentumonként több osztály Bináris osztályozás: a kategóriák halmazának, C-nek csak két eleme van, pl {-1, +1} A spam-szürés pl bináris osztályozásból indul ki

87 A gépi tanulás szakaszai
Egy Φ-et közelítö Φ’ osztályozási függvény a dokumentumhalmazt három részre osztja: egy gyakorló- csoportra (training set), egy finomítási csoportra (validation set) meg egy tesztcsoportra (test set)‏ A gyakorló-csoporton tanulja meg az algoritmus a Φ’ függvényt A második csoporton Φ’ javítása, optimalizálása következik paraméterek finomhangolásával Majd a teszten ellenörizzük Φ’ hatásfokát (kézzel elöosztályozott kontroll- anyagon)‏

88 A gépi tanulás típusai Tanulás példa/támpont alapján (supervised learning): abból indul ki, hogy a rendszernek része a már kész oktatási anyag, illetve hogy a rendszer visszajelzést (”osztályzatot”) kap a munkája minöségéröl Tanulás példa/támpont nélkül (unsupervised learning): kiindulási támpont és/vagy visszajelzés nélkül kell tanulni – csak a dokumentumok közötti hasonlóságok a kategóriák és a hozzárendelés (osztályozás) alapja. Klaszterálásnak (clustering) is hívják.

89 Osztályozási módszerek típusai
Példa-alapú (”lusta”) módszerek, pl a k-adik szomszéd módszere (k- nearest neighbour). Vannak kézzel osztályozott dokumentumaink, hogy a gépi osztályozás eredményével összehasonlítsuk, az algoritmus nem emlékszik a paraméterekre Paraméter-vezérelt módszerek: a tanulási halmazból a módszer egy készletnyi paramétert tanul meg, utána a példákra már nincs szükség. Példák: Bayes-valószínüségi módszerek, neurális hálók, segédvektoros módszerek (SVM)‏

90 “Felturbózás” (boosting)
Viszonylag új módszer, nagyon jó teljesítménymutatókkal szövegosztályozáshoz Az ún. gyenge osztályozási függvény, Φ1 gyárt egy elözetes osztályozást a dokumentumhalmazunkra Aztán egy új osztályozási függvény, Φ2 olyan dokumentumokat keres, amelyeket Φ1 korábban rosszul osztályozott – ismételten hibát keres és kijavítja Az Φ1, Φ2, …, Φn osztályozási függvények lineáris kombinációja egyfajta “szuperfüggvényt” csinál belölük

91 Az eredmények értékelése
Az osztályozási függvény kiértékeléséhez a dokumentumok teszthalmazát használjuk, ezekkel hasonlítjuk össze az eredményt Pontosság (accuracy): a helyesen osztályozott tételek aránya Pontosság (precision) és teljesség (recall)‏ IR fogalmak is Az ún. F-mérték a pontosságot meg a teljességet kombinálja paramétersúlyozással egy közös mértékké Mikroátlagolás (microaveraging), makroátlagolás (macroaveraging)‏

92 4. Vektorteres információkeresés
Sokféle modell van, ez az egyik legnépszerübb (Gerald Salton 1975)‏ Szervesen illeszkedik az automatikus indexelés és osztályozás gondolatköréhez (vö. értékelés)‏ A szójelentést (szótárat) geometriai hellyé változtatja a sokdimenziós térben, a szemantikai hasonlóságot távolsággá ugyanott Erre a helyre helyvektor mutat, a kérdés helyére is, hasonlóságuk mértéke a pontok közti távolság A dokumentumok mint pontok koordinátái a vektor elemei; pl az indexkifejezések gyakoriságai A tér dimenziószámát az adatbázis indexelésére használt egyedi szóalakok száma határozza meg “Kiemelt” (markup) nyersanyagon (pl HTML) is müködik  web keresök

93 Vektortér-modell

94 A vektorteres IR modell elönyei
A Boole-algebrás kereséssel csak annyit kérdezhetünk, ”megfelel-e a keresökép egy bizonyos dokumentumnak?” Egyezik-e vele? A vektorteres modellben a hasonlóságot geometriai eszközökkel mérni tudjuk, és azt is, hogy mennyire. A súlyozás a mérték A dokumentumokat sorba tudjuk rendezni a hasonlóságuk mértéke szerint (mindig az adott keresökérdésre)‏ Az indexkifejezések egymás közti (szótári) viszonyai geometriával tanulmányozhatók

95 Vektorteres információkeresés folyt
Érettségi tétel A dokumentumokat mátrixban írjuk le, pl az oszlopvektorok dokumentumok, a sorvektorok indexkifejezések A súlyozás lehet bináris vagy gyakorisági (pl tfidf) Dokumentum és kérdés (keresökép, keresöprofil) mint helyvektor, amely pontra mutat (létezik irányvektor is!)‏ Mind a dokumentum, mind a kérdés tehát pont a térben Hasonlóságukat a távolságuk fejezi ki A keresökérdés vektorához hasonló dokumentumvektorokat közelségük alapján rangsoroljuk (vö. relevancia)‏ Két pont közelségét a helyvektoraik által bezárt szög koszinusza adja meg Kérdés, mennyire modellezi a kérdést a vektor

96 Vektorteres információkeresés folyt
A vektorteres modellben a leggyakoribb hasonlósági mérték a dokumentumvektor és a keresökép vektora által bezárt szög koszinusza Bármely szög koszinusza egyenlö két vektor normalizált belsö szorzatával, vagyis az a modellnek van egy geometriai meg egy algebrai értelmezése is

97 Az információkeresés hatékonysága
A keresés hatékonyságának mérésére legismertebb mérték a teljesség vs pontosság (egy keresökérdés vonatkozásában)‏ Teljesség: |Ra|/|R| Pontosság: |Ra|/|A| Szöveges adatbázisban egymással fordítottan arányosak, faktografikusban egyenes az arány

98 5. A mély web és jelenségei
Fogalma: a “mély” (láthatatlan, rejtett) web a világháló tartalmának azt a részét jelenti, amelyet a nagy keresögépek vagy nem indexelnek, vagy nemigen találnak meg. Ellentéte a “felszini” web. A kereskedelmi keresögépek csak a statikus, bekötött oldalakat dolgozzák fel, ezért a fától nem látják az erdöt  Èrdekességek: szer nagyobb a látható webnél, a legnagyobb a havi növekedési üteme. 2000-ben becslés szerint kb 550 milliárd egyedi dokumentumot tartalmazott, szemben a látható web kb 1 milliárd dokumentumával. A Google típusú felszini keresögépek a weben elérhetö tartalomnak csak kb 0.03% -át keresik. A mély web tartalmának legalább 95 %-a szabadon hozzáférhetö. A tartalom mélysége miatt 50 %-kal nagyobb a látogatottsága, mint a látható webnek. A mély web tartalmának több mint a fele szaktudományi adatbázisokban van

99 A látható világháló ma Az indexelt látható világháló 2010 november 16-án legalább 2.76 milliárd oldal volt Forrás: WorldWideWebSize.com (a becslési algoritmus leírásával) A Google, Bing, Yahoo, Ask mérései szerint is, idöben is változó a kép

100 A látható világháló ma Forrás: worldwidewebsize.com
Az indexelt látható világháló november 22-én legalább milliárd oldal volt A Google, Bing, Yahoo, Ask mérései szerint is, idöben is változó a kép Algoritmus leírása a honlapon

101 Mély web folyt Felszini (keresögépek) vs mély (adatbázisok a weben): két réteg Felszini: A keresögép crawlere csak a honlapot gyüjti be és indexeli Mély: Az adatbázisok indexeihez fér hozzá valós idöben, párhuzamos kereséssel Vö hostok (DIALOG, ESA, DIMDI, stb.) adatbázisainak lekérdezése párhuzamosan Példák: US DoE OSTI, Science.gov, WorldWideScience.org

102 Az indexelés mint társasjáték
Social tagging / folksonomy = folk + taxonomy Népi mozgalom a web indexelésére Példák: Delicious, Flickr Kedvelt hasonlat: jelzetfelhö (tag cloud)‏ Az osztályok átrendezödö súlypontjai miatt dinamikus osztályozás (vö. Salton, SMART, cluster centroid)‏ Egyfajta statisztikus osztályozás: sokak véleménye játszik bele, mi minek minösül

103 Del.icio.us GUI

104 Egy oldal különbözö indexelése

105 Flickr GUI

106 Osztályozás és láttatás: Tag Galaxy
A Flickr anyagából Elözetes, kézi osztályozást (a fényképek társas cimkézését) teszi át térbe Vizuális metafora: csillagközi tér Forgatható, nagyítható Az egyes képeket meg lehet nézni Átvezet az információ, ezen belül az osztályozás vizualizálásához

107 6. Az információ láttatása
Célja, hogy látvány/grafika segítségével mutassa meg az adatokban rejlö struktúrákat (szabályosságokat, mintákat) Kapcsolódik az automatikus osztályozáshoz Friss példa: Visalix (Xerox)‏

108 Az információ láttatása folyt
Keletkezö K+F szakterület, meglehetösen összevissza még, benne ember- számítógép kapcsolat (human-computer interaction, HCI), grafikus arculattervezés, információmenedzsment, információarchitektúra Meghatározás (Lengler & Eppler 2007): ”Vizualizálási módszeren olyan rendszerszerü, szabályalapú, külsö, permanens grafikus ábrázolást értünk, amely az információ átlátását, megértését és kommunikálását elösegíti” Az IV módszerek is osztályozhatók Az IV módszerek a komplexitást (a tartalom folytonosságát) térbeli/idöbeli szerkezetekkel fejezik ki

109 Taxonómia: The periodic table of visualization methods (Lengler & Eppler 2007)‏

110 Egy másik taxonómia: VisualComplexity

111 Egy harmadik: Atlas of Cyberspace

112 Térbeli szerkezet: ”karfioltér”

113 Idöbeli szerkezet: ”jelzetfelhök” (tag clouds)‏

114 A láttatás szerepe folyt
Az IV vizuális metaforákat használ (pl a periodikus tábla is hasonlat)‏ A képen látható szituációt valami ismerthez hasonlítva, a láttatás megkönnyíti a megértését (a szituáció itt az entitások közötti relációk összessége, pl része-egésze reláció) Példa: iratok a dossziéban, dosszié az iratszekrényben, iratszekrény a részlegben, részleg a könyvtárban, stb Egy jó metafora összetett tartalmat fejez ki egyszerüen. Pl egy metrótérkép vagy egy történet hatékony templátok (elöképek). A képi metafora funkciója kettös: Elhelyezi az információt, hogy szervezze és strukturálja, A metafora révén hangsúlyozza a kulcsmozzanatokat.

115 Vizuális metaforák Kutatási kulcsprobléma: hogyan lehet kifejezö, hatékony vizuális metaforákat találni, amelyek elvont tartalmat képre fordítanak le A metafora az ösvény, amely a már értettöl a megértendöhöz vezet Típusok (Eppler – Burkhard 2004)‏ Természeti jelenségek (hegy, fa, szakadék, gyémánt, tornádó, vízesés, tüzhányó, folyó, barlang stb)‏ Ember-alkotta tárgyak (mérleg, létra, kerék, út, híd, ernyö, vödör, inga, trójai faló stb)‏ Cselekedetek (hegymászás, séta, halászat, vadászat, aratás, stb)‏ Fogalmak (család, béke, káosz, fraktál, fenntarthatóság stb)‏

116 ”A tárgyalások hídja”

117 ”A piac mint lépcsösor”

118 Néhány GUI alternativa (LIVA projekt, 2005-2007)‏
Három metafora és a kapcsolódó módszerek: Térkép, térképészet  tematikus domborzat Fogalmi tér  3-d információcsillagászat, dokumentumgalaxisok Rugó  dokumentumok és keresöképek eloszlása vonzás-taszítás eröegyensúlya alapján (force-directed placement, FDP); fejlödö osztályozási tér (”karfiotér”)‏ Mind térszerkezet, de az FDP idöbeli is

119 Domborzat 1 Tematikus táj: Burk Oh [=Sociala frågor och socialpolitik] 544 x 8928, SVD k=100, QC σ =0.5,1-2. fötengely, összes dokumentum

120 Domborzat 2

121 Domborzat 3

122 Domborzat 4

123 Dokumentumgalaxis 1: BURK Ph [= Träteknik och träindustri] 432 x 1251, az elsö 200 dokumentum (szemantikai mélyindexelés alapján)‏

124 Dokumentumgalaxis 2: az elsö 200 dokumentum 16 különbözö fogalmi altérben

125 Eröegyensúly (FDP)‏ Rugó, vonzás-taszítás, erös magerö taszítás nélkül – fizikai erötípusok, amelyek a dokumentumok csoportosulásának (az osztályozás önszervezödésének) modellje lehetnek Pl a taszítás a dokumentum hosszával arányosan nö, a vonzás a relevanciával arányosan Az a legjobb elrendezés, ahol az energiatartalom minimális (a lejtö alján)‏ Pl az IR folyamat egyes lépcsöit láttathatja, integrálja az IV-et az IR-rel

126 ”Karfioltér” 1: keresöképek
1. kérdés: visualisation colour graphics 2. kérdés: 3D surface graphics Két dokumentum köszös a két kérés között

127 ”Karfioltér” 2: keresöképek
3. kérdés: agents A 3. kérdésre az elsö 50 dok halmaza nem fed át az 1-2. kérdés találati halmazaival, amelyek megtartják eredeti szerkezetüket, míg az új halmaz tölük elkülönül . 4. kérdés: collaborative agent visualisation Mivel ez erösen kapcsolódik mind a 3. (agents), mind az 1. (visualisation colour graphics) kereséshez, a találati halmazaik automatikusan összekapcsolódnak, balról jobbra ebben a sorrendben: agents, collaborative agent visualisation, visualisation colour graphics, és 3D surface graphics.

128 A LIVA GUI prototípus

129 IV összegzés Tárgyszó- és dokumentum-szigetek, fogalmi csillagképek: magasabbfokú morfológiák Az információrobbanás is metafora, az ösrobbanásé. A tágulás (vö. mély web) következtében dokumentumgalaxisok keletkeznek és rendezödnek át, amelyeket térképezni kell A fogalmi dinamika (nyelvfejlödés) problémája: változó osztályozások A nagyságrendek és a kommunikáció kérdése: felfog-e a nyelv mindent, fogalmakkal minden leírható-e?


Letölteni ppt "Osztályozási rendszerek, információkereső nyelvek II"

Hasonló előadás


Google Hirdetések