Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Tudás reprezentálása a világhálón az internetes keresőrendszerek működése előadásvázlat Tóth Erzsébet Debreceni Egyetem Informatikai Kar, Könyvtárinformatikai.

Hasonló előadás


Az előadások a következő témára: "Tudás reprezentálása a világhálón az internetes keresőrendszerek működése előadásvázlat Tóth Erzsébet Debreceni Egyetem Informatikai Kar, Könyvtárinformatikai."— Előadás másolata:

1 Tudás reprezentálása a világhálón az internetes keresőrendszerek működése előadásvázlat Tóth Erzsébet Debreceni Egyetem Informatikai Kar, Könyvtárinformatikai Tanszék 2010.

2 1. Bevezetés

3 1.1. A webes keresőrendszerek definíciói
Internetes keresők alatt a programoknak egy olyan általános csoportját értjük, amely lehetővé teszi a weben történő dokumentumkeresést a felhasználók számára. Ezek a programok dokumentumokat indexelnek és arra törekednek, hogy megtalálják a releváns találatokat a feltett keresőkérdésre.

4 (Forrás: angol nyelvű Wikipédia http://en.wikipedia.org )
A search engine is an information retrieval system designed to help find information stored on a computer system. The search results are usually presented in a list. Search engines help to minimize the time required to find information and the amount of information which must be consulted, akin to other techniques for managing information overload. (Forrás: angol nyelvű Wikipédia )

5 Search Engine: The software that searches an index and returns matches
Search Engine: The software that searches an index and returns matches. Search engine is often used synonymously with spider and index, although these are separate components that work with the engine. (Forrás: Ranking web of world repositieries

6 1.2. A globalizáció és a keresők közötti éles verseny
Korunk számos legjelentősebb folyamata: a politikai, katonai értelemben vett egyhatalmú világ kialakulása, a demokratizálódás, - az európai integráció, - a fokozódó ázsiai gazdasági együttműködés, - a technológia forradalma, - a globalizáció, - az információs és a fogyasztói társadalom kialakulása. Azok a világ minden részére közvetlenül, vagy közvetve ható, globális folyamatoknak tekinthetők.

7 Az információs és kommunikációs technológia (IKT) rohamos fejlődésének és konvergenciájának köszönhetően a társadalomban egy új életforma, újszerű működés és viselkedés alakult ki. Új értékrendek jöttek létre. Ezt a széles körben elterjedt új életmódot, magatartást, információs technológiára épülő gazdaságot információs társadalomnak hívjuk. Az „információs társadalom” kifejezés az 1960-as évek második felében jelent meg.

8 Az információs társadalom kialakulása országonként különböző időszakban és ritmusban megy végbe.
A társadalom tágabb értelemben vett fejlettségi szintje és a kultúra nagymértékben befolyásolja. Fontos, hogy erre a folyamatra sokkal „könnyebben” lehet hatni, társadalmi szinten jó irányba terelni, mint a globalizációra. A fogyasztói társadalom megjelenése a globalizációhoz és az információs társadalomhoz kapcsolódó harmadik jelentős folyamat.

9 A globalizáció gyorsuló és könyörtelen versennyel jár együtt.
Úgy lehetünk versenyképesek, ha az információs társadalom legfőbb értékét, magát az információt részesítjük előnyben. Egy adott szakmai kérdés megválaszolásának a leggyakoribb kiindulási pontja lehet az internet, amely a minket körülvevő globális társadalomnak egyik fontos eszköze.

10 A világhálón történő információkereséskor egyre nagyobb gondot jelent számunkra a minőségi, releváns információk kiválogatása a ránk zúduló információáradatból. Ebben támogatnak minket a rendelkezésünkre álló keresőszolgáltatások, bár nem minden esetben nyújtanak tökéletes megoldást számunkra.

11 Az interneten megjelenő keresőeszközök köré külön iparág szerveződött, amelybe kisebb-nagyobb méretű cégek, vállalatok nagy pénzösszegeket fektetnek be. Mindezt pedig saját versenyképességük, sikerességük és hatékonyságuk javítása érdekében teszik.

12 Search Engine Marketing Professionals Organization (SEMPO) 2008-as felmérésének lényeges megállapításai: 13,5 billió dollárt költöttek a cégek keresőmarketingre 2008-ban Észak-Amerikában. Ennek legnagyobb részét a találatelhelyezés és a keresőoptimalizálás (SEO) tette ki. Az összeg maradéka pedig olyan szolgáltatókhoz került, akik a kampányok szoftveres megvalósításában vettek részt. Az előrejelzés szerint a keresőmarketingbe fektetett pénzösszeg 2013-re elérheti a 26 billió dollárt Észak-Amerikában.

13 A költések jelenlegi arányai eltolódást mutatnak a fizetett találatok javára (88 százalékban), miközben a SEO csupán 11 százalékkal részesedik az összegből. Ez a tendencia megváltozik a jövőben, mivel az internetezők jobban kedvelik a természetes listázást, mint a fizetett találatokat. A használók relevánsabbnak, elfogadhatóbbnak tartják a keresésekre kapott természetes találatokat, míg az utóbbit egyszerű reklámnak vélik.

14

15

16 Az IAB (Interactive Advertising Bureau) Hungary sajtótájékoztatója szerint
„Az online reklámköltés nettó 27,2 milliárd forintot tett ki 2010-ben, 16 százalékkal többet mint egy évvel korábban. Ez az összeg a teljes reklámtorta 15,9 százalékát teszi ki. A felmérés szerint 2010-ben mobilreklámozásra a hirdetők 500 millió forintot fordítottak, míg az internetes oldalakon megjelenők bannerekre a legtöbbet, 14,8 milliárd forintot. A keresőkön 7,48 milliárd forintot költöttek reklámra, az előbbi 7, az utóbbi 44 százalékkal több az egy évvel korábbinál. (Forrás: – MTI hír)

17 A keresőszolgáltatások, a cégek, vállalatok érdekeltek abban, hogy minél több bevételre tegyenek szert. Jelentős mennyiségű pénzösszeget fektetnek be keresőmarketingbe a későbbi megtérülés reményében. Ebben a kiélezett versenyhelyzetben a keresők folyamatosan törekszenek arra, hogy megújuljanak és, hogy minél több speciális, új szolgáltatással vonzzák a használókat maguk köré. Ezért rendkívül fontos a versenyben részt vevő szereplők számára, hogy az egyes keresőeszközök minőségét hogyan értékelik a kutatók.

18 1.3. Információkeresési modellek
Az információkeresésre irányuló kutatás több mint két évtizedes múltra tekint vissza. A vizsgálódás egyik lehetséges iránya a kérdést feltevő használók viselkedésének tanulmányozása, azaz milyen kérdést, hogyan, milyen társadalmi rétegből, milyen tanultsággal rendelkezők tesznek fel. A kutatók 1981-től folyamatosan számos modellt alkottak meg.

19 A modellek kialakítását befolyásolta a kutatók világlátása, kutatási területe és jártassága.
Ennek értelmében beszélhetünk kognitív perspektivikus, szociális, szociális-kognitív vagy szervezeti modellekről. E modellek által a használók weben történő keresése több szinten vizsgálható: 1. beleértve a társadalmi és a szervezeti szintet, 2. az információkeresés szintjét, 3. az ember és a számítógép közötti kapcsolat szintjét, 4. a megfogalmazott keresőkérdés szintjét.

20 Csak jelzésszerűen hivatkozom kiváló kutatókra, akik komoly eredményeket értek el ezen a területen: Spink, Jansen, Saracevic, Ingwersen.

21 1.4. A tárgykör alapvető fogalmai és azok kapcsolatai
Metaadat: ez alatt a weblapok intellektuálisan vagy automatikusan létrehozott másodlagos adatait értjük, amelyek magát a dokumentumot jellemzik. Másik definíció szerint: metaadaton mindazokat a többletinformációkat értjük, amelyeket a weboldalak készítői a weboldalakhoz kapcsolnak a keresőkérdés pontosabb megválaszolása reményében.

22 A keresőrendszerek a saját adatbázisukban csupán olyan technikai metaadatokat tesznek be, mint a begyűjtött dokumentum URL címe, fájlformátuma, mérete, begyűjtési dátuma stb. Ezen adatok körébe tartoznak: a bibliográfiai leírás szabványosított adatelemei, a dokumentum tartalmát leíró kulcsszavak, tárgyszavak, deszkriptorok és az osztályozási jelzetek.

23 Metaadat-rendszerek és a katalogizálás
Szükség volt a metaadatok egységes elektronikus kezelésére, ami kiterjedt ezeknek az adatoknak az elsődleges dokumentumokból való kinyerésére és a dokumentumok számítógépes leírására. Metaadat-rendszereket hoztak létre. Pl.: - OCLC InterCat, - DublinCore, - WWW Semantic Header, - TEI (Text Encoding Initiative) fejléc stb.

24 E rendszereket összehasonlítva megfigyelhető, hogy a mű azonosítására szolgáló adatelemek (a szerző, a cím, a kiadó, a megjelenés éve, az ISBN stb.) mindegyikben szerepelnek. A további jellemzők (a megjelenés helye, az objektum típusa, formája, nyelve, vagy a rendszerkövetelmények, az elérés módja, költsége stb.) metaadatrendszerenként változnak. Az IFLA Katalogizálási Szekciójának keretében külön munkacsoport alakult a különböző metaadat-rendszerek alkalmazásának vizsgálatára.

25 A Dublin Core szabványos metaadat formátum az elektronikus dokumentumok katalogizálását és a metaadatokból álló rekordok adatcseréjét teszi lehetővé a hálózaton. A Dublin Core létrehozásának oka az volt, hogy egyszerűbb megoldást találjanak ki a szigorú minőségi követelményeket és komplex formátumot megkívánó könyvtári katalogizáló rendszerek helyett. A Dublin Core jelentős, mert napjainkban ez az egyik legáltalánosabban elterjedt metaadat-alkalmazás.

26 A DC formátum 15 leíró elemet tartalmaz
A DC formátum 15 leíró elemet tartalmaz. Továbbá az áll a legközelebb a könyvtári katalogizáláshoz. A DC-t a USMARC-formátummal összehasonlítva Gorman azt találta, hogy minden egyes DC-elemnek megvan a megfelelő USMARC-mezője. A DC fejlesztői és használói elhatározták, hogy az IFLA FRBR-tanulmányát veszik alapul az elektronikus publikációk nemzeti indexelési szabályainak kialakításához. Elterjedését elősegítette, hogy adatelemeit az európai szabványosítási szervezet, a European Committee for Standardization (CEN) is elfogadta.

27 Az elektronikus dokumentumok bibliográfiai számbavételében Gorman szerint négy megközelítés lehetséges: a teljes, könyvtári szabályokon alapuló katalogizálás; a teljes (15 elemű) Dublin Core alkalmazása; a minimális (9 elemű) Dublin Core alkalmazása; a strukturálatlan teljes szövegű kulcsszavas keresés.

28 Ha az elektronikus dokumentumokat értékük szerint rangsorolják, akkor a bibliográfiai számbavétel mind a négy szintje alkalmazható: 1. az elektronikus dokumentumok kis része (2%-a) a teljes MARC-rekordokban katalogizálható; 2. a teljes Dublin Core szerinti “katalogizálás”; 3. a minimális Dublin Core szerinti rekordok létrehozását jelenti; 4. az elektronikus dokumentumok nagyobbik – és kevésbé értékes – része a keresőmotorokra hagyható.

29 1.4.1. A keresőszolgáltatások típusai
I. Indexelőszolgáltatások : (search engines, Suchmaschinen, moteurs de recherche) emberi munka nélkül, számítógépes programok segítségével végzik a keresést a hálózaton. Ezek a szolgáltatások két fő részből állnak: a keresőrobotból (crawler, web spider, web robot, bot) és az indexelőből (indexer).

30 A robotok állandóan figyelemmel követik és begyűjtik a weboldalakat a világhálóról a keresőszolgáltatás adatbázisába. A webhelytulajdonosok adhatnak utasításokat a robotoknak begyűjtéskor, ekkor egy robots.txt állományt kell elhelyezniük a webhely gyökérkönyvtárában. A robotok úgy vannak kialakítva, hogy követniük kell az utasításokat, ezért megpróbálják megtalálni a robots.txt állományt és elolvasni az utasításokat belőle, mielőtt a webhelyről bármilyen állományt begyűjtenének.

31 Ha ez az állomány nem található meg, akkor feltételezik, hogy a webtulajdonos nem kíván speciális utasításokat meghatározni számukra. A robots.txt állomány valójában egy olyan kérés a webhelyen, amely megszabja, hogy egyes robotok bizonyos állományokat vagy könyvtárakat figyelmen kívül hagyjanak begyűjtéskor. Amennyiben a webhely több aldomain-ből áll, akkor azok mindegyikének rendelkeznie kell a saját robots.txt-jével.

32 Az indexelő elemzi a begyűjtött dokumentumokat, amelyekből előállítja az indexkifejezéseket. Létrehoz egy indexet, amely minden szóhoz – a stopword-öket kivéve – hozzárendeli az őt tartalmazó Uniform Resource Locator-ok (URL) listáját. A keresőszolgáltatás erre az indexre támaszkodik, amely révén elvégzi a keresést a felhasználó számára.

33 A keresőrobotot és az indexelőt integráló egységet „keresőgépnek”, „keresőmotornak”, „keresőműnek” (search engine), „keresőrendszernek” (search system) nevezzük. Tévesen a teljes keresőszolgáltatást „keresőgépnek”, „keresőmotornak”, „robotnak” hívjuk, ami a szolgáltató rendszernek csak az egyik részét jelenti. Ebbe beletartozik még a felhasználói felület és a szolgáltatott tartalom is.

34 Ezek a keresőszolgáltatások általában rendelkeznek egy egyszerű és egy összetett keresési lehetőséggel. Egyszerű kereséskor rendkívül nagy lehet a visszakeresett, nem releváns dokumentumok száma, azaz a zaj.

35 A zaj csökkentésére tanácsos használnunk a részletes keresési lehetőséget (advanced search, powered search). Példák indexelőszolgáltatásokra: Google, Bing, Voila stb. szolgáltatások.

36 II. Internetkatalógusok: (directories, annuaires Internet, répertoires Internet),
a szakirodalmi források különbözően hívják az ilyen típusú keresőket. Megnevezéseik a következők: „böngészőszolgáltatás” (browsing service, browsing Dienste), „tárgyszótár”, „tématár” (subject directory, Themenverzeichniss, annuaire thématique), „webes katalógus” (annuaire Web, répertoire Web).

37 A katalógusok hagyományos vagy egyénileg kialakított osztályozási rendszert használnak.
Az osztályozást és a tartalmi kivonatok készítését szerkesztőségben végzik. Azonban sok linkgyűjtemény egyéni vagy közösségi munka eredménye és nincs mögötte szerkesztőség pl. a Startlap tematikus oldalait. Humán erővel gyűjtik és rendezik fa-struktúrába a kiválasztott weboldalakat a generikustól a specifikus témákig haladva.

38 Ezekben a katalógusokban osztályok alapján böngészhetünk, de lehetőségünk van arra is, hogy a keresőkérdés megadásával találjuk meg a kívánt osztályt. Általában rendelkeznek a saját lelőhelyükön belül használható kulcsszavas keresési lehetőséggel is. Adatbázisaik sokkal kisebbek, mint az indexelőszolgáltatásokéi.

39 Azonban a keresés bennük lényegesen kisebb zajjal jár az intellektuális feldolgozásnak és az osztályozásnak köszönhetően. A szakterületre specializálódott keresők nagy része internetkatalógusnak számít. Többnyire általánosabb szintű információk felkutatására alkalmasak a népszerű és a tudományos témák esetében. Pl.: Yahoo.

40 Az internetkatalógusok két alcsoportja:
a. Akadémiai vagy szakmai gyűjtemények: a kialakított osztályok egyes szakértői szerkesztik azokat a kutatás támogatása érdekében. A hagyományos osztályozási rendszerek használata elsősorban ezekre a gyűjteményekre jellemző. A hivatkozások gondosan megválasztottak , többnyire annotáltak. Ezek a gyűjtemények megkímélnek minket a nagytömegű hirdetésektől, reklámoktól. Példák: Internet Public Library (IPL2), BUBL Information Service.

41 b. Kereskedelmi portálok:
a nagyközönség igényeit igyekeznek kielégíteni. Ebből adódóan a szórakozás, sport, kereskedelem, utazás, stb. témakörök túlsúlya jellemzi őket, valamint az igen intenzív reklám tevékenység. Pl.: Looksmart (profilja: online hirdetések, marketing). Vannak olyan katalógusok is, melyek indexelőszolgáltatásként is működnek, ilyen például az ok.hu/linktar.

42 III. Metakeresők: (meta search engines, Meta-Suchmaschinen, métamoteurs, métachercheurs)
segítségükkel több indexelőszolgáltatásban kereshetünk párhuzamosan anélkül, hogy az egyes szolgáltatásokkal külön foglalkoznunk kellene. A rendszer mindegyik keresőszolgáltatás adatbázisában végrehajtja a keresést, megjelenítve a találatoknál, hogy melyik szolgáltatás adatbázisában találta meg a rekordot.

43 Előnyük, hogy rövid idő alatt valószínűsíthetően több releváns találathoz jutunk.
Növeli a találati esélyünket az ismeretlen, homályos témák esetében. Átfogóbb képet nyújthat a weben egy adott témában fellelhető információkról. A metakeresők hátránya viszont, hogy azoknál általában egyszerű keresési módszereket alkalmazhatunk és többnyire nincs mód a mező szerinti szűkítésre.

44 A metakeresőket nehezebben csapják be azok az oldalak, amelyek mindenféle trükkös megoldásokkal a javukra befolyásolják a keresők találatrangsorolását. Az ilyen oldalak igazi, használható tartalommal nem rendelkeznek. Ezeket az oldalakat “spam”-eknek hívjuk. A metakeresők azért képesek a “spam” oldalak kiszűrésére, mert azok általában egy-egy keresőre szakosodnak és egyszerre több keresőt már nem tudnak becsapni.

45 A spamdexing kifejezés a spamming és az indexing szavak összeolvadásából született, amely a ‘90-es évek közepén jelent meg a keresőiparban. A search spam, search engine spam, illetve a web spam kifejezéseket szintén használjuk rá. Ez a folyamat számos módszert foglal magába, amelyeket azért alkalmaznak, hogy a kereső által indexelt oldalak relevanciáját vagy fontosságát növeljék. Használt módszerei azonban nincsenek összehangban a kereső indexelésének célkitűzésével.

46 Néhányan úgy vélekednek, hogy a spamdexing a keresőoptimalizálás részét képezi.Több kereső ellenőrzi a spamdexing előfordulásait és eltávolítja a gyanús oldalakat indexéből.

47 A metakeresők két típusa:
1. Az átfogó keresés eredményeit külön megjelenítő rendszerek, amelyek a különböző keresők által létrehozott találati halmazokat nem dolgozzák egybe. 2. Az eredményeket válogatottan és együttesen megjelenítő rendszerek, amelyek mindig a saját oldalukon jelenítik meg a találatokat összefésülve. Gyakrabban fordulnak elő, mint az előző típus. Többnyire kiszűrik a duplumokat, de az egyes keresők által generált találati listákat egy bizonyos rekordszámnál egyszerűen elvágják. Példák: Dogpile stb.

48 A metakeresőkkel szemben támasztott követelmények:
Párhuzamos keresés végrehajtása; Találat-összefésülés; Duplum rekordok kezelése, azaz ugyanazt a weboldalt a rendszernek fel kell ismernie, és jelölnie kell az egyes forrásokat, amelyből származik; ÉS- meg VAGY logikai műveletek biztosítása keresésnél;

49 Információveszteség nélküli működés (ha pl
Információveszteség nélküli működés (ha pl. az egyik weboldal tartalmi kivonatokat tartalmaz, azt át kell tudni vennie a metakeresőnek); Forrásrendszer elfedés (=hiding) a lekérdezett keresők tulajdonságai nem játszhatnak semmiféle szerepet a metarendszer szintjén, a felhasználónak semmit sem kell tudnia ezekről a specifikumokról; Teljesség (a keresésnek addig kell tartania, ameddig a lekérdezett szolgáltatásokból találatok nyerhetők).

50 IV. Intelligens keresőprogramok (intelligent agents)
- A felhasználó számítógépére telepíthető keresőprogramok. - Nagy részük működésébe intelligens ügynökszoftver technológiát integrál, ezáltal újabb keresési funkciókat nyújt a felhasználóknak. Pl.: a találatok automatikus finomítását, a keresőszavak tényleges kiemelését, a találatok elmentését és újra történő felhasználását, a megszakadt hivatkozások ellenőrzését, stb.

51 Működésükre jellemző, hogy:
a felhasználói elvárásokhoz történő folyamatos alkalmazkodás. Ezek a keresőprogramok figyelemmel követik a felhasználó kereső profilját, érdeklődési körét és annak megfelelő minőségi információt szolgáltatnak a hálózatról. Hasonlítanak a metakeresőkhöz, mert ugyanazt a keresőkérdést párhuzamosan több keresőszolgáltatáshoz juttatják el és a találatokat összefésülve jelenítik meg.

52 Dokumentumtípustól és formátumtól függetlenül képesek keresni.
Az ügynökszoftverek nem hoznak létre nagy indexeket, hanem autonóm módon keresik a kért információt. Kereső algoritmusaikat a felhasználótól kapott információ és visszajelzés alapján módosítják meg. A felhasználó csupán a kitűzött célt határozza meg számukra, de a megvalósítás mikéntjével és hogyanjával kapcsolatos döntéseket rábízza az ügynökszoftverekre.

53 Fő tulajdonságaik: Autonómia: a felhasználó nevében tevékenykednek és döntéseket hoznak a környezetükből kapott információk alapján. Rugalmasság: figyelemmel követik külső környezetüket és megvizsgálják a hasonló körülmények között végrehajtott korábbi tevékenységek (heurisztikák) sikerességét. Tevékenységüket olyan irányban képesek megváltoztatni, hogy azzal növeljék a cél sikeres elérésének valószínűségét.

54 Tanulás: ismerik a felhasználó személyes érdeklődési körét, ezért egy bizonyos idő után képesek egyre növekvő pontossággal előrejelezni, hogy az adott dokumentum számításba jöhet-e az adott felhasználónál, avagy sem. Mobilitás és távoli végrehajtás: ezek a programok a szerverek között vándorolnak egy heterogén hálózati környezetben.

55 Több népszerű keresőprogram jelent meg eddig a szoftverpiacon, amely kipróbálásra ingyenesen letölthető a hálózatról, teljes verziójukért azonban már fizetni kell, pl. Copernic szoftver. Ez a technológia a kutatás és egyben az új alkalmazásfejlesztés egyre növekvő területe. Egyre nagyobb szerepet kap a kifinomultabb keresések lebonyolításában a weben, például a láthatalan web információinak a felkutatásában.

56 1.4.2. A keresőkben használt keresőnyelv alapvető fogalmai
Amikor egy vagy több releváns kulcsszót írunk be a keresőablakba, a kereső indexében megvizsgálja, hogy melyek a kérdésünkre legjobban illeszkedő találatok és azokat szolgáltatja számunkra. A találatlistában szereplő oldalakról általában egy rövid ismertetést kapunk, amely magába foglalja a forrás címét, valamint annak kiemelt szövegrészeit.

57 Találati halmazaink mennyiségi viszonyait (a halmazok egymáshoz viszonyított terjedelmét, illetve helyzetét) logikai műveletekkel adhatjuk meg. Ezeket a műveleteket pedig logikai műveleti jelekkel – ún. operátorokkal – fejezhetjük ki. A legtöbb kereső támogatja az ÉS, VAGY, NEM Boole-operátorok használatát, amelyekkel a keresés tovább finomítható. A keresők egy része biztosítja a helyzeti operátorok (proximity operators) használatát is, amelyek lehetővé teszik számunkra, hogy meghatározzuk a kulcsszavak közötti távolságot (pl. NEAR, BETWEEN, WITH operátorok stb.).

58 Kereséskor a találati halmaz terjedelmét úgy módosíthatjuk, hogy megengedjük, hogy a keresőszó elején, végén vagy meghatározott karakterpozícióin bármilyen karakter helyezkedjen el. Ehhez „jolly joker” jeleket (wild card) adhatunk meg a keresőszóban. Bővebb találati halmazokat nyerhetünk abban az esetben, ha a keresőszó elején („balról csonkolás”) és/vagy végén („jobbról csonkolás”) meghatározott karaktert használunk, amely minden megelőző és/vagy követő karaktert helyettesít. Ezt a műveletet csonkolásnak (truncation) nevezzük. A csonkoló jelek használata keresőrendszerenként eltérő.

59 A keresőknél létezik egy kifinomult keresési technika a fogalom alapú keresés (concept-based searching). Ennél a technikánál statisztikai elemzéssel találjuk meg azokat az oldalakat is, amelyek nem tartalmazzák az általunk megadott kulcsszavakat. Ekkor azonban az oldalak olyan egyéb szavakat (pl. szinonimákat, tulajdonneveket, állandósult szókapcsolatokat) foglalnak magukba, amelyek ugyanabba a fogalomkörbe tartoznak, mint a beírt keresőszavak. Így a keresőrendszer akkor is relevánsnak minősíti az oldalakat, ha a megadott keresőszavak nem találhatók meg bennük.

60 Egy másik kereső funkció a fuzzy megfeleltetés/illesztés (fuzzy matching), melynek az a lényege, hogy a keresőszót a szótőre redukálják és minden lehetséges szóalakot ráillesztenek különböző algoritmusokkal. Ez nagy mértékben megnöveli a találati halmazunkat, mert minden kapcsolódó szót visszakeres, még a kevésbé relevánsakat is.

61 Néhány keresőnél alapértelmezett funkció a stemming, ami a keresőkérdés összes toldalékolt alakjának a visszakeresésére alkalmas. Ha ezt a funkciót használjuk a keresőkérdésre, akkor még bővebb találati halmazt kapunk a csonkoláshoz képest.

62 1.4.3. A találatmegjelenítés egyéb megoldásai
Beszélhetünk olyan keresőkről is, amelyek nem egy egyszerű találatlistában jelenítik meg a találatokat, helyette inkább a keresőkérdéshez kapcsolódó tematikus kategóriákba rendezik azokat. Ezek a csoportok (klaszterek) abban segítenek bennünket, hogy könnyen áttekinthessük a keresett témát, és hogy kiválaszthassuk a megfelelő kategóriát. A találatok klaszterálása segítséget nyújt a keresés finomításában a korábbi keresés találati halmazára támaszkodva pl. clusty.com kereső.

63 Találkozunk olyan vizuális keresőeszközökkel is, amelyek a találatokat grafikusan jelenítik meg (graphical visualization) két-vagy háromdimenziós képekben.


Letölteni ppt "Tudás reprezentálása a világhálón az internetes keresőrendszerek működése előadásvázlat Tóth Erzsébet Debreceni Egyetem Informatikai Kar, Könyvtárinformatikai."

Hasonló előadás


Google Hirdetések