Az internetes keresők működésének technikai háttere

Az internetes keresők működésének technikai háttere
Tóth Attila

I. Az internetes keresők
Internetes keresők alatt a programoknak egy olyan általános csoportját értjük, amely lehetővé teszi a weben történő információkeresést a felhasználók számára. Ezek a programok dokumentumokat indexelnek és arra törekednek, hogy megtalálják a feltett keresőkérdésre a releváns találatokat. Az internetes keresés alapvetően eltér egy lassan változó, kontrollált dokumentumgyűjteményben való kereséstől. Ez a különbség többek között abban is megnyilvánul, hogy a keresőknek meg kell találniuk a releváns webes tartalmaknak azokat a halmazait, amelyek jól hasznosíthatók a felhasználók számára, nem pedig egy hagyományos gyűjteményből kell kiválogatniuk a keresőkérdésre pontosan illeszkedő dokumentumokat. Az internetes keresők három munkafázisból állnak össze: 1.begyűjtés, 2. indexelés, 3. keresés. Ezek a folyamatok nagy teljesítményű elosztott számítógépes rendszereken futnak, folyamatosan és párhuzamosan. egy keresés megválaszolása kb. Egy kimutatás szerint egy keresés kb. 1 kJ energiát igényel, ami nagyjából annyi, amennyit az emberi szervezet 10 másodperc alatt éget el, és 10 ezerszer kevesebb széndioxid-kibocsátással jár, mint egy 5 mérföldes autózás a helyi könyvtárig.

I. Az internetes keresők

II. Történet Kezdetben az internetes oldalak nagyobb részt a File Transfer Protocol (FTP) protokollokon keresztül futottak. Eredetileg az internet így nem volt más, mint egy rövid összefoglaló azokból a FTP oldalakból, amelyeket a felhasználók meghatározott közösségi fájlok megtalálása érdekében olvashattak. De ahogyan az internethez csatlakozó web szerverek nevének listája gyarapodott, úgy vált a „world wide web” az ilyen oldalon megtalálható információk nélkülözhetetlen felületétévé. Igaz, hogy a földrajzilag széttagolt adat fájlok megtalálásához és rendszerezéséhez még némi fejlesztésre szükség volt, ám a kora kilencvenes évek erre is megadták a választ.

III. Működés és feladat A dokumentumok begyűjtését crawler (robot) programok végzik. Ezek egy összeválogatott URL címlistából indulnak el, ezután ezeket az oldalakat bejárva begyűjtik az azokban található további URL címeket (linkeket), majd ezeket is végigjárják és így tovább… Az így összegyűjtött URL címeket a crawler control modul, az ezekről letöltött fájlokat pedig a page repository (adattár) veszi át. Előbbi irányítja a crawlert, hogy mely címeket látogassa meg a továbbiakban, utóbbi pedig az indexelő és esetleg a kereső modul számára szolgáltatja az eltárolt dokumentumokat. A crawler engedelmeskedik a Robots Exclusion Standard (Robot Kizárási Szabvány) szabályzatnak, vagyis a robots.txt fájlban megadott engedélyek vagy tiltások alapján dönti el, hogy egy adott szerveren mely weblapokat gyűjt be, illetve melyekről követi tovább a linkeket. A webmesterek mellett a kereső üzemeltetője is szabályozhatja a crawler működését: beállíthatja például, hogy egy oldalon belül milyen mélységig menjen le a robot, milyen formátumú dokumentumokat gyűjtsön be és milyen mérethatárig, milyen gyakran térjen vissza egy oldalra (ez lehet egy fix időhatár, vagy kikalkulálható a korábbi látogatások során észlelt változások mennyiségéből).

III. Működés és feladat A web hatalmas mérete és bonyolultsága miatt minden kereső csak egy részét (gyakran csak egy kis töredékét) tudja begyűjteni az elérhető fájloknak és nagy különbségek vannak az egyes keresők között a kiterjedésben és frissességben, ami jelentősen befolyásolja a használhatóságukat. A nagy keresők által nem látott terület a deep web (mélyweb) amelynek mérete egyes becslések szerint több százszorosa a surface (látható) webnek. A deep web tartalmához a crawler több okból nem fér hozzá: vagy tiltja a robots.txt, vagy az oldalak dinamikusan generálódnak egy adatbázisból a felhasználó kérésére, vagy csak regisztrált felhasználók tudnak belépni az adott területre, vagy olyan speciális formátumban van a tartalom, amit a robot nem tud értelmezni, vagy egyszerűen elszigetelt az oldal.

III. Működés és feladat A begyűjtött "nyersanyagból" a kereső többféle indexet készít és ezeket adatbázisokban tárolja. A link index (szerkezeti index) azt rögzíti egy gráf formájában, hogy mely weblapról mely további oldalakra mutatnak linkek. Mivel a hasonló tartalmú oldalak gyakran hivatkoznak egymásra, ezt az információt a keresőrendszer felhasználja a találatok listájában, amikor további hasonló weblapokat ajánl a felhasználónak. Fontos az is, hogy egy oldalra hány link mutat és mely oldalakról hivatkoznak rá, továbbá hogy ezekre az oldalakra hányan és honnan linkelnek és így tovább... A text index (szöveg index) a begyűjtött oldalakon található szavakból és egyéb karaktercsoportokból készül, de esetleg kihagynak belőle bizonyos szavakat, pl. a névelőket. Ez egy ún. invertált index, amelyben minden szóhoz hozzákapcsolják minden olyan oldal azonosítóját (doc_id), ahol az adott szó előfordul, továbbá egy mutatót, amely a szó pontos helyét jelöli az oldalon belül és esetleg egyéb információkat is. Az indexek felépítése a legnehezebb műszaki feladat, maga a keresés már egyszerűbb és kevesebb erőforrást igényel. Az indexelés sebessége azért is fontos, mert ettől függ, hogy milyen gyorsan válik megtalálhatóvá a begyűjtött friss tartalom.

III. Működés és feladat A felhasználó által beírt keresőszavakat a keresőprogram a text index adatbázisából gyűjti ki, rangsorolja őket valamilyen algoritmus szerint, majd kikeresi az előfordulási helyükhöz tartozó metaadatokat, továbbá többnyire összeállít egy szövegkörnyezetet, majd megjeleníti őket valamilyen formában (jellemzően egy lapozható listaként). Az, hogy egy kereső milyen algoritmus szerint rendez, nagyban meghatározza a hasznosságát és népszerűségét. Fontos emellett a keresőnyelv fejlettsége ill. az összetett keresőűrlap opciói: csonkolás/maszkolás/ékezetkezelés/pontatlanul írt (fuzzy) szavak javítása/automatikus kiegészítés, logikai műveletek, közelségi/helyzeti operátorok, prefixek (pl. title:, site:, link:) szűrők (pl. domain, formátum, nyelv, dátum, jogok), természetes nyelvű keresés, gépelési hibák javítása, szinonimák és ragozott alakok, hasonló oldalak keresése. A találatok megjelenítésének sebessége és módja is lényeges szempont: egyszerű listás vagy kéthasábos, szövegkörnyezet, címkefelhő, gyorsnézet, klaszterezés, grafikus, statisztikai adatok, relevancia érték, stb.; valamint a kiegészítő szolgáltatások: pl. formátumkonvertálás, automatikus fordítás, cache (tárolt változat); és persze az is, hogy mennyi és milyen reklámot tesz a kereső a találatok mellé vagy .

IV. PageRank A PageRank (PR) valós szám, amely egy adott oldal fontosságát tükrözi. A Google kereső a PageRank algoritmust alkalmazza az általa indexelt oldalak fontosságának meghatározásához, amit figyelembe vesz a rangsorolás során. A Google más egyéb szempontokat is felhasznál a sorrend kialakításakor, amelyek közül csak egy a PageRank érték, azonban ez az egyik legfontosabb. A PageRank algoritmus alapgondolata, hogy amikor egy oldal hivatkozik egy másik weblapra, akkor a forrásweboldal tulajdonképpen ajánlja a hivatkozott weblapot. Tehát az oldal létrehozója azért tüntette fel a linket az oldalán, mert a másik lapot valamilyen szempontból fontosnak tekintette. Emellett azt is figyelembe kell vennünk, hogy a hivatkozó oldal mennyire fontos, mert egy fontos oldalnak többet ér a hivatkozása. Eredményül egy rekurzív algoritmust kapunk, ami azt fejezi ki, hogy egy oldal fontos, ha mérvadó oldalak hivatkoznak rá. Ez a modell természetesen vitatható, hiszen lehetséges, hogy csak rossz példaként hozunk fel egyes weboldalakat, és nem arra szeretnénk velük célozni, hogy ők értékes oldalak. A gyakorlat azonban az eredeti alapötlet sikerességét igazolja, hiszen kevésbé meghatározók ez utóbbi linkek az interneten.

IV. PageRank A PageRank algoritmus egy olyan modellnek is tekinthető, amely a "véletlen szörfölő" viselkedését tükrözi. Egy ilyen felhasználó véletlenszerűen elindul egy weboldalról és a hivatkozásokra véletlenszerűen kattintva folyamatosan előrehalad. Nem is figyeli meg, hogy hova kattint, hanem egyenletes eloszlás szerint választ a meglévő hivatkozások közül. Ezzel magyarázható az, hogy a PageRank algoritmus a kimenő linkek számával elosztja egy bizonyos oldal fontosságát. Mindez addig tart, amíg szörfölőnk meg nem unja a kattintgatást és egy másik véletlenszerűen kiválasztott weboldalon nem indul el. Ez az egyenlet egy valószínűségi eloszlást határoz meg, ahol egy-egy weboldal PageRank értéke egy valószínűségnek (0 és 1 közötti valós szám) felel meg. Ebben a modellben az összes weboldal PageRank értékeinek összege maximum 1 lehet. Ez a megállapítás csak abban az esetben igaz, ha a felhasználónk egy adott oldalon mindig talál legalább egy hivatkozást, amelyen továbbhaladhat.

Köszönöm a figyelmet! Tóth Attila

Az internetes keresők működésének technikai háttere

Hasonló előadás

Az előadások a következő témára: "Az internetes keresők működésének technikai háttere"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Az internetes keresők működésének technikai háttere

Hasonló előadás

Az előadások a következő témára: "Az internetes keresők működésének technikai háttere"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés