Az internetes keresők működésének technikai háttere

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Hogyan jutunk információkhoz az interneten
Keresőrendszerek.
GRIN: Gráf alapú RDF index
Keresés a számítógépes katalógusokban
A Savaria Egyetemi Könyvtár Katalógusa Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók.
Support.ebsco.com Az EBSCOhost bemutatása Oktatóprogram.
Kereső program használata Készítette: Berger Nikolett
Orbán Éva SZIE Állatorvos-tudományi Könyvtár Hagyományos és új terápiás eljárások az információhiány kezelésére Tanulságos esetek az Állatorvos-tudományi.
Hálózati és Internet ismeretek
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
1 Internet. 2 WWW  World Wide Web  Hivatkozásokkal összekötött hipermédia dokumentumok rendszere  Dokumentumok -> Weboldalak  A weboldalak hipertext.
Internet ismeretek II..
C++ programozási nyelv Gyakorlat hét
A Krúdy Gyula Városi Könyvtár katalógusának használatáról…
Savaria Egyetemi Könyvtár Katalógusa Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók.
A láthatatlan/mély web tartalmi és technikai jellemzői
Hatékony gyorsítótár használata legrövidebb utak kereséséhez Bodnár István, Fodor Krisztián, Gyimesi Gábor Jeppe Rishede Thomsen, Man Lung Yiu, Christian.
13.a CAD-CAM informatikus
Adatbázis-kezelés.
A web és működése A Világháló három szabványra épül:
Amit a HTML-ről érdemes tudni
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
Internetes böngészőprogram használata, beállításai
1 Hogyan juthatunk be a keresők első oldalára – kereső optimalizálás.
Kereső programok használata
Aki keres, az talál? Igen, talál. Ki ezt, ki azt, de egy szót beütve a google keresőbe (pl.) mindig ugyanazt, hacsak nem kerültek fel új honlapok az adott.
FTP File Transfer Protocol. Mi az FTP? Az FTP egy olyan protokoll, amely fájlok interneten keresztül végzett átvitelére szolgál. A felhasználók többsége.
Domain Name System – DNS keresése az interneten.
Hálózatkezelés, Internet 5. óra Előadó: Jánosik Tamás.
Információ és kommunikáció Szilágyi András. Követelmények A cd-n az anyag a következő részeket fedte le: Kliensprogramok, letöltés-vezérlők Kliensprogramok,
Keresőoptimalizáló eszközök ( S earch E ngine O ptimization tools )
Szemantikus keresők.
Vida Andrea SZTE Egyetemi Könyvtár
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Wikicsoda? Márkaépítés és forgalom-generálás tartalommal Sáfrány Zsuzsanna head of neo content DigitalFestival április 29.
A Google teljes kihasználása. A legtöbb felhasználónak a webkeresés jelenti a Google legfontosabb funkcióját. Alapértelmezésben aktivált.
Support.ebsco.com Business Source keresés az EBSCOhost felületen Oktatóprogram.
Support.ebsco.com Az EBSCOhost találati lista Oktatóprogram.
Keresőrendszerek.
World Wide Web Szabó Péter Számítástechnika-technika IV. évfolyam.
Az internetes keresési módszerek
Keresés a weben Kulcsszavas keresés: Google (
Violet nails Készítette: Csőke Vivien. Bevezetés Téma: Violet nails - műkörömkészítő weblapjának elkészítése A weboldal elérhető az alábbi címen: violetnails.atw.hu.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Könyvtár- és informatikai alapismeretek kurzus október 1.
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
A web site minősítése Források: Bokor Péter szakdolgozata (2002) és a benne megadott hivatkozások: Dotkom Internet Consulting: Üzleti weboldalak elemzése,
Keresés fajtái Matching (szabadszavas)
Memóriakezelés feladatok Feladat: 12 bites címtartomány. 0 ~ 2047 legyen mindig.
Adatkeresés az interneten
Előadássorozat a Független Pedagógiai Intézetben fupi.hu Az internet: miért, hogyan? 2 / 10. Csada Péter Csada Bt. cspc.hu.
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
Webszerkesztés. IP cím pl: Domain cím - DNS pl: ország nevehttp:// számítógép címe World Wide Web Webszerverre.
Internet tudományos használata Skultéti Attila 2015.
17 ISMERTESSE AZ INTERNETES KERESÉSI MÓDSZEREKET! KONKRÉT GYAKORLATI PÉLDA KERESÉSRE.(KERESÉS, TALÁLATI LISTA ÉRTELMEZÉSE, TALÁLT OLDAL MENTÉSE.) Készítette:
Internet tudományos használata Skultéti Attila 2015.
Információ és kommunikáció Gellér Zoltán 2015 Számítógépes ismeretek.
Keresési módszerek könyvtári katalógusokban. A könyvtári katalógus funkciója A könyvtár állományában meglévő dokumentumok feltárása Az egyes példány adatainak.
Webportálok készítése CMS alapokon beadandó
Információ és kommunikáció
Információ és kommunikáció
Az Endnote bibliográfia adatbázis-kezelő szoftver alapvető használata Skultéti Attila
A HTML alapjai Az internet és a web.
Hogyan tájékozódjunk a magyar orvosi szakirodalomban?
Információ és kommunikáció
Internet és kommunikáció
Internet és kommunikáció
Navigáció az Interneten:
Előadás másolata:

Az internetes keresők működésének technikai háttere Tóth Attila

I. Az internetes keresők Internetes keresők alatt a programoknak egy olyan általános csoportját értjük, amely lehetővé teszi a weben történő információkeresést a felhasználók számára. Ezek a programok dokumentumokat indexelnek és arra törekednek, hogy megtalálják a feltett keresőkérdésre a releváns találatokat. Az internetes keresés alapvetően eltér egy lassan változó, kontrollált dokumentumgyűjteményben való kereséstől. Ez a különbség többek között abban is megnyilvánul, hogy a keresőknek meg kell találniuk a releváns webes tartalmaknak azokat a halmazait, amelyek jól hasznosíthatók a felhasználók számára, nem pedig egy hagyományos gyűjteményből kell kiválogatniuk a keresőkérdésre pontosan illeszkedő dokumentumokat. Az internetes keresők három munkafázisból állnak össze: 1.begyűjtés, 2. indexelés, 3. keresés. Ezek a folyamatok nagy teljesítményű elosztott számítógépes rendszereken futnak, folyamatosan és párhuzamosan. egy keresés megválaszolása kb. Egy kimutatás szerint egy keresés kb. 1 kJ energiát igényel, ami nagyjából annyi, amennyit az emberi szervezet 10 másodperc alatt éget el, és 10 ezerszer kevesebb széndioxid-kibocsátással jár, mint egy 5 mérföldes autózás a helyi könyvtárig.

I. Az internetes keresők http://www.google.com http://www.yahoo.com http://www.altavista.com http://www.excite.com http://search.lycos.com http://www.live.com http://www.ask.com http://www.webcrawler.com http://www.metacrawler.com http://www.infoseek.com http://www.wikiseek.com http://www.chacha.com http://www.go.com http://www.dogpile.com http://www.alltheweb.com http://search.aol.com http://www.exalead.com http://www.a9.com http://www.ixquick.com http://www.gigablast.com http://www.info.com http://www.hotbot.com

II. Történet Kezdetben az internetes oldalak nagyobb részt a File Transfer Protocol (FTP) protokollokon keresztül futottak. Eredetileg az internet így nem volt más, mint egy rövid összefoglaló azokból a FTP oldalakból, amelyeket a felhasználók meghatározott közösségi fájlok megtalálása érdekében olvashattak.  De ahogyan az internethez csatlakozó web szerverek nevének listája gyarapodott, úgy vált a „world wide web” az ilyen oldalon megtalálható információk nélkülözhetetlen felületétévé. Igaz, hogy a földrajzilag széttagolt adat fájlok megtalálásához és rendszerezéséhez még némi fejlesztésre szükség volt, ám a kora kilencvenes évek erre is megadták a választ. 

III. Működés és feladat A dokumentumok begyűjtését crawler (robot) programok végzik. Ezek egy összeválogatott URL címlistából indulnak el, ezután ezeket az oldalakat bejárva begyűjtik az azokban található további URL címeket (linkeket), majd ezeket is végigjárják és így tovább… Az így összegyűjtött URL címeket a crawler control modul, az ezekről letöltött fájlokat pedig a page repository (adattár) veszi át. Előbbi irányítja a crawlert, hogy mely címeket látogassa meg a továbbiakban, utóbbi pedig az indexelő és esetleg a kereső modul számára szolgáltatja az eltárolt dokumentumokat. A crawler engedelmeskedik a Robots Exclusion Standard (Robot Kizárási Szabvány) szabályzatnak, vagyis a robots.txt fájlban megadott engedélyek vagy tiltások alapján dönti el, hogy egy adott szerveren mely weblapokat gyűjt be, illetve melyekről követi tovább a linkeket. A webmesterek mellett a kereső üzemeltetője is szabályozhatja a crawler működését: beállíthatja például, hogy egy oldalon belül milyen mélységig menjen le a robot, milyen formátumú dokumentumokat gyűjtsön be és milyen mérethatárig, milyen gyakran térjen vissza egy oldalra (ez lehet egy fix időhatár, vagy kikalkulálható a korábbi látogatások során észlelt változások mennyiségéből).

III. Működés és feladat A web hatalmas mérete és bonyolultsága miatt minden kereső csak egy részét (gyakran csak egy kis töredékét) tudja begyűjteni az elérhető fájloknak és nagy különbségek vannak az egyes keresők között a kiterjedésben és frissességben, ami jelentősen befolyásolja a használhatóságukat. A nagy keresők által nem látott terület a deep web (mélyweb) amelynek mérete egyes becslések szerint több százszorosa a surface (látható) webnek. A deep web tartalmához a crawler több okból nem fér hozzá: vagy tiltja a robots.txt, vagy az oldalak dinamikusan generálódnak egy adatbázisból a felhasználó kérésére, vagy csak regisztrált felhasználók tudnak belépni az adott területre, vagy olyan speciális formátumban van a tartalom, amit a robot nem tud értelmezni, vagy egyszerűen elszigetelt az oldal.

III. Működés és feladat A begyűjtött "nyersanyagból" a kereső többféle indexet készít és ezeket adatbázisokban tárolja. A link index (szerkezeti index) azt rögzíti egy gráf formájában, hogy mely weblapról mely további oldalakra mutatnak linkek. Mivel a hasonló tartalmú oldalak gyakran hivatkoznak egymásra, ezt az információt a keresőrendszer felhasználja a találatok listájában, amikor további hasonló weblapokat ajánl a felhasználónak. Fontos az is, hogy egy oldalra hány link mutat és mely oldalakról hivatkoznak rá, továbbá hogy ezekre az oldalakra hányan és honnan linkelnek és így tovább... A text index (szöveg index) a begyűjtött oldalakon található szavakból és egyéb karaktercsoportokból készül, de esetleg kihagynak belőle bizonyos szavakat, pl. a névelőket. Ez egy ún. invertált index, amelyben minden szóhoz hozzákapcsolják minden olyan oldal azonosítóját (doc_id), ahol az adott szó előfordul, továbbá egy mutatót, amely a szó pontos helyét jelöli az oldalon belül és esetleg egyéb információkat is. Az indexek felépítése a legnehezebb műszaki feladat, maga a keresés már egyszerűbb és kevesebb erőforrást igényel. Az indexelés sebessége azért is fontos, mert ettől függ, hogy milyen gyorsan válik megtalálhatóvá a begyűjtött friss tartalom.

III. Működés és feladat A felhasználó által beírt keresőszavakat a keresőprogram a text index adatbázisából gyűjti ki, rangsorolja őket valamilyen algoritmus szerint, majd kikeresi az előfordulási helyükhöz tartozó metaadatokat, továbbá többnyire összeállít egy szövegkörnyezetet, majd megjeleníti őket valamilyen formában (jellemzően egy lapozható listaként). Az, hogy egy kereső milyen algoritmus szerint rendez, nagyban meghatározza a hasznosságát és népszerűségét. Fontos emellett a keresőnyelv fejlettsége ill. az összetett keresőűrlap opciói: csonkolás/maszkolás/ékezetkezelés/pontatlanul írt (fuzzy) szavak javítása/automatikus kiegészítés, logikai műveletek, közelségi/helyzeti operátorok, prefixek (pl. title:, site:, link:) szűrők (pl. domain, formátum, nyelv, dátum, jogok), természetes nyelvű keresés, gépelési hibák javítása, szinonimák és ragozott alakok, hasonló oldalak keresése. A találatok megjelenítésének sebessége és módja is lényeges szempont: egyszerű listás vagy kéthasábos, szövegkörnyezet, címkefelhő, gyorsnézet, klaszterezés, grafikus, statisztikai adatok, relevancia érték, stb.; valamint a kiegészítő szolgáltatások: pl. formátumkonvertálás, automatikus fordítás, cache (tárolt változat); és persze az is, hogy mennyi és milyen reklámot tesz a kereső a találatok mellé vagy .

IV. PageRank A PageRank (PR) valós szám, amely egy adott oldal fontosságát tükrözi. A Google kereső a PageRank algoritmust alkalmazza az általa indexelt oldalak fontosságának meghatározásához, amit figyelembe vesz a rangsorolás során. A Google más egyéb szempontokat is felhasznál a sorrend kialakításakor, amelyek közül csak egy a PageRank érték, azonban ez az egyik legfontosabb. A PageRank algoritmus alapgondolata, hogy amikor egy oldal hivatkozik egy másik weblapra, akkor a forrásweboldal tulajdonképpen ajánlja a hivatkozott weblapot. Tehát az oldal létrehozója azért tüntette fel a linket az oldalán, mert a másik lapot valamilyen szempontból fontosnak tekintette. Emellett azt is figyelembe kell vennünk, hogy a hivatkozó oldal mennyire fontos, mert egy fontos oldalnak többet ér a hivatkozása. Eredményül egy rekurzív algoritmust kapunk, ami azt fejezi ki, hogy egy oldal fontos, ha mérvadó oldalak hivatkoznak rá. Ez a modell természetesen vitatható, hiszen lehetséges, hogy csak rossz példaként hozunk fel egyes weboldalakat, és nem arra szeretnénk velük célozni, hogy ők értékes oldalak. A gyakorlat azonban az eredeti alapötlet sikerességét igazolja, hiszen kevésbé meghatározók ez utóbbi linkek az interneten.

IV. PageRank A PageRank algoritmus egy olyan modellnek is tekinthető, amely a "véletlen szörfölő" viselkedését tükrözi. Egy ilyen felhasználó véletlenszerűen elindul egy weboldalról és a hivatkozásokra véletlenszerűen kattintva folyamatosan előrehalad. Nem is figyeli meg, hogy hova kattint, hanem egyenletes eloszlás szerint választ a meglévő hivatkozások közül. Ezzel magyarázható az, hogy a PageRank algoritmus a kimenő linkek számával elosztja egy bizonyos oldal fontosságát. Mindez addig tart, amíg szörfölőnk meg nem unja a kattintgatást és egy másik véletlenszerűen kiválasztott weboldalon nem indul el. Ez az egyenlet egy valószínűségi eloszlást határoz meg, ahol egy-egy weboldal PageRank értéke egy valószínűségnek (0 és 1 közötti valós szám) felel meg. Ebben a modellben az összes weboldal PageRank értékeinek összege maximum 1 lehet. Ez a megállapítás csak abban az esetben igaz, ha a felhasználónk egy adott oldalon mindig talál legalább egy hivatkozást, amelyen továbbhaladhat.

Köszönöm a figyelmet! Tóth Attila