Keresőszolgáltatások MAGYAR DÁNIEL
I. Keresőmotorok története 1993 Wandex Fejlesztő: Matthew Gray Ma már nem működik 1993 Aliweb Archie Like Indexing for the Web Ma is működik 1994 Lycos Üzleti vállalkozássá válik
II. Ezután sok keresőmotor jön létre WebCrawler, Hotbot, Excite, Infoseek, Inktomi, Open Text, Northern Light és az AltaVista mind ekkortájt születtek sok olyan kereső is született, ami nem a World Wide Weben keresett valamilyen más internetes protokollon át elérhető oldalak között Pl. Archie, ami az anonymous FTP szerverek között, Veronica, ami a Gopher oldalak között keresett
III. 1996 Google Stanford egyetem: Larry Page, Sergey Brin PageRank algoritmus 2001 körül válik egyeduralkodóvá 2004 Yahoo 2002-ben megvásárolta az Inktomit, majd 2003-ban az AlltheWebet és az AltaVistát, és 2004-ben megindította saját keresőszolgáltatását.
IV. Új kísérletek a keresőmotorokkal Tárgyspecifikus hivatkozási népszerűség ezt használja a Teoma keresőmotor, amire az Ask Jeeves épül Klaszterezés Adott dolgokból halmazokat (klasztereket) alakítunk ki úgy, hogy az egy klaszterbe tartozó elemek jobban hasonlítsanak egymásra, mint a más klaszterben levőkre. például a Clusty és a magyar fejlesztésű Polymeta
V. Kétféle keresőszolgáltatás A, tematikus Metázás:Tartalmak -> kulcsszavak -> ez alapján később visszakeresés Összes lap.hu Ingyenes Emberi intelligencia alapú szűrés Nagy adatbázisok (pl. Könyvtár oldalai) itt oxford MTAittoxfordMTA
VI. B, Index alapú Indexelés Index: „régi telefonkönyv” (betűk alapján besorolva) Nagy adatbázisok teljes szavakra vannak indexelve Nem indexelnek be minden szót/oldalt Yahoo-Google: „vas” szó Yahoo: találat Google: találat
VII. Index alapú keresőszolgáltatások működése Folyamat – 3 része van 1. Kb szerver Robotprogram (vö. szondák) Bejárja a weblapokat Elküldi az adatokat 2. Kb szerver A robotprogramok által elküldött adatok feldolgozásáért felelősek Indexelnek 3. A kérést befogadó szerverek csoportja A keresni kívánt szót begépeljük például a Google keresőjébe Erre a kérésre a szerver már a saját adatbázisából jelenít meg találatokat Fontos a találatok sorrendje (átlagos felhasználó: Első három találat)
VIII. PageRank PageRank A PageRank az informatikában egy olyan algoritmus, amely hiperlinkekkel összekötött dokumentumokhoz számokat rendel azoknak a hiperlink-hálózatban betöltött szerepe alapján. (Ezt a számot szintén PageRanknek nevezik.) A PageRank a Google internetes keresőmotor legfontosabb eleme. A Google arra a feltételezésre épít, hogy a weboldalak készítői általában azokra az oldalakra linkelnek a saját lapjukról, amiket jónak tartanak, vagyis minden hiperlink felfogható egy-egy szavazatként a céloldalra. Minél több szavazatot kap egy oldal, annál fontosabb, de azt is figyelembe kell venni, hogy a szavazatot leadó oldal mennyire fontos. (Ez egy rekurzív definíció: az a fontos oldal, amire fontos oldalak mutatnak.) A PageRank a fontosság számszerűsítése.
IX. Az alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegyezik a kapott szavazatok számával (ami nem feltétlenül egész szám).
X. Weboldalak 10-es PageRankkel Adobe.com – Adobe Systems, szoftvercég Blogger.com – Blogger.com Energy.gov – az Egyesült Államok energetikai minisztériuma ERCIM.org – Európai Informatikai és Matematikai Kutatókonzorcium Facebook.com – Közösségi alkalmazás, portál FirstGov.gov – USA kormányzati portál Google.com – Google, a PageRanket alkalmazó keresőrendszer Keio.ac.jp – a tokiói Keio Egyetem Macromedia.com – Macromedia, szoftvercég NASA.gov – NASA, az Egyesült Államok Nemzeti Légügyi és Űrhajózási Hivatala NSF.gov – National Science Foundation, az Egyesült Államok tudományos kutatási ügynöksége NYTimes.com The New York Times Real.com – RealPlayer StatCounter.com – internetes statisztikai szolgáltatás W3.org – World Wide Web Consortium WebStandards.org – Web Standards Project Whitehouse.gov – a Fehér Ház
XI. A Google A Google keresési mechanizmusa a PageRank eljáráson alapszik (melyet 2001 szeptemberében szabadalmaztattak), melynek lényege, hogy azt mérik, hány link mutat egy adott weboldalra. A PageRank rendszer egy adott weboldal népszerűségének és fontosságának mérésén alapszik. A Google a HTML-en kívül 13 más állománytípust is rendszerez és tárol. A jelentősebbek: PDF, Word-dokumentumok, Excel-táblázatok, Flash- (SWF) animációk, szövegfájlok stb. A szöveg és SWF fájlok kivételével a tartalmat HTML-re konvertálva tárolja a Google, így azok böngészővel is megtekinthetők. 2007 májusában vezették be az univerzális keresés funkciót, ami annyit tesz, hogy a Google nemcsak a weblapok, hanem a videók, képek, hírek, blogok, térképek és könyvek között is keres novembere óta a bejelentkezett felhasználók a SearchWiki koncepció jegyében a saját találati listájuk egyes tételeit lejjebb vagy feljebb rangsorolhatják, eltüntethetik, illetve mások számára is elérhető megjegyzéssel láthatják el, s az így kialakított listát meg is oszthatják egymással márciusi fejlesztésként jelent meg a szemantikus keresés egy próbaváltozata, ahol a Google megpróbálja értelmezni a keresőkifejezést, összefüggést találni a keresőmezőbe írt szavak között, és intelligensen válogatni a találatok között. Az így kapott eredmények egyelőre csak az oldal alján, egy sávban jelennek meg.
XII. A világ 10 legnagyobb adatbázisa SorszámNévOrszágFelhasználási cél 1. Klímaadatok VilágközpontjaKlímaadatok Világközpontja (WDCC) – a Max Planck Intézet tartja fennMax Planck Intézet NémetországTudományos kutatás 2. Az USA Nemzeti Energiakutató Tudományos SzámítóközpontjaAz USA Nemzeti Energiakutató Tudományos Számítóközpontja (NERSC) USATudományos kutatás 3.AT&TUSATávközlési szolgáltató 4.GoogleUSAInternetesInternetes keresőkereső 5.SprintUSATávközlési szolgáltató 6ChoicePointUSA Kormányzati, közösségi és üzleti jellegű információk megosztása 7.YouTubeUSAVideomegosztás 8.AmazonUSAKiskereskedelem 9. CIACIA – az USA központi hírszerző ügynöksége USATitkosszolgálat 10.USA Kongresszusi KönyvtárKongresszusi KönyvtárUSANemzeti Könyvtár
XIII. Google és Facebook problematikája Adatbázisok, vagy sem? Indexek segítségével dolgozzák fel az anyagot Magánvélemény: mindkettő adatbázis, mivel külön telephelyeket tartanak fent az adatok tárolására. Google Google Facebook: Kormányzatok és óriáscégek is letöltik az adatbázisát Nevek gyakoriságának vizsgálatára alkalmas (csak nevet és urlt tartalmaz) Nvidia, Ubisoft, IBM, Seagate, Disney, Sony, Fujitsu stb.
Köszönöm a figyelmet!