Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Keresőszolgáltatások MAGYAR DÁNIEL 2015.11.16. I. Keresőmotorok története  1993 Wandex  Fejlesztő: Matthew Gray  Ma már nem működik  1993 Aliweb 

Hasonló előadás


Az előadások a következő témára: "Keresőszolgáltatások MAGYAR DÁNIEL 2015.11.16. I. Keresőmotorok története  1993 Wandex  Fejlesztő: Matthew Gray  Ma már nem működik  1993 Aliweb "— Előadás másolata:

1 Keresőszolgáltatások MAGYAR DÁNIEL

2 I. Keresőmotorok története  1993 Wandex  Fejlesztő: Matthew Gray  Ma már nem működik  1993 Aliweb  Archie Like Indexing for the Web  Ma is működik  1994 Lycos  Üzleti vállalkozássá válik

3 II.  Ezután sok keresőmotor jön létre  WebCrawler, Hotbot, Excite, Infoseek, Inktomi, Open Text, Northern Light és az AltaVista mind ekkortájt születtek  sok olyan kereső is született, ami nem a World Wide Weben keresett  valamilyen más internetes protokollon át elérhető oldalak között  Pl. Archie, ami az anonymous FTP szerverek között,  Veronica, ami a Gopher oldalak között keresett

4 III.  1996 Google  Stanford egyetem: Larry Page, Sergey Brin  PageRank algoritmus  2001 körül válik egyeduralkodóvá  2004 Yahoo  2002-ben megvásárolta az Inktomit, majd 2003-ban az AlltheWebet és az AltaVistát, és 2004-ben megindította saját keresőszolgáltatását.

5 IV. Új kísérletek a keresőmotorokkal  Tárgyspecifikus hivatkozási népszerűség  ezt használja a Teoma keresőmotor, amire az Ask Jeeves épül  Klaszterezés  Adott dolgokból halmazokat (klasztereket) alakítunk ki úgy, hogy az egy klaszterbe tartozó elemek jobban hasonlítsanak egymásra, mint a más klaszterben levőkre.  például a Clusty és a magyar fejlesztésű Polymeta

6 V. Kétféle keresőszolgáltatás  A, tematikus  Metázás:Tartalmak -> kulcsszavak -> ez alapján később visszakeresés  Összes lap.hu  Ingyenes  Emberi intelligencia alapú szűrés  Nagy adatbázisok (pl. Könyvtár oldalai) itt oxford MTAittoxfordMTA

7 VI.  B, Index alapú  Indexelés  Index: „régi telefonkönyv” (betűk alapján besorolva)  Nagy adatbázisok teljes szavakra vannak indexelve  Nem indexelnek be minden szót/oldalt  Yahoo-Google: „vas” szó  Yahoo: találat  Google: találat

8 VII. Index alapú keresőszolgáltatások működése  Folyamat – 3 része van 1. Kb szerver  Robotprogram (vö. szondák)  Bejárja a weblapokat  Elküldi az adatokat 2. Kb szerver  A robotprogramok által elküldött adatok feldolgozásáért felelősek  Indexelnek 3. A kérést befogadó szerverek csoportja  A keresni kívánt szót begépeljük például a Google keresőjébe  Erre a kérésre a szerver már a saját adatbázisából jelenít meg találatokat  Fontos a találatok sorrendje (átlagos felhasználó: Első három találat)

9 VIII. PageRank  PageRank  A PageRank az informatikában egy olyan algoritmus, amely hiperlinkekkel összekötött dokumentumokhoz számokat rendel azoknak a hiperlink-hálózatban betöltött szerepe alapján. (Ezt a számot szintén PageRanknek nevezik.) A PageRank a Google internetes keresőmotor legfontosabb eleme.  A Google arra a feltételezésre épít, hogy a weboldalak készítői általában azokra az oldalakra linkelnek a saját lapjukról, amiket jónak tartanak, vagyis minden hiperlink felfogható egy-egy szavazatként a céloldalra. Minél több szavazatot kap egy oldal, annál fontosabb, de azt is figyelembe kell venni, hogy a szavazatot leadó oldal mennyire fontos. (Ez egy rekurzív definíció: az a fontos oldal, amire fontos oldalak mutatnak.) A PageRank a fontosság számszerűsítése.

10 IX.  Az alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegyezik a kapott szavazatok számával (ami nem feltétlenül egész szám).

11 X. Weboldalak 10-es PageRankkel  Adobe.com – Adobe Systems, szoftvercég  Blogger.com – Blogger.com  Energy.gov – az Egyesült Államok energetikai minisztériuma  ERCIM.org – Európai Informatikai és Matematikai Kutatókonzorcium  Facebook.com – Közösségi alkalmazás, portál  FirstGov.gov – USA kormányzati portál  Google.com – Google, a PageRanket alkalmazó keresőrendszer  Keio.ac.jp – a tokiói Keio Egyetem  Macromedia.com – Macromedia, szoftvercég  NASA.gov – NASA, az Egyesült Államok Nemzeti Légügyi és Űrhajózási Hivatala  NSF.gov – National Science Foundation, az Egyesült Államok tudományos kutatási ügynöksége  NYTimes.com The New York Times  Real.com – RealPlayer  StatCounter.com – internetes statisztikai szolgáltatás  W3.org – World Wide Web Consortium  WebStandards.org – Web Standards Project  Whitehouse.gov – a Fehér Ház

12 XI. A Google  A Google keresési mechanizmusa a PageRank eljáráson alapszik (melyet 2001 szeptemberében szabadalmaztattak), melynek lényege, hogy azt mérik, hány link mutat egy adott weboldalra. A PageRank rendszer egy adott weboldal népszerűségének és fontosságának mérésén alapszik.  A Google a HTML-en kívül 13 más állománytípust is rendszerez és tárol. A jelentősebbek: PDF, Word-dokumentumok, Excel-táblázatok, Flash- (SWF) animációk, szövegfájlok stb. A szöveg és SWF fájlok kivételével a tartalmat HTML-re konvertálva tárolja a Google, így azok böngészővel is megtekinthetők.  2007 májusában vezették be az univerzális keresés funkciót, ami annyit tesz, hogy a Google nemcsak a weblapok, hanem a videók, képek, hírek, blogok, térképek és könyvek között is keres novembere óta a bejelentkezett felhasználók a SearchWiki koncepció jegyében a saját találati listájuk egyes tételeit lejjebb vagy feljebb rangsorolhatják, eltüntethetik, illetve mások számára is elérhető megjegyzéssel láthatják el, s az így kialakított listát meg is oszthatják egymással márciusi fejlesztésként jelent meg a szemantikus keresés egy próbaváltozata, ahol a Google megpróbálja értelmezni a keresőkifejezést, összefüggést találni a keresőmezőbe írt szavak között, és intelligensen válogatni a találatok között. Az így kapott eredmények egyelőre csak az oldal alján, egy sávban jelennek meg.

13 XII. A világ 10 legnagyobb adatbázisa SorszámNévOrszágFelhasználási cél 1. Klímaadatok VilágközpontjaKlímaadatok Világközpontja (WDCC) – a Max Planck Intézet tartja fennMax Planck Intézet NémetországTudományos kutatás 2. Az USA Nemzeti Energiakutató Tudományos SzámítóközpontjaAz USA Nemzeti Energiakutató Tudományos Számítóközpontja (NERSC) USATudományos kutatás 3.AT&TUSATávközlési szolgáltató 4.GoogleUSAInternetesInternetes keresőkereső 5.SprintUSATávközlési szolgáltató 6ChoicePointUSA Kormányzati, közösségi és üzleti jellegű információk megosztása 7.YouTubeUSAVideomegosztás 8.AmazonUSAKiskereskedelem 9. CIACIA – az USA központi hírszerző ügynöksége USATitkosszolgálat 10.USA Kongresszusi KönyvtárKongresszusi KönyvtárUSANemzeti Könyvtár

14 XIII. Google és Facebook problematikája  Adatbázisok, vagy sem?  Indexek segítségével dolgozzák fel az anyagot  Magánvélemény: mindkettő adatbázis, mivel külön telephelyeket tartanak fent az adatok tárolására.  Google Google  Facebook: Kormányzatok és óriáscégek is letöltik az adatbázisát  Nevek gyakoriságának vizsgálatára alkalmas (csak nevet és urlt tartalmaz)  Nvidia, Ubisoft, IBM, Seagate, Disney, Sony, Fujitsu stb.

15 Köszönöm a figyelmet!


Letölteni ppt "Keresőszolgáltatások MAGYAR DÁNIEL 2015.11.16. I. Keresőmotorok története  1993 Wandex  Fejlesztő: Matthew Gray  Ma már nem működik  1993 Aliweb "

Hasonló előadás


Google Hirdetések