A láthatatlan/mély web tartalmi és technikai jellemzői Csikó Tímea és Soós Barbara 2009. 05. 13.
A jéghegy csúcsa Láthatatlan Invisible Dark Hidden Mély Deep W E B
Mi a Mély Web? A Mély Web az az elnevezés amit a World Wide Web azon oldalai kapnak melyek nem részei a felszíni webnek, azaz nincsenek indexelve az általános keresők által. Nem szabad összekeverni a deep (mély) webet a dark (sötét) webbel, ami olyan gépeknek vagy hálózati szegmenseket jelent, amelyek nincsenek az Internetre kapcsolva.
A láthatatlan web A láthatatlan web információi sokkal nagyobb mennyiségűek jobb minőségűek pontosabbak ellenőrzöttek Rendezettebbek Általánosságban elmondható, hogy a láthatatlan web információforrásainak minősége háromszor jobb a felszíni, a látható web információinál
Keresünk, de mivel? Keresőgépek Tematikus keresők Speciális programok által felépített adatbázisban tárolt, indexeken alapul a keresés kulcsszavak alapján A web robotok a weboldalakat tartalmuk alapján indexelik Tematikus keresők Weboldalak témakörönként csoportosított, általában hierarchikus gyűjteménye Általában az adott témakör szakértői által válogatott oldalak kerülhetnek be
Keresőgépek 3 funkcionális részből állnak Web robot (spider, crawler) Indexelő eljárás – adatbázis építés Kereső rendszer – keresés az adatbázisban Az egyszerű keresés mellett általában összetettebb lekérdezésekre is lehetőséget nyújtanak
Keresőgépek A találatok között sorrendet állítanak fel Különböznek az alábbiakban - indexelt oldalak nagysága - kulcsszavak - indexelő, kereső, sorrendet felállító algoritmusok
Több mint 20 milliárd weboldalt ismer a Google – úgy gondolnánk, nem maradhat rejtve információ az Interneten. A keresőóriás azonban vakká tesz. Az első pár oldalnál többet nem nézünk meg, a releváns információk nem itt lesznek megtalálhatók. Google keresés: „Arany János” kb. 681 000 találat Mély weben: 70 találat (a legminőségibb, a legjobb)
A Láthatatlan web 100-500%-szor nagyobb mint a látható web Tudományos kutatás Látható web Amit az általános keresők meg tudnak találni Library of Congress Eric A magán szféra anyagai Oktatás és kutatás Egyetemek és főiskolák
A keresést megnehezíti A csak részben (egy webhelyen belül) strukturált tartalom Az óriási információmennyiség Képeken, mozgóképeken fellelhető információ felkutatása A weboldalakról elérhető, hasznos információt hordozó, nem HTML formátumú források kezelése (pl: pdf, doc,…) A web keresők számára láthatatlan tartalom
Hogyan lehet hatékonnyá tenni a keresést? Felhasználói oldalon Meg kell tanítani jól keresni Népszerűsíteni kell a metakeresőket Láthatóvá kell tenni a láthatatlan webet Szerver oldali megoldások Kereső oldali megoldások
Felszíni, és a Mély és sokszor láthatatlan web? Keywords
Megoldások a rejtett web feltárására Szerver oldalon Web-site optimalizációs megoldások - TOC készítése, publikálása Kereső oldalon Rejtett webet is kereső robotok Probléma: ?-t tartalmazó URL-k Megoldás: ? lecserélése /-re Közvetlen hivatkozás nélküli oldalak még mindig nem láthatóak Spider Linker Tartalomfeltárás Tartalomjegyzék (TOC) készítése: HTML oldal sitelist.txt Publikálás: Linkelés nyitólapról TOC nyitólap
Metakeresők Metakereső megoldások a keresőkérdést egyszerre több kereső index adatbázisában keresik Dogpile Ithaki Langenberg Monster Crawler Polymeta (új) Supercrawl the webVivisimo
Speciális keresők Clusty Fazzle Hippocrates HIWE (Hidden Web Exposer) Incywincy Noodle ToolsScience Accelerator ScirusTurbo10
Bibliográfia http://melyweb.lap.hu/ Órai jegyzetek <http://techline.hu/it_vilag/20071002_google_rejtett/2.aspx> Amit elrejt az internet = Vakká tesz a Google (2009. 05. 10.) <https://listserv.niif.hu/pipermail/katalist/2001-December/002847.html> Bakonyi Geza: láthatatlan web (2009. 05. 10.) <http://index.hu/tech/net/2009/03/08/ahova_a_google_sem_jut_elahova_a_google_sem_jut_el > Kömlődi Ferenc : Ahova a Google sem jut el (2009. 05. 10.) Rabb Ágnes szakdolgozata
Somogyi Tamás: A láthatatlan web tudományos részének feltárása Somogyi Tamás: A láthatatlan web tudományos részének feltárása. In: TMT, 2009. (56. évf.) 1. sz. p. 48-50. Palkó Mária: Tudományos kutatás az Akadémiai Láthatatlan Weben. In: Korunk, 2009. (20. évf.) 1. sz. p. 79-86. Kovács-Ördög Éva: Információs társadalom. Cikkek, tanulmányok az interneten <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) Nagymélykúti Balázs: Tartalommegőrzés az interneten: webarchívumok <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) Rabb Ágnes: Szöveggyűjtemény a mélyweb tanulmányozásáhozí<http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.)
Terfil Rita: A német nyelvű mélyweb forrásai az interneten <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) Törökné Schedl Magdolna: Bepillantás a mélyweb adatbázisaiban a http://www.invisible-web.net alapján <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) Ujfalusi Hajnalka: Az internet titkai. Barangolás a láthatatlan web világában Marcus P. Zillman szakértővel <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.)