Információ-keresés és a MÉLY WEB Geges József OVIDIUS Co. Ltd. ovidius@ovidius.hu Semmelweis Egyetem Doktori Iskola 2012
A mai témák Web és mély web Általánosságok és különbségek Az internet „topográfiája” A mély web feltárása Lehetőségekről Eszközökről A mély web forrásainak értékelése 2017.11.30. SE Központi Könyvtár
Út a „mély web”-ig 1991 – Gopher 1992 – Veronica Menü vezérelt szövegek Sokak által ismert 1992 – Veronica A „menük menüje” Megnehezítette az elérést 2017.11.30. SE Központi Könyvtár
… mély web-ig 1991 - Hyper-Text Markup Language “Classic” Web Site „Linkage” lehetősége és a tartalom összekapcsolhatósága “Classic” Web Site Viszonylagosan stabil tartalom, különálló dokumentumok és file-ok Korlátozott számú, szabványosított információs halmaznagyság 2017.11.30. SE Központi Könyvtár
… mély web-ig 1994 – Lycos megjelenése Az első „crawler-based” kereső amely kb.55e dokumentumot vizsgált A dokumentumok számának példanélküli és előre nem látott növekedése 2000-ben volt olyan 8 hónap amely alatt megduplázódott az „internet” 2017.11.30. SE Központi Könyvtár
… mély web-ig 1996 – A fordulat éve … HTML-alapú adatbázisok robbanásszerű elterjedése Bluestone’s Sapphire/Web, Oracle A web „piacosodása” Hardware, software boom – személyi számítogépek Megjelennek a nagyteljesítményű szerverek és platformok Microsoft’s ASP, Unix PHP, SUN és mások 2017.11.30. SE Központi Könyvtár
… mély web-ig 1998 – A mély web éve, amikor igen nagy adatbázisokat építenek újjá a webes platformok számára … az elsők: U.S Bureau of the Census Securities and Exchange Commission Patent and Trademark Office 2017.11.30. SE Központi Könyvtár
Kereső-szolgáltatások jellemzői Kizárólag a pásztázó robotok által kreált eredmények keresőgépek Meta keresők Az ember által vagy annak befolyásával alkotott halmazok Címtárak, adattárak stb. Speciális keresők Témaorientált tartalmak „Deep Web gateway” 2017.11.30. SE Központi Könyvtár
BING ASK YAHOO GOOGLE 2017.11.30. SE Központi Könyvtár
2017.11.30. SE Központi Könyvtár
Keresőrobot alkotta találati halmaz Algoritmus alapján történő adatgyűjtés révén épül ezért nem éri el a Dinamikusan frissülő oldalakat Non-html adatokat Korlátozott a multimédia felé Software-ekbe nem lát bele Password védett oldalakat kihagyja Nem engedélyezett lapokat 2017.11.30. SE Központi Könyvtár
Dinamikus halmazok Gyorsan frissülő portálok Adatbázisok Interakciót igénylő oldalak, pl; amazon.com What titles are available? At what price? Are there recent reviews? What about shipping? Gyakran használ ilyeneket az e-kereskedelem, hírszolgálatok, un. „time-sensitive” oldalak 2017.11.30. SE Központi Könyvtár
Egyedi file formátumok PDF Táblázatkezelők Szövegszerkesztők Grafikai programok Kották Dallamok (???) WARNING: VÍRUSVESZÉLY! 2017.11.30. SE Központi Könyvtár
Ember által létrehozott információs halmazok Adattárak – általános és speciális Adatforma-specifikus keresők Téma orientált források „Deep Web gateways” 2017.11.30. SE Központi Könyvtár
Jellemzőik … Szerkesztett, ellenőrzött, rendezett … Dinamikusan frissülő állományok Könnyen korlátozható elérés (Deep Web) Sokszínű file-típusok alkalmazhatók NB: léteznek olyan keresők, melyekben az emberi jelenlét és befolyás módosítja a találati halmazt: pl. www.search.edu 2017.11.30. SE Központi Könyvtár
Az internet „topográfiája” Rendkívül nehéz a feltérképezés Szabálytalan természete miatt Széleskörű behatások miatt Nagyon differenciált a célréteg Gyors és váratlan változások Fogalmai eredendően bizonytalanok és tágan értelmezhetők 2017.11.30. SE Központi Könyvtár
Információ topológia … SURFACE WEB SHALLOW WEB OPAQUE WEB DEEP WEB 2017.11.30. SE Központi Könyvtár
Milyen nagy a mély web? Michael K. Bergman the Journal of Electronic Publishing in 2000. http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp „vizsgálata több okból is lehetetlen, de főként azért mert szüntelenül változik, „szétfolyik”, nincs központja. 2017.11.30. SE Központi Könyvtár
Bergman szerint 2000-ben 150,000 adatbázis 95% valahogy elérhető Szerinte kb 500x nagyobb mint a felszíni web Sokkal gyorsabban nő, mint a látható web. (Exponenciális gyarapodási ütem) 2017.11.30. SE Központi Könyvtár
Mit találunk benne? Információ jelentős részben adatbázisokba tömörített Nevek, címek, elérhetőségek … Szabványok és szabadalmak Törvénytárak, esetleírások Referáló adatbázisok, bibliográfiák Kereskedelmi forgalmazás Jelentések, jegyzőkönyvek, tényadatok Más, speciális adatállományok 2017.11.30. SE Központi Könyvtár
Folyt. … Gyorsan változó adatok … hírek hirdetések ajánlatok Üzleti, pénzügyi, tőkepiaci adatok Könyvtári adathalmazok Témájukat tekintve rendkívül szerteágazók 2017.11.30. SE Központi Könyvtár
A mély web feltárásának alapstratégiája Keresési stratégia megfogalmazása Általános keresőgép kiválasztása Speciális keresők feltárása Metakereők alkalmazása Linkek elemzése „Deep Web gateway” keresés (adatbázis orientált) NB: „no magic way to follow” 2017.11.30. SE Központi Könyvtár
Téma orientált „search engines” Limited-area engines Targeted search engines Expert search services Vertical Portals Vortals 2017.11.30. SE Központi Könyvtár
Non-html szövegállományok http://searchpdf.adobe.com/ Google Non-text források Image, MP3 search engines Media search Google, et. al. Software Blog-ok Blogdex http://blogdex.media.mit.edu/ 2017.11.30. SE Központi Könyvtár
Serendipity Néha a mély web „rád talál”! Ezért szükség van a serendipity tudatos generálására 2017.11.30. SE Központi Könyvtár
A mély web információ tartalmának értékelése 2017.11.30. SE Központi Könyvtár
Adatbázisok HEALTH ON NET Szerzőség, szponzorok Aktualitás, naprakészség Adatgyűjtés ideje Hasonlóság más adatbázisokkal Adaptálhatóság Szerkeszthetőség copyright 2017.11.30. SE Központi Könyvtár