Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Információ-keresés és a
MÉLY WEB Geges József OVIDIUS Co. Ltd. Semmelweis Egyetem Doktori Iskola 2012
2
A mai témák Web és mély web Általánosságok és különbségek
Az internet „topográfiája” A mély web feltárása Lehetőségekről Eszközökről A mély web forrásainak értékelése SE Központi Könyvtár
3
Út a „mély web”-ig 1991 – Gopher 1992 – Veronica
Menü vezérelt szövegek Sokak által ismert 1992 – Veronica A „menük menüje” Megnehezítette az elérést SE Központi Könyvtár
4
… mély web-ig 1991 - Hyper-Text Markup Language “Classic” Web Site
„Linkage” lehetősége és a tartalom összekapcsolhatósága “Classic” Web Site Viszonylagosan stabil tartalom, különálló dokumentumok és file-ok Korlátozott számú, szabványosított információs halmaznagyság SE Központi Könyvtár
5
… mély web-ig 1994 – Lycos megjelenése
Az első „crawler-based” kereső amely kb.55e dokumentumot vizsgált A dokumentumok számának példanélküli és előre nem látott növekedése 2000-ben volt olyan 8 hónap amely alatt megduplázódott az „internet” SE Központi Könyvtár
6
… mély web-ig 1996 – A fordulat éve …
HTML-alapú adatbázisok robbanásszerű elterjedése Bluestone’s Sapphire/Web, Oracle A web „piacosodása” Hardware, software boom – személyi számítogépek Megjelennek a nagyteljesítményű szerverek és platformok Microsoft’s ASP, Unix PHP, SUN és mások SE Központi Könyvtár
7
… mély web-ig 1998 – A mély web éve, amikor igen nagy adatbázisokat építenek újjá a webes platformok számára … az elsők: U.S Bureau of the Census Securities and Exchange Commission Patent and Trademark Office SE Központi Könyvtár
8
Kereső-szolgáltatások jellemzői
Kizárólag a pásztázó robotok által kreált eredmények keresőgépek Meta keresők Az ember által vagy annak befolyásával alkotott halmazok Címtárak, adattárak stb. Speciális keresők Témaorientált tartalmak „Deep Web gateway” SE Központi Könyvtár
9
BING ASK YAHOO GOOGLE SE Központi Könyvtár
10
SE Központi Könyvtár
11
Keresőrobot alkotta találati halmaz
Algoritmus alapján történő adatgyűjtés révén épül ezért nem éri el a Dinamikusan frissülő oldalakat Non-html adatokat Korlátozott a multimédia felé Software-ekbe nem lát bele Password védett oldalakat kihagyja Nem engedélyezett lapokat SE Központi Könyvtár
12
Dinamikus halmazok Gyorsan frissülő portálok Adatbázisok
Interakciót igénylő oldalak, pl; amazon.com What titles are available? At what price? Are there recent reviews? What about shipping? Gyakran használ ilyeneket az e-kereskedelem, hírszolgálatok, un. „time-sensitive” oldalak SE Központi Könyvtár
13
Egyedi file formátumok
PDF Táblázatkezelők Szövegszerkesztők Grafikai programok Kották Dallamok (???) WARNING: VÍRUSVESZÉLY! SE Központi Könyvtár
14
Ember által létrehozott információs halmazok
Adattárak – általános és speciális Adatforma-specifikus keresők Téma orientált források „Deep Web gateways” SE Központi Könyvtár
15
Jellemzőik … Szerkesztett, ellenőrzött, rendezett …
Dinamikusan frissülő állományok Könnyen korlátozható elérés (Deep Web) Sokszínű file-típusok alkalmazhatók NB: léteznek olyan keresők, melyekben az emberi jelenlét és befolyás módosítja a találati halmazt: pl. SE Központi Könyvtár
16
Az internet „topográfiája”
Rendkívül nehéz a feltérképezés Szabálytalan természete miatt Széleskörű behatások miatt Nagyon differenciált a célréteg Gyors és váratlan változások Fogalmai eredendően bizonytalanok és tágan értelmezhetők SE Központi Könyvtár
17
Információ topológia …
SURFACE WEB SHALLOW WEB OPAQUE WEB DEEP WEB SE Központi Könyvtár
18
Milyen nagy a mély web? Michael K. Bergman the Journal of Electronic Publishing in 2000. „vizsgálata több okból is lehetetlen, de főként azért mert szüntelenül változik, „szétfolyik”, nincs központja. SE Központi Könyvtár
19
Bergman szerint 2000-ben 150,000 adatbázis 95% valahogy elérhető
Szerinte kb 500x nagyobb mint a felszíni web Sokkal gyorsabban nő, mint a látható web. (Exponenciális gyarapodási ütem) SE Központi Könyvtár
20
Mit találunk benne? Információ jelentős részben adatbázisokba tömörített Nevek, címek, elérhetőségek … Szabványok és szabadalmak Törvénytárak, esetleírások Referáló adatbázisok, bibliográfiák Kereskedelmi forgalmazás Jelentések, jegyzőkönyvek, tényadatok Más, speciális adatállományok SE Központi Könyvtár
21
Folyt. … Gyorsan változó adatok …
hírek hirdetések ajánlatok Üzleti, pénzügyi, tőkepiaci adatok Könyvtári adathalmazok Témájukat tekintve rendkívül szerteágazók SE Központi Könyvtár
22
A mély web feltárásának alapstratégiája
Keresési stratégia megfogalmazása Általános keresőgép kiválasztása Speciális keresők feltárása Metakereők alkalmazása Linkek elemzése „Deep Web gateway” keresés (adatbázis orientált) NB: „no magic way to follow” SE Központi Könyvtár
23
Téma orientált „search engines”
Limited-area engines Targeted search engines Expert search services Vertical Portals Vortals SE Központi Könyvtár
24
Non-html szövegállományok
Google Non-text források Image, MP3 search engines Media search Google, et. al. Software Blog-ok Blogdex SE Központi Könyvtár
25
Serendipity Néha a mély web „rád talál”!
Ezért szükség van a serendipity tudatos generálására SE Központi Könyvtár
26
A mély web információ tartalmának értékelése
SE Központi Könyvtár
27
Adatbázisok HEALTH ON NET Szerzőség, szponzorok
Aktualitás, naprakészség Adatgyűjtés ideje Hasonlóság más adatbázisokkal Adaptálhatóság Szerkeszthetőség copyright SE Központi Könyvtár
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.