Információ-keresés és a

Információ-keresés és a
MÉLY WEB Geges József OVIDIUS Co. Ltd. Semmelweis Egyetem Doktori Iskola 2012

A mai témák Web és mély web Általánosságok és különbségek
Az internet „topográfiája” A mély web feltárása Lehetőségekről Eszközökről A mély web forrásainak értékelése SE Központi Könyvtár

Út a „mély web”-ig 1991 – Gopher 1992 – Veronica
Menü vezérelt szövegek Sokak által ismert 1992 – Veronica A „menük menüje” Megnehezítette az elérést SE Központi Könyvtár

… mély web-ig 1991 - Hyper-Text Markup Language “Classic” Web Site
„Linkage” lehetősége és a tartalom összekapcsolhatósága “Classic” Web Site Viszonylagosan stabil tartalom, különálló dokumentumok és file-ok Korlátozott számú, szabványosított információs halmaznagyság SE Központi Könyvtár

… mély web-ig 1994 – Lycos megjelenése
Az első „crawler-based” kereső amely kb.55e dokumentumot vizsgált A dokumentumok számának példanélküli és előre nem látott növekedése 2000-ben volt olyan 8 hónap amely alatt megduplázódott az „internet” SE Központi Könyvtár

… mély web-ig 1996 – A fordulat éve …
HTML-alapú adatbázisok robbanásszerű elterjedése Bluestone’s Sapphire/Web, Oracle A web „piacosodása” Hardware, software boom – személyi számítogépek Megjelennek a nagyteljesítményű szerverek és platformok Microsoft’s ASP, Unix PHP, SUN és mások SE Központi Könyvtár

… mély web-ig 1998 – A mély web éve, amikor igen nagy adatbázisokat építenek újjá a webes platformok számára … az elsők: U.S Bureau of the Census Securities and Exchange Commission Patent and Trademark Office SE Központi Könyvtár

Kereső-szolgáltatások jellemzői
Kizárólag a pásztázó robotok által kreált eredmények keresőgépek Meta keresők Az ember által vagy annak befolyásával alkotott halmazok Címtárak, adattárak stb. Speciális keresők Témaorientált tartalmak „Deep Web gateway” SE Központi Könyvtár

BING ASK YAHOO GOOGLE SE Központi Könyvtár

SE Központi Könyvtár

Keresőrobot alkotta találati halmaz
Algoritmus alapján történő adatgyűjtés révén épül ezért nem éri el a Dinamikusan frissülő oldalakat Non-html adatokat Korlátozott a multimédia felé Software-ekbe nem lát bele Password védett oldalakat kihagyja Nem engedélyezett lapokat SE Központi Könyvtár

Dinamikus halmazok Gyorsan frissülő portálok Adatbázisok
Interakciót igénylő oldalak, pl; amazon.com What titles are available? At what price? Are there recent reviews? What about shipping? Gyakran használ ilyeneket az e-kereskedelem, hírszolgálatok, un. „time-sensitive” oldalak SE Központi Könyvtár

Egyedi file formátumok
PDF Táblázatkezelők Szövegszerkesztők Grafikai programok Kották Dallamok (???) WARNING: VÍRUSVESZÉLY! SE Központi Könyvtár

Ember által létrehozott információs halmazok
Adattárak – általános és speciális Adatforma-specifikus keresők Téma orientált források „Deep Web gateways” SE Központi Könyvtár

Jellemzőik … Szerkesztett, ellenőrzött, rendezett …
Dinamikusan frissülő állományok Könnyen korlátozható elérés (Deep Web) Sokszínű file-típusok alkalmazhatók NB: léteznek olyan keresők, melyekben az emberi jelenlét és befolyás módosítja a találati halmazt: pl. SE Központi Könyvtár

Az internet „topográfiája”
Rendkívül nehéz a feltérképezés Szabálytalan természete miatt Széleskörű behatások miatt Nagyon differenciált a célréteg Gyors és váratlan változások Fogalmai eredendően bizonytalanok és tágan értelmezhetők SE Központi Könyvtár

Információ topológia …
SURFACE WEB SHALLOW WEB OPAQUE WEB DEEP WEB SE Központi Könyvtár

Milyen nagy a mély web? Michael K. Bergman the Journal of Electronic Publishing in 2000. „vizsgálata több okból is lehetetlen, de főként azért mert szüntelenül változik, „szétfolyik”, nincs központja. SE Központi Könyvtár

Bergman szerint 2000-ben 150,000 adatbázis 95% valahogy elérhető
Szerinte kb 500x nagyobb mint a felszíni web Sokkal gyorsabban nő, mint a látható web. (Exponenciális gyarapodási ütem) SE Központi Könyvtár

Mit találunk benne? Információ jelentős részben adatbázisokba tömörített Nevek, címek, elérhetőségek … Szabványok és szabadalmak Törvénytárak, esetleírások Referáló adatbázisok, bibliográfiák Kereskedelmi forgalmazás Jelentések, jegyzőkönyvek, tényadatok Más, speciális adatállományok SE Központi Könyvtár

Folyt. … Gyorsan változó adatok …
hírek hirdetések ajánlatok Üzleti, pénzügyi, tőkepiaci adatok Könyvtári adathalmazok Témájukat tekintve rendkívül szerteágazók SE Központi Könyvtár

A mély web feltárásának alapstratégiája
Keresési stratégia megfogalmazása Általános keresőgép kiválasztása Speciális keresők feltárása Metakereők alkalmazása Linkek elemzése „Deep Web gateway” keresés (adatbázis orientált) NB: „no magic way to follow” SE Központi Könyvtár

Téma orientált „search engines”
Limited-area engines Targeted search engines Expert search services Vertical Portals Vortals SE Központi Könyvtár

Non-html szövegállományok
Google Non-text források Image, MP3 search engines Media search Google, et. al. Software Blog-ok Blogdex SE Központi Könyvtár

Serendipity Néha a mély web „rád talál”!
Ezért szükség van a serendipity tudatos generálására SE Központi Könyvtár

A mély web információ tartalmának értékelése
SE Központi Könyvtár

Adatbázisok HEALTH ON NET Szerzőség, szponzorok
Aktualitás, naprakészség Adatgyűjtés ideje Hasonlóság más adatbázisokkal Adaptálhatóság Szerkeszthetőség copyright SE Központi Könyvtár

Információ-keresés és a

Hasonló előadás

Az előadások a következő témára: "Információ-keresés és a"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Információ-keresés és a

Hasonló előadás

Az előadások a következő témára: "Információ-keresés és a"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés