Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

2. A tárgykör kapcsolódó területei 1.Szemantikus web: feladata a jelentés megtalálása a webes tartalmakban. A szemantikus web kialakítására irányuló törekvések.

Hasonló előadás


Az előadások a következő témára: "2. A tárgykör kapcsolódó területei 1.Szemantikus web: feladata a jelentés megtalálása a webes tartalmakban. A szemantikus web kialakítására irányuló törekvések."— Előadás másolata:

1 2. A tárgykör kapcsolódó területei 1.Szemantikus web: feladata a jelentés megtalálása a webes tartalmakban. A szemantikus web kialakítására irányuló törekvések során jelentek meg az ontológiák. Gruber megfogalmazása szerint az „ontológia megegyezésen alapuló fogalmi rendszer formális, egyértelmű leírása”.

2 Ebben a meghatározásban a „megegyezésen alapuló” kitétel lényeges, mert azt a szemléletet tükrözi, hogy az ontológiák szemantikai szabályrendszerek, melyek a dolgok rendezésére használhatók. Az ontológiák lehetővé teszik számunkra, hogy tisztázzuk az alapvető fogalmakat és a közöttük lévő relációkat. Elősegítik számunkra, hogy az erre vonatkozó tudásunkat formálisan és gépi következtetésre alkalmasan fogalmazzuk meg.

3 A webes ontológiák kialakulásához vezető út 2000-ben közreadtak egy „tématérképnek” (topic map) nevezett hierarchikus fogalmi struktúrát kezelő szabványt. A weben jelenleg elérhető vizualizált fogalmi struktúrák többsége ezen, vagy ehhez hasonló fejlesztéseken alapszik.

4 A W3C konzorcium irányítása alatt egy másik irányban kezdődött el a fejlesztés. Ennek egyik fontos eredménye, hogy 2000-ben a web metaadatainak leírására egy szabványt hoztak létre, az XML-en alapuló webforrás leíró nyelvet (Resource Description Framework= RDF). A weben található hierarchikus fogalmi struktúrák formális leírására is ezt a nyelvet használták fel.

5 2002-ben a W3C konzorcium kezdeményezésére hozzákezdtek az ontológiák szabványának tekinthető webontológia-nyelv (Ontology Web Language) kidolgozásához. Az OWL 2-re vonatkozó szabványajánlást 2009-ben adta közre a W3C konzorcium. Forrás: OWL 2 Web Ontology Language Document Review /

6 Jelenleg elérhető és már létező általános ontológiák, pl. - Dublin Core, - Magyar Egységes Ontológia. Szakterületi ontológiák: Pl.: - Galen orvostudományi területen - Gene Ontology genetikában - Gold leíró nyelvészeti területen

7

8

9 A „Museo24” projektben kifejlesztett ontológiának érdekes felhasználási területe a virtuális múzeum, amely gondolatvilágában közel áll a könyvtárakéhoz. Forrás:

10

11 Jelenleg egyfajta közeledés figyelhető meg hazánkban a könyvtári és az informatikai szakmai közösségek között az ontológiák terén, amit a W3C konzorcium magyar irodája szakmai előadások szervezésével támogat. Forrás:

12

13 2. Láthatatlan/mély web („invisible web”, „hidden web”, „deep web”) Mindazon dokumentumok és adatok körét értjük alatta, amelyek számos okból kifolyólag nem érhetők el a keresőszolgáltatások számára. A láthatatlan web csoportjába sorolhatók: - a dinamikus weblapok (azaz a kereshető adatbázisokból kapott oldalak), - azok az oldalak, amelyek csak regisztráció után érhetők el, - a nem szöveges dokumentumok, - a keresőrobotok elől elzárt oldalak.

14 Fontos hangsúlyoznunk, hogy a web csak egy szolgáltatás az interneten, tehát az nem azonos vele. Egy olyan hipertext struktúrára épül, amelyben szabadon böngészhetünk a szöveges formában megjelenített információk közötti kapcsolatok alapján. Ha egy weblapra nem mutat egyetlen link sem, akkor nem kerül bele a kereső adatbázisába.

15 Azoknak a weboldalaknak az összességét, amelyeket a keresők keresőmotorjai megtalálnak „felszíni webnek” (surface web) vagy „statikus webnek” nevezzük. Ennek nagysága a teljes web méretének a 0,18%- ára becsülhető. Ezzel szemben a láthatatlan web információmennyisége 550-szer nagyobb, mint a felszínié és növekedése, gyarapodása is sokkal gyorsabb ütemű.

16 Sokféle törekvéssel igyekeztek a rejtett webet „láthatóvá tenni” pl. bizonyos metakeresőkkel, intelligens keresőprogramokkal (ágensek), témakatalógusok kialakításával, egyéb speciális keresőkkel stb.

17 3. A szövegbányászat és az adatbányászat területe A rejtett tudás kinyerésére törekszik a weben található, nagy mennyiségű strukturálatlan vagy félig strukturált HTML és egyéb formátumú dokumentumokból. Fiatal kutatási területnek számít még a web mining, amely kiterjed az adatbányászatra, az internet technológiákra, valamint a szemantikus webre.

18 4. Speciális keresőszolgáltatások A weben találkozunk például képek, videóanyagok visszakeresésére alkalmas keresőkkel, amelyek nagy népszerűségnek örvendenek a használók körében. Megjelenésük jelzi, hogy a használók rendkívül nagy mértékben igénylik a nem szöveges dokumentumok eredményes felkutatását is. Ezen az új kutatási területen a megfelelő információkereső nyelvek létrehozása és azok további fejlesztése elengedhetetlenül fontos feladat

19 amellett, hogy a tartalomgazdák metaadatokat helyeznek el a kép- és videofájlokba, továbbá, hogy egyre fejlettebb kép- és beszédfelismerő eszközöket használnak a keresőgépek. A képkeresőkre irányuló vizsgálatok gyakran nem veszik figyelembe a felhasználói oldalt: pl. a szövegek és a képek utáni kutatás különbségeit, a képjellemzőket a keresésnél, és a képkereső kérdések sajátosságait. Ezek lényeges kérdések, különösen a webes keresők szempontjából.

20 Greisdorf és O'Connor 2002-es tanulmányukban megfogalmazták, hogy a találatként megjelenő képek relevanciája olyan fogalmi és tartalmi jellemzőktől is függ, amelyek nincsenek is rajta a képeken. Ilyen minősítők pl.: - művészettörténeti információ, - hely, - tárgy, - esemény, - ember, absztrakt fogalom stb. Továbbá, hogy az érzelmeket kifejező szavak fontos keresőkérdések a képeknél.

21 A keresésre fordított átlagos idő és a keresőkérdés is hosszabb a képek esetében, mint általában a webes kereséseknél. Ebből adódóan a multimédia-információ megtalálása nagyobb szellemi erőfeszítést követel tőlünk. Jansen 2003-as kutatása ugyanezt erősítette meg, aki az AltaVista-val társult multimédia-gyűjtemények használatát vizsgálta.

22 Kutatásának eredményei: A képekre történő kereséseknél átlagosan négy szót írtak be a felhasználók. 28%-ban még Boole-operátorokat is alkalmaztak, hosszabb ideig keresgéltek, mint más dokumentumtípusoknál.

23 A képek indexelésére a legtöbb rendszer egyszerű megoldásokat használ, amelyek a következők: 1.a fájlnevek leindexelése és kereshetővé tétele, 2.a környező szöveges információt gyűjtik egy adatbázisba, 3.a weboldalak fejlécébe és a multimédiafájlokba ágyazott metaadatok alapján történik az indexelés.

24 Léteznek már osztályozási rendszerek képekre és képekre vonatkozó keresőkérdésekre. Célszerű lenne a webes képkeresések jellemzőihez igazított osztályozási rendszereket használni, melyeket pl. a keresőkérdések kézi vagy automatikus metaadatolásához, címkézéséhez lehet felhasználni.

25 A kutatások eredményei szerint öt új jellemzőt kell bevezetni a képkereséseknél: - gyűjtemény (pl. „stock photography”), - pornográfia (pl. „gay”), - prezentálás (pl. „clipart”), - URL (pl. „www.bhphoto.com”)www.bhphoto.com - költség (pl. „free”). A költség fontos szempont a használók számára kereséskor. A web hipertext jellegéből adódóan URL címek is nagy számban fordulnak elő a keresőkérdésekben.

26 Az emberek gyakran szűkítik a keresést a kép lelőhelyére, azaz a gyűjteményre. Az emberek és az emberekkel kapcsolatos dolgok meghatározóak a kérdések között, míg az olyan tulajdonságok, mint pl. a szín, alig számítanak, pedig az ilyen képjellemzőkhöz a keresők külön szűkítési lehetőséget biztosítanak. Nem nagyon vizsgálták még meg, hogy ezek az osztályozási rendszerek mennyire lennének használhatók a weben lévő képek indexelése és visszakeresése során.

27 5. Blogok keresése Egy másik, szerkezeti sajátosságaiból adódóan elkülönülő dokumentumcsoportot is meg kell említenünk a weben, a blogokat és a mikroblogokat. Számuk rohamosan növekszik, mert divatos véleménnyilvánítási forma a használók körében. Komoly kihívást jelent napjainkban a blogok hatékony visszakeresésének megoldása, amely a hagyományos információvisszakereső rendszerek módszereitől eltérő mechanizmusokat követel meg.

28 Ez abból is adódik, hogy a blogoknál rendkívül nagy szerepe van az aktualitásnak és a kapcsolódó linkeknek, azonban sokszor nehéz meghatároznunk a témájukat. Megjegyzem, hogy az időtényező fokozottabb kiaknázása a keresésekben új vonásnak számít, pl. a blogok és a hírek esetében. A blogoknak is megvannak a speciális keresőik; közülük a legjobb a Technorati (http://technorati.com ).http://technorati.com

29

30 6. Innováció és tudásmenedzsment Óriási fejlődési lehetőségeket rejt magában ez a terület, amit a Google is kiaknáz saját üzleti modelljében ban egy jelentős változás tanúi lehettünk, amikor az interaktív, programozható web háttérbe szorította a statikus webet. A korábbi passzív internetezők önszerveződő közösségek aktív tagjaivá váltak, ami főként a web 2.0 térhódításának volt köszönhető.

31 A web tehát rendkívül nyitott közösségi színtérré alakult át az innováció, a kibontakozás, valamint az értékteremtés számára. Don Tapscott webelemző szerint az új web kollektív tudásbázisként jelenik meg, amiben emberek millióinak közös tudása gyűlik össze önszerveződő formában.

32 Google fő célja, hogy a világon felkutatható összes információt és tudást rendszerezze, valamint ingyenesen elérhetővé tegye bárki számára. Ezen kívül támogatják a fényképekben vagy videókban, zenékben és szövegekben történő keresés lehetőségét. Ezzel a szemléletével a Google a tudásmenedzsment és az innováció fő támogatója.

33 6.1. A tudásmenedzsment lehetséges példái a Google-nél:  Az API-k megnyitása: A Google és más üzleti cégek fokozatosan teret engednek a tömeges együttműködés kultúrájának. Olyan formában, hogy nyíltan hozzáférhetővé teszik alkalmazásaik programozófelületét (az API-t) platformjaikon. Mindezt azért teszik, hogy saját hasznukra fordíthassák az ott megjelenő tömegek ötleteit, tudását és energiáját.

34 Az API-k megnyitása után a fejlesztők (akik közül néhányan korábban „hekkerek” voltak…) gyors tempóban kezdték el gyártani az új alkalmazásokat. A Google tehát sikeresen maga köré gyűjtötte a fejlesztők hatalmas, önszerveződő hálózatát, amelyet önkényes eszközökkel meg sem próbál szabályozni, hisz az csak akadályozná a kreatív ötletek megvalósulását, azaz az innovációt.

35  Innováció, kutatás fenntartása: A Google lelke egy új fejlesztés, és ez a fő téma a cég csaknem minden vezetőségi összejövetelén. A cég vezetői számára az a legnagyobb kihívás, hogy fenntartsák az innovatív fejlődést a Google méretbeli növekedésével párhuzamosan. Az innováció tehet arról, hogy a cég lekörözött másokat, és jelenleg is az első vonalban van.

36 Az alapítók tisztában vannak vele, hogy valakik valahol mindig megpróbálnak olyan megoldásokat találni, melyek jobban, gyorsabban csinálják a dolgokat. Az innovativitás fenntartása egy nagy tempóban növekedő vállalatnál olyan komplex kihívás, ami komoly problémákat okozott már más, ígéretes vállalkozások számára.

37  A fejlesztések tesztelése felhasználókkal: A Google munkatársai mindent megtesznek annak érdekében is, hogy a felhasználók még véglegesítésük előtt kipróbálhassák a termékeket. Így aztán a fejlesztések folyamatosak, az értékes reakciók pedig lehetővé teszik, hogy megszabaduljanak a hibáktól.

38  Nyitás más tudományterületek felé: A Google egyéb területeken is tevékenykedik, ilyenek a molekuláris biológia és genetika. A gének milliói, a hatalmas mennyiségű adat végül is illik a Google keresőhöz, a komoly adatbázishoz, a számolókapacitáshoz.

39 A Google immár letöltötte az emberi genom- térképet, és vezető biológusokkal, genetikusokkal karöltve dolgozik olyan tudományos, gyógyászati területeken, ahol fontos áttörésekre lehet számítani a közeljövőben. Talán már nincs messze az idő, amikor az emberek rákereshetnek a Google-lel saját génjeikre.

40  Követi az egyetemi struktúrát működésében: A Google céget úgy működtetik mint egy egyetemet. Rengeteg projekten dolgoznak párhuzamosan kis, három főből álló csoportok. A munkatársaktól elvárják, hogy idejük 20%-át olyan problémákra fordítsák, amelyek a legjobban izgatják őket.

41 „Az idő 20%-a„ az egyetemi világból jön, ahol a professzorok egy napot kapnak egy héten, melyet saját érdeklődésük kielégítésére fordíthatnak. Néhány figyelemre méltó fejlesztés a Google-nél ezekből az összegyűjtött egy napokból született lásd pl. a Google News szolgáltatást. A cégnél hiányoznak a szokásos jogász középvezetők, a társaságok hagyományos felépítését itt nem találjuk meg.

42  Könyvek digitalizálása: A Google könyvek millióit kívánja digitalizálni számos könyvtár bevonásával. Célja, hogy minél több könyv legyen elérhető online, hogy kereshetőek legyenek. Továbbá célkitűzése, hogy ledőljenek a könyvtárak fizikai korlátai. Ez egy ambiciózus vállalkozás, globális, társadalmi, oktatási eredményei lehetnek.

43 „The Library Project's aim is simple: make it easier for people to find relevant books – specifically, books they wouldn't find any other way such as those that are out of print – while carefully respecting authors' and publishers' copyrights. Our ultimate goal is to work with publishers and libraries to create a comprehensive, searchable, virtual card catalog of all books in all languages that helps users discover new books and publishers discover new readers” Forrás:

44 A Google 2009 novemberében ideiglenes egyezségre jutott az Egyesült Államokban a szerzői jogtulajdonosok képviselőivel, akik kifogásolták, hogy a keresőcég könyvek millióit digitalizálta. Az Authors Guild és az Association of American Publishers sokáig alkudozott a Google céggel egy New-York-i bíróság előtt, amíg nem sikerült kialkudni a részesedésüket az eredeti jogsértésből származó jövedelemből. Forrás:

45

46 Jelenleg a Google 125 millió dollárt fizet a per lezárásáért és létrehoz egy Book Rights Registry nevű nyilvántartást, amelyet az online szolgáltatott kiadványok szerzőinek és kiadóinak honorálásánál alkalmaz majd. Az egyezség pontos részletei is nyilvánosságra kerülhetnek, de sokkal valószínűbb, hogy olyan üzleti titok marad, amely a jövőben nagymértékben megváltoztatja az információellátás jellegét.

47 Ezzel az egyezménnyel a Google-nak megengedték, hogy digitalizálja azokat a könyveket is, amelyeket az Egyesült Államokban véd a copyright. A Google tervei szerint az egyetemek hozzáférhetnének a szolgáltatásaihoz térítés ellenében pl. ezekhez a ma még csak kereshető, de nem letölthető könyvekhez. Az ebből származó bevételeket megosztja majd a jogtulajdonosokkal és a szerzőkkel.

48 Ha ez az üzleti modell jól működik, akkor lehetséges, hogy a még forgalomban levő művek közül is sokat hozzáférhetővé tesznek majd így a szerzőik. Még nem lehet tudni, hogy milyen licencdíjak lesznek, és hogy a felsőoktatási könyvtárak korlátos költségvetéséből érdemes lesz-e ezeket kifizetni, többségében olyan könyvekért, amelyek iránt minimális a kereslet, hiszen nem véletlenül nincsenek már forgalomban.

49 A Google könyvdigitalizálási programja éles szakmai vitákat váltott ki számos országban, mert komolyan sérti a könyvkiadók, könyvtárak és a terjesztők érdekeit. Csak közös összefogással menekülhet meg a magyar könyvpiac is, valamint úgy, hogy gyorsan elébe megy a digitalizálási igényeknek és stratégiákat dolgoz ki a megoldásra. Ezen stratégiák feltételeit pedig érvényesíti a Google-lel szemben. Így van esélye rá, hogy nyertesként kerülhessen ki ebből a helyzetből, különben elvész.

50  Google Scholar szolgáltatás: A Google tudományos keresője, amely különböző tudományos publikációk között keres november 18-án indult, mára szinte minden online elérhető referált folyóiratban keres, kivéve a legnagyobb tudományos kiadó, az Elsevier által kiadottakat február 20-ától már a magyar könyvtárak állományában is keres a MOKKA-n keresztül.

51 A szolgáltatás keresőalgoritmusa hasonló a hagyományos Google keresőéhez, de nem a hiperlinkeket használja fel egy-egy publikáció fontosságának meghatározásához, hanem azt, hogy más cikkek milyen gyakran hivatkoznak rá. A keresések a publikációk teljes szövegében történnek. Szűkíthetők szerző, év vagy megjelenési hely alapján.

52 A kapott találatokban a publikációk címén és online elérhetőségén kívül azok tudományos idézettsége is látható, valamint, hogy milyen könyvtárakban találhatók meg. A lelőhely információ megjelenítéséhez a WorldCat adatbázist, és egy saját, Library Links nevű szolgáltatást használ.

53 A tudóstársadalom több alkalommal bírálta már a Google Scholart, mert nem képes a tudományos szakirodalom egészét figyelni, hanem annak csak egy kisebb online formában elérhető töredékét követi nyomon. Ezektől a kritikáktól eltekintve a Google Scholar szolgáltatás megjelenése példa értékű, hiszen az értékes ismeretek felkutatását és megosztását támogatja a weben. Forrás:

54


Letölteni ppt "2. A tárgykör kapcsolódó területei 1.Szemantikus web: feladata a jelentés megtalálása a webes tartalmakban. A szemantikus web kialakítására irányuló törekvések."

Hasonló előadás


Google Hirdetések