Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A világháló szintaktikai és szemantikai paradigmája

Hasonló előadás


Az előadások a következő témára: "A világháló szintaktikai és szemantikai paradigmája"— Előadás másolata:

1 A világháló szintaktikai és szemantikai paradigmája
Tóth Máté

2 Menetrend Tudásreprezentáció történeti kontextusban;
A világháló felépítése; A tudás reprezentálása a világhálón; A hagyományos keresőrendszerek működése; Problémák a világhálón való kereséssel; Jelenlegi megoldási lehetőségek; A szintaktikai paradigma; A szemantikai paradigma.

3 Vannevar Bush Ted Nelson Tim Berners-Lee MEMEX XANADU WWW

4 As We May Think Atlantic Monthly (1945); Ahogyan gondolkozhatunk;
MEMEX (Memory Extender); A világ tudásának megragadása!

5 Asszociációk “Amikor bármely adat tárolásra kerül, alfabetikusan vagy numerikusan iktatódik, az információ pedig alosztályról alosztályra követve található meg (ha ugyan megtalálható). Csak egy bizonyos helyen lehet, hacsak nem készítünk másolatokat; szabályokra van szükség, hogy megtudjuk, milyen úton juthatunk el az információhoz; a szabályok pedig fárasztóak. Annál is inkább, mert ha végre megtaláltunk egy adatot, ki kell lépnünk a rendszerből és újra belépnünk egy másik úton. Az emberi agy nem így működik. Asszociációkat követ. Megragad valamit és már kapcsol is tovább arra, amerre az asszociációk vezetik az agysejtek által hordozott bonyolult nyomvonal-szövevénynek megfelelően.” (Vannevar Bush)

6

7 MEMEX A memex nevű gépbe az egyén valamennyi könyvét, friss napilapokat, folyóiratokat de akár az üzleti levelezését is betöltheti. A memex tartalmának egy része megvásárolható mikrofilmen és azonnal betölthető, a tetején elhelyezett üveglapra kézírással is lehet jegyzetelni, amit a gép száraz fényképezési eljárással azonnal betölt a belsejébe. Ugyanez történik a fényképekkel. A visszakeresés működhet hagyományos indexelési eljárással, ami a művekhez tartozó kódszámok alapján lehetséges, de a memex igazi újítása, hogy kapcsolatokat, nyomvonalakat is létre lehet hozni a művek között, így ha az egyik tételt behívtuk a képernyőre, azonnal megjeleníthető a másik is.

8 XANADU 1965. Hipertext “Írott vagy képi anyagok olyan komplex összeköttetése, amit papíron nem lehet kényelmesen megalkotni. Összefoglalókat és térképeket tartalmazhat a benne szereplő anyagokról és ezek egymáshoz való viszonyáról; és tartalmazhatja az anyaggal foglalkozó tudósok megjegyzéseit, lábjegyzeteit is.”

9 XANADU “Nelson tulajdonképpen semmi egyebet nem tett, csupán “felfedezte”, illetve kimondta, ami ténylegesen létezett. A szövegek közötti átjárás, az utalások rendje valójában egyidős az írásos hagyománnyal…” Julia Kristeva: intertextualitás, szövegek közöttiség.

10 A World Wide Web Az internet helyi és regionális hálózatokból felépülő globális számítógépes adatátviteli hálózat, amelyen az adatforgalom egységes szabványok szerint folyik. A világháló “az internet hálózatán működő, magas színvonalú szolgáltatás, amelyet a megfelelő programmal ellátott számítógépek (szerverek) nyújtanak a hálózatba kapcsolt – és megfelelő böngészőprogrammal ellátott – számítógépek (kliensek) számára.

11 A tudás reprezentálása a világhálón
A világháló heterogén szintaktikájú és szemantikájú, nem ellenőrzött tartalmú dokumentumok halmaza; Ember és nem ember által készített dokumentumok; Különböző formátumok mellett különböző a terminológia (láb, méter), a nyelv stb. A világhálón való keresés alapvetően különbözik más, lassan változó, kontrolláltan kezelhető dokumentumtárban való kereséstől. Nem elég a kereséshez pontosan illeszkedő dokumentumot találni. (A jó találat jellemzői: frissítés, minőség, népszerűség stb.)

12 A hagyományos keresőrendszerek működése
A különböző keresőrendszerek ugyanazon általános séma szerint működnek. Keresőrobotok begyűjtik az oldalakat; Indexelik; A felhasználó által feltett kérdést a gép értelmezi és az indexelt oldalakon elvégzi a keresést; Sorba rendezi a találatokat.

13 A hagyományos keresőrendszerek működése
A Google PageRank algoritmusa üzleti titok; A fenti módszerek mellett van egy tisztán a linkstruktúrán alapuló módszer; Különböző értékkel szerepelnek az egyes módszerek; A forrásweblap bizalmat szavaz a hivatkozott dokumentumnak; Ha a forrásweblapra is sokan hivatkoznak, akkor az ő „szavazata” többet ér. Az az oldal a fontos, amire fontos oldalak mutatnak. A kimenő linkek csökkentik a fontosságot.

14 Problémák a világhálón való kereséssel
A mély web: A weben keresztül csak lekérdezéssel elérhető adatbázis-tartalom; Nem szöveges formában lévő dokumentumok. A robotok nem töltenek ki űrlapokat, hogy bizonyos oldalakat megtekintsenek. Csak a weben elérhető, lekérdezhető adatbázis-tartalom sokszorosa a hagyományos weboldalakon tároltaknál. A dinamikus weblapok elterjedésével nőtt meg az ilyen adatbázisok elérésének az igénye. Nem HTML állományok keresése. (képek, videók, DE Word, Excel, PDF)

15 Problémák a világhálón való kereséssel
A világháló méretéből és gyors változásából fakadó problémák; A mély web problémája; Keresőcsapdák; A szemantika hiánya.

16 Problémák a világhálón való kereséssel
Sekély web (surface web) és a szürke zóna; Nem éles a határ a sekély és a mély web között. A különböző keresőrendszerek különböző állományokat indexelnek. (pl. word, pdf) Ha dinamikus linket teszünk a honlapunkra, azt könnyen követheti egy robot. Vannak mély webes keresőrendszerek, amelyek az adatbázistartalom közös felületen való lekérdezését célozzák. Internetkatalógusok.

17 Problémák a világhálón való kereséssel
A szemantika hiánya A keresők csak a szöveges alakkal és nem a dokumentum jelentésével foglalkoznak; Problémák: Nyelvi problémák (szintagmák, nyelvekbe zártság) Képek, multimédia problémája (csak szövegeket képes kezelni) A következtetés hiánya (apa, gyerekkel rendelkező férfi)

18 Problémák a világhálón való kereséssel
A szemantika megragadása a www-n emberi intelligencia bevonásával lehetséges. Katalógusok; Kérdésátalakító keresők; Metainformációk a weben.

19 Problémák a világhálón való kereséssel
A megoldások heurisztikákon alapulnak!!! Heurisztika: Az új igazságok módszeres fölfedezésének művészete, az a folyamat, amelynek során nem szigorúan szabatos logikai következtetéssel jutunk el a premisszáktól a konklúzióig, ám az eredmény helyes lesz.

20 A WWW paradigma A világháló három szabványra épül:
Az URL (Uniform Resource Locator – Egységes Erőforrás Helymeghatározó) biztosítja a dokumentumok szabványokon alapuló címezhetőségét. A HTTP azt írja le, hogy hogyan küld egymásnak információt a böngésző és a kiszolgáló. A HTML (HyperText Markup Language – hipertext leíró nyelv) biztosítja, hogy az információ különböző oldalakon, sokféle eszközön is megjeleníthető legyen.

21 A WWW paradigma A három alapvető szabvány elsősorban formai és technikai követelményeket tartalmaz, DE egyik sem teszi lehetővé, hogy a dokumentumok tartalma az ember és a számítógép számára egyaránt értelmezhetővé váljék. A világháló által meghatározott technológiai kereteket az összekapcsolt dokumentumok hipertext formában való elérhetővé tételére optimalizálták. A világháló szintaktikai paradigma!

22 Szintakszis „Az informatikában egy programozási nyelv szintaxisa azt a szabályrendszert jelenti, amely meghatározza, hogy az adott nyelvben hogyan lehet az egyes nyelvi elemeket, utasításokat létrehozni. A szintakszis meghatározza a nyelv tágabb értelem vett ábécéjét, a használható szavakat és megadja a nyelvi elemek felépítési szabályait.” Pl. HTML (Hypertext Markup Language) A HTML elsősorban a dokumentumok szerkezetének leírására készült, amelyet kiegészítettek a stílus megjelenítésére vonatkozó szabványokkal. A keresések is csak heurisztikák alapján pontosíthatók.

23 Kicsit vissza a MEMEX-hez
As We May Think? Nagy mennyiségű dokumentumot tárol a gép mikrofilmen; A dokumentumokat a képernyőre vetíti a gép; Tartalmaz egy fényképezőgépet, az új dokumentumok beviteléhez; Gombnyomásra kereshetők vissza a dokumentumok Képes a dokumentumok között asszociációkat létrehozni; Csatolásokat (linkeket) hoz létre a dokumentumok között; kommentálni lehet a dokumentumokat; új dokumentumokat lehet felvenni. Tudásreprezentáció vagy dokumentumreprezentáció?

24 ?

25 MEMEX Bushnak igaza volt abban, hogy asszociatív alapon gondolkozunk;
Abban is, hogy az információt így szervezve egyszerűbb a visszakeresés Nincs igaza abban, hogy a dokumentum-központú megközelítést kell továbbvinni; Az ”As we may think” inspirálta Nelsont, és Berners-Lee-t és még sok másokat; Sajnos azonban ők is rossz irányba indultak...

26

27

28 Tárgyközpontúság forradalma
A számítógép, annak alkalmazásai, az alkalmazások által megnyitható dokumentumok állnak a középpontban; Az ember fogalmakban gondolkozik; fogalmak között asszociál; A fogalmakat kell a középpontba helyezni!

29 Tárgyközpontúság forradalma
Itt már a fogalom van a középpontban; A fogalmak körül „forognak” a dokumentumok és az alkalmazások; lényegében a szemantikus web és a tématérkép technológia is erről szól!

30 Szemantika vs. szintaktika
Szavak, kifejezések, vagy szimbólumok jelentése; A nyelvészetben a jelentés tudománya vagy jelentéstan a nyelvi formákban A számítástechnikában olyan szavaknak és szimbólumoknak a jelentése, melyeket programokban alkalmaznak vagy kapcsolat áll fenn köztük és szándékolt jelentéseik között. Szintaktika A nyelvészetben a szavak mondatokká és kifejezésekké formálódásának rendjét és kapcsolódását meghatározó szabályok összessége. Ezeknek a szabályoknak a tana. A számítástechnikában a programozási vagy jelölő nyelvek felépítését vezérlő szabályok összessége.

31 A szemantikai paradigma
A számítógép számára a szintaktikai paradigmában a dolgoknak nincs jelentése. A számítógép nem érti, hogy mi micsoda! - el kell neki árulni :) Ha már tudja, akkor visszakereséskor is érvényesíteni tudja! A mély weben tárolt tartalmakat is ugyanígy le kell írni!

32 A szemantikai paradigma
Középpontban a tudás! A dolgokat egyértelműen meghatározzuk; Azonosítókat rendelünk hozzájuk; Közöttük asszociációs kapcsolatokat definiálunk; A háttértudást ontológiákban rögzítjük.

33 A tématérkép technológia
“A Tématérkép technológia arra szolgál, hogy tudást kódoljunk vele és ezt a kódolt tudást releváns információs forrásokkal kapcsoljuk össze. A tématérképek diskurzusok tárgyát megjelenítő témák, a tárgyak közti kapcsolatokat megjelentő asszociációk és a tárgyakat megfelelő információs forrásokkal összekapcsoló előfordulások köré rendeződnek.” (ISO/IEC Data Model)

34 A tématérkép technológia
A tématékérkép technológia egy ISO szabványcsalád. A tématérkép technológia a tartalomkezelésnek egy olyan formája, amely témák közötti kapcsolatokat (asszociációk) definiál és azokhoz külső erőforrásokat, feljegyzéseket (külső és belső előfordulások) rendel. Az infoglut kontrollálása úgy, hogy bármilyen forrásból származó bármilyen információ összekapcsolható jelentés alapján. Szemantikus technológia (rokon a szemantikus webbel).

35 A tématérkép technológia
Széles körben használt technológia weben történő tudásreprezentációra. A technológiával egy-egy téma környezetét, előfordulásait és asszociációs mezejét lehet feltárni. Lehetőséget teremt arra, hogy a számítógéppel egyszerű következtetéseket hajtassunk végre.

36 A tématérkép technológia
Az SGML közösségből „nőtt ki” a 90-es években. Az eredeti ötlet: hogyan lehetne integrálni könyvek tárgymutatóit (indexeket) Multidiszciplináris fejlesztési terület. A könyvtárosok, informatikusok mellett a legtöbben bölcsészek a fejlesztők közül! Szakértő valaki sok tématérkép fejlesztésével lesz!

37 A tématérkép technológia
Amiről állítani akarunk valamit, arról létrehozunk egy témát. (pl. Steve Pepper, Ontopedia) - megnevezés Olvashatóvá és értelmezhetővé tesszük a számítógép és az ember számára is (PSI-t rendelünk hozzá!) - azonosítás Az állítást egy asszociáció formájában fogalmazzuk meg. Pl. Steve Pepper az Ontopedia vezetője. – a fogalmak egymás közti relációinak kontextusába helyezés Releváns információkat rendelünk Steve Pepperhez és az Ontopediához is. (előfordulások) – a fogalmak külső kontextusba helyezése.

38 A tématérképek TAO-ja TOPICS ASSOCIATIONS OCCURENCES

39 Téma Tárgy: tárgy bármi lehet, tekintet nélkül arra, hogy létezik-e, illetve hogy van-e bármi más olyan sajátos tulajdonsága, amelyről bármilyen eszközzel bármit lehet állítani. A szöveg tárgya. Téma: tématérképen belül használt szimbólum, amelynek célja hogy egy, és csak egy tárgyat reprezentáljon azért, hogy erről a tárgyról állításokat lehessen megfogalmazni.

40 Téma A hold. A Szovjetunió. Ez a tárgy mint egység már nem létezik, de a fogalom még létezik, tehát még mindig van ilyen tárgy. Az “A”, “B”, “C”, és “D” betűk. Ez tekinthető egyetlen tárgynak, például mint egy négyelemes készlet, vagy tekinthető négy különböző tárgynak is. Platon fogalma a Jóról. Ez a tárgy különbözik az absztrakt “jó”-tól és John Stuart Mill “jó” fogalmától, de kapcsolódik is hozzájuk. (ISO/IEC , Data Model)

41 Steve Pepper Pettson és Findusz metró London

42 Téma Szubjektív fogalom.
Dolgok osztályaira hozunk létre egy témát. (pl. Tamás, Alíz és Alexandra személyek; Bodri, Csikasz és Kuplung kutyák) Téma lehet konkrét dolog is (pl. Steve Pepper). A szubjektivitást előnnyé is lehet formálni. Nem reprezentálja hitelesen a világ dolgait. Egy téma csak egy tárgyat reprezentál. (Ló-e a póniló?) Hol a határa egy adott tárgynak? (Ki a pedagógus? A Könyvtári Intézet minisztériumi háttérintézmény vagy sem? Van ennek értelme? És az emberi kommunikációnak van?

43 Téma Témaelnevezési kényszer (amiről beszélni akarunk, azt meg kell nevezni) Ez mi? Eb vagy kutya?

44 PSI A tárgyak egyértelmű azonosítására szolgál Kétféle feloldása:
Published Subject Indicator (publikált tárgyindikátor); Published Subject Identifier (publikált tárgyazonosító). A számítógép és az ember számára is egyértelműen azonosítja azt, amiről beszélünk. PSD: Published Subject Descriptor (Publikált Tárgydeszkriptor)

45

46

47 A tárgyindikátor “A tárgyindikátor olyan információforrás, amelyre egy tématérkép hivatkozik, amikor emberek számára egyértelműen azonosítani akar egy téma által reprezentált tárgyat. Bármely információforrás tárgyindikátorrá válhat, amennyiben valamely tématérképből ilyen módon hivatkozunk rá, attól függetlenül, hogy szerzője eredetileg tárgyindikátornak szánta-e vagy nem.”

48 A tárgyazonosító “A tárgyazonosító olyan helymeghatározó, amely egy tárgyindikátorra mutat. A tématérképek csupán tárgyazonosítókat tartalmaznak (és nem a vonatkozó tárgyindikátorokat), így az összeolvasztás alapját is a tárgyazonosítók jelentik.”

49 Mi lehet PSI? PSI tárak elemei pl.: Wikipédia oldal
OASIS PSI tára Ontopedia projekt Wikipédia oldal Hivatalos honlapok Egy-egy dokumentumról teendő állításokhoz maga a dokumentum. Pl. Kosztolányi Dezső: Édes Anna MEK által digitalizált verziója:

50 Asszociáció Definíciója: “Egy vagy több tárgy közötti kapcsolat reprezentációja” Steve Pepper lakik London

51 Előfordulás “Egy tárgy és egy információforrás közötti kapcsolat reprezentációja.” Egy téma szempontjából releváns információ helye az információs térben Belső előfordulás - a tématérképen belülre írt téma szempontjából releváns információ. Pl. “élt: ” Külső előfordulás - az információs tér tématérképen kívüli pontján elhelyezkedő releváns információ. Pl.

52 Tématípus, asszociációtípus, előfordulástípus
Definíciók a szabványból: olyan tárgy, amely egy vagy több tárgy néhány közös vonását írja le az a tárgy, amely az adott típusú asszociációk által reprezentált kapcsolat természetét írja le az a tárgy, amely az adott típusú előfordulások által összekapcsolt tárgyak és információforrások közötti kapcsolat természetét írja le

53 Tématípus, asszociációtípus, előfordulástípus
Típusokkal a tulajdonságokat nem kell egyenként hozzárendelni dolgok osztályaihoz Tématípus: dolgok osztályainak a megnevezése: Béla, Hedvig és Ottó személyek; Bodri, Csikasz és Cézár ebek; Az ebek, a macskák és a mókusok pedig állatok. Előfordulástípus: thmate at oszk.hu, szajbergorl at citromail.hu ( cím), (honlap) Minden típus téma!!!

54 A tématérképek alapfogalmai
Témák és tématípusok - dolgok megnevezése, szavakkal való reprezentációja; Asszociációk és asszociációtípusok - dolgok közötti kapcsolatok definiálása; Előfordulások és előfordulástípusok - dolgokról fellelhető információk helyei az információs térben (feljegyzések, belső előfordulások, külső előfordulások); Nevek és névtípusok - azonos dolgok különböző nevei; Szerepek és szereptípusok - a dolgok által felvehető szerepek (Kovács Pál! „Te is lehetsz állampolgár, adóalany, vagy kedves hallgató, mélyen tisztelt egybegyűlt, vagy peres fél, vagy nyájas olvasó.” Kft.)

55 Ontológia tématípus1 asszociációtípus tématípus2 előfordulástípus1 előfordulástípus2 téma3 téma1 asszociáció2 asszociáció1 téma2 előfordulás Tématérkép előfordulás előfordulás Információs tér

56


Letölteni ppt "A világháló szintaktikai és szemantikai paradigmája"

Hasonló előadás


Google Hirdetések