Bevezetés a szemantikus technológiákba
Szemantikus technológiák Rendszerelemek – jelentés – logikai formula Elvárások – logikai formula Az elvárások megvalósítása a rendszerelemek segítségével – logikai következtetés Pl: Szemantikus integráció Szemantikus integráció Szemantikus világháló Szemantikus világháló
Szemantikus világháló Cél: Világhálón elérhető információ gépi feldolgozásra alkalmassá tétele Világhálón elérhető információ gépi feldolgozásra alkalmassá tétele A gép ne csak olvassa, értse is az információt A gép ne csak olvassa, értse is az információt Eszközök: Metainformáció társítás Metainformáció társítás Ontológiaépítés – háttértudás formalizálása Ontológiaépítés – háttértudás formalizálása Automatikus következtetési módszerek Automatikus következtetési módszerek
A kurzus felépítése I. rész: A szemantikus világháló alapjai A világháló napjainkban A világháló napjainkban RDF – metainformációk RDF – metainformációk RDFS – egyszerű háttértudás formalizálás RDFS – egyszerű háttértudás formalizálás RDF használata RDF használata
A kurzus felépítése II. rész: Ontológiák és leíró logikák Leíró logikák: AL, ALC, SHIQ… Leíró logikák: AL, ALC, SHIQ… TBox (Terminology Box) – háttértudásTBox (Terminology Box) – háttértudás ABox (Assertion Box) - metainformációkABox (Assertion Box) - metainformációk Következtetés leíró logikákon: tabló alapú algoritmusok Következtetés leíró logikákon: tabló alapú algoritmusok Egy egyszerű következtető megvalósítása Haskellben Egy egyszerű következtető megvalósítása Haskellben
A kurzus felépítése III. rész: Ontológiák használata Ontológiák a Weben: OWL – Web Ontology Language Ontológiák a Weben: OWL – Web Ontology Language Protegé ontológiaépítő eszköz Protegé ontológiaépítő eszköz A DLog Prolog alapú következtető rendszer A DLog Prolog alapú következtető rendszer
A Világháló napjainkban Heterogén szemantikájú és szintaktikájú dokumentumok Eltérő típusok (szöveg, kép, hang, video…) Eltérő típusok (szöveg, kép, hang, video…) Eltérő formátumok (pdf, ps, word, txt…) Eltérő formátumok (pdf, ps, word, txt…) Eltérő nyelvek (magyar, angol, pascal, c…) Eltérő nyelvek (magyar, angol, pascal, c…) Nem ellenőrzött (bárki bármit közzétehet)
Keresés a világhálón Oldalak begyűjtése (keresőbotok) Indexelés (tárgymutató készítés, fontos kifejezések kigyűjtése) Kérdés értelmezése, keresés az indexben Találatok sorrendezése és visszaadása
Oldalak begyűjtése Hosszadalmas (rengeteg adat) Rendszeres frissités szükséges Nincs link, nincs begyűjtés
Indexelés Dokumentum elemzése nehéz feladat Mik a fontos kifejezések? Előbb meg kellene érteni… Szavak gyakorisága jó heurisztika, de félrevezethet Gépelési hibák, nem szabványos html Eredménye egy jól karbantartott, tömör, strukturált, viszonylag kicsi adathamaz
Keresés Vektortér modell Minden dokumentum és a kérdés egy-egy vektornak felel meg Minden dokumentum és a kérdés egy-egy vektornak felel meg Vektorok közti távolságokat számítunk Vektorok közti távolságokat számítunk Természetes nyelven megfogalmazott kérdésre jó Természetes nyelven megfogalmazott kérdésre jó Kulcsszavas keresésre nem jó Kulcsszavas keresésre nem jó
Keresés Bool modell Csak azt figyeljük, hogy milyen kifejezések fordulnak elő az oldalon illetve a kérdésben Csak azt figyeljük, hogy milyen kifejezések fordulnak elő az oldalon illetve a kérdésben A hangsúly a keresés utáni rangsoroláson Rangsoroláshoz különféle heurisztikák Szavak gyakorisága, előfordulás helye (cím, bevezetés), fontméret, szín, korábbi felhasználók reakciói… Szavak gyakorisága, előfordulás helye (cím, bevezetés), fontméret, szín, korábbi felhasználók reakciói…
Sorrendezés linkstruktura alapján A fenti szempontok mind könnyen manipulálhatóak Nehezen befolyásolható kritériumok előtérbe kerülnek Többet számít az, amit más mond rólunk, mint amit mi mondunk magunkról (link körüli szöveg) Az az oldal, amire többen hivatkoznak, valószínűleg értékesebb (csupán linkstruktura alapján)
Mérőszámok a keresés jellemzésére Precizitás: releváns visszadott / visszaadott Visszahívás: releváns visszaadott / releváns Egymás ellen dolgoznak Manapság tipikusan Kis precizitás (rengeteg érdektelen találat) Kis precizitás (rengeteg érdektelen találat) Nagy visszahívás (ritka, hogy a számunkra fontos oldalat ne találja meg a kereső) Nagy visszahívás (ritka, hogy a számunkra fontos oldalat ne találja meg a kereső)
Problémák a Webes kereséssel Hatalmas és változékony a világháló Mély Web Lekérdezhető adatbázisban tárolt tartalom (Web nagyrésze!!!) Lekérdezhető adatbázisban tárolt tartalom (Web nagyrésze!!!) Nem szöveges tartalom Nem szöveges tartalom Szemantika hiánya Jelentés helyett szöveges alakkal dolgozunk Jelentés helyett szöveges alakkal dolgozunk Függ az információ tényleges reprezentációjától Függ az információ tényleges reprezentációjától Nyelvi korlátok Nyelvi korlátok Képekhez, hangokhoz semmilyen jelentést nem tudunk társítani Képekhez, hangokhoz semmilyen jelentést nem tudunk társítani Nem tudunk következtetni (szinonimák, taxonómiák) Nem tudunk következtetni (szinonimák, taxonómiák)
Problémák a Webes kereséssel Megoldás Metakeresők: összevetjük az eredményeket Metakeresők: összevetjük az eredményeket Fókuszált keresők: kisebb méret, könnyebb frissíteni, jobb precizitás és visszahívás Fókuszált keresők: kisebb méret, könnyebb frissíteni, jobb precizitás és visszahívás Szemantika megragadása Szemantika megragadása
Szemantika megragadása Kézi indexelés Katalógust készítünk (YAHOO) Katalógust készítünk (YAHOO) Ember szolgáltatja a szemantikát Ember szolgáltatja a szemantikát Garantált minőség Garantált minőség Lassú Lassú Melléktémák kimaradnak Melléktémák kimaradnak Következtetés továbbra is hiányzik Következtetés továbbra is hiányzik
Szemantika megragadása Helyezzünk el metainformációt a Weben Információ, mely információról szól, leírja, hogy ez utóbbi miről szól Pl. link egy másik oldalról, szerző neve, dokumentum módosítási ideje Jelenleg a metainformáció is heterogén formában van
Szemantikus Világháló Az oldalakhoz kapcsolódó metainformáció és a következtetéshez szükséges háttértudás egységes és feldolgozható alakban történő leírása
Szemantikus Világháló Erőforrásainkhoz metaadatokat társítunk Mi lehet erőforrás? Bármi, ami egyedileg azonosítható (egy honlap, honlap része, kép video, egy hardware eszköz, állomány) HTML-ben van metaadat: tag Nagyon korlátozott, csak néhány attribútum Nagyon korlátozott, csak néhány attribútum Csak a honlap egészéről szólhat Csak a honlap egészéről szólhat
Szemantikus Világháló A különféle formátumú adatforrásaink számára lehetővé tesszük, hogy metaadatot szolgáltassanak magukról A metaadat már egységes, strukturált Géppel fel tudjuk dolgozni