Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Szemantikus keresők. A számítógépes keresés fejlődése Teljes szövegű keresés Kulcsszó alapú keresés Boole-operátorok alkalmazása Gyakorlati problémák:

Hasonló előadás


Az előadások a következő témára: "Szemantikus keresők. A számítógépes keresés fejlődése Teljes szövegű keresés Kulcsszó alapú keresés Boole-operátorok alkalmazása Gyakorlati problémák:"— Előadás másolata:

1 Szemantikus keresők

2 A számítógépes keresés fejlődése Teljes szövegű keresés Kulcsszó alapú keresés Boole-operátorok alkalmazása Gyakorlati problémák: Rokon értelmű szavak Azonos alakú szavak

3 Dokumentumok osztályozása tartalom szerint: –Szemantikus web –Intelligens szövegelemzők, taxonómiák Látens szemantikai elemzés Support Vector Machines A számítógépes keresés fejlődése

4 Intelligens szövegelemzés Feladatai: –Taxonómiák elkészítése –Új dokumentumok automatikus besorolása –Keresések elvégzése Felhasználása Kompromisszumok: Relevancia Teljes körűség

5 Internetes keresés A tudás reprezentálása a világhálón Hagyományos keresőrendszerek működése: 1.Oldalak begyűjtése 2.Oldalak indexelése 3.Kérdésértelmezés és keresés 4.Találatok sorrendezése, rangsorolása

6 Oldalak begyűjtése Keresőrobotok feladata Linkek követése a gyűjtés során Gyűjtés gyakorisága Kihagyott weblapok

7 Oldalak indexelése Az indexelő feladatai Felmerülő problémák: Dokumentumok elemzése Fontos és kevésbé fontos kifejezések elkülönítése Gyakorlati módszerek

8 Kérdésértelmezés és keresés Vektortér modell: Releváns visszacsatolás A VSM előnyei Internetes felhasználás problémái Visszaadott dokumentumhalmazok jellemzői: Precizitás= visszaadott relaváns dokumentum / összes visszaadott dokumentum Visszahívás= visszaadott relaváns dokumentum / összes releváns dokumentum

9 Találatok sorrendezése, rangsorolása A megtalált kifejezések helyének vizsgálata A megtalált kifejezések gyakoriságának vizsgálata Felhasználók reakciói Oldalak közötti linkstrúktúra, horgonyok

10 A Google PageRank algoritmusa Egy valós szám, amely egy adott oldalra vonatkoztatva annak fontosságát jelzi. M(i) azoknak az oldalaknak a halmaza, amik tartalmaznak linket az i. oldalra, L(j) a j. oldalról kimenő linkek száma.

11 d csillapító tényező (damping factor) Bevezetésére azért volt szükség, mert feltételezzük, hogy a felhasználó nem örökösen csak a meglévő linkek közül választva halad tovább, hanem egyszer csak úgy gondolja, itt az ideje egy teljesen új kezdőlapról elindulni. Ennek a valószínűsége 1-d, azaz d annak a valószínűségnek felel meg, hogy a szörfölő folyamatosan a meglévő linkek közül választ.

12 A Google kereső PageRank implementációja Eredetileg a Google az alábbi három tényező alapján rangsorolta a weblapokat: - Weboldal részeinek vizsgálata: oldalspecifikus tényezők - Bejövő Linkre rakott kulcsszavak - PageRank

13 IR érték A keresési eredmények előállítása érdekében a Google egy IR értéket generál az oldalspecifikus tényezők és a bejövő Linkre rakott kulcsszavak elemzésével, amit tovább súlyoz, aszerint, hogy a kifejezés hol fordul elő az oldalon Az IR-érték kombinálásra kerül az oldal PageRank értékével

14 A PageRank kijelzése a Google Eszköztáron

15 HITS Hyperlink-Induced Topic Search, hiperlinkeken alapuló téma szerinti keresés Egy kapcsolatrendszerből nyer ki információt az egyes csomópontok fontosságáról.

16 Alapötlete a releváns oldalak felbontása két kategóriára: A keresett téma szempontjából központi (hub) mértékadó (authoritive) oldalakra. A csoportosítás egy rekurzív definíció alapján történik: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mértékadó oldalak pedig azok, amikre sok központi oldal mutat.

17 HITS és a közösségi szűrés Közösségi szűrés (collaborative filtering), sok felhasználó profilja alapján von le következtetést az adott felhasználóra vonatkozólag. Ha két oldal ugyanazokra vagy majdnem ugyanazokra az oldalakra mutat, akkor a két oldal valószínűleg azonos témájú, illetve azonos közösséghez tartozik. Ugyanez igaz arra a két oldalra, amire ugyanazok az oldalak mutatnak.

18 HITS és a PageRank A PageRank egy témafüggetlen, csak a linkstruktúra által meghatározott érték, a HITS viszont mindig egy konkrét témára nézve keres. A HITS eredménye sokkal pontosabb és relevánsabb lesz, viszont minden egyes kérdésnél újra ki kell számolni, tehát kevésbé hatékony.

19 PowerSet kereső A keresett szó "jelentésére keres rá, nem pedig szavakra". Alapkoncepció: nem egyszerűen leindexelni akarják az oldalak tartalmát, hanem összefüggéseket keresni bennük. A végcél, hogy a keresőnek a természeteshez közeli nyelven tudjunk kérdéseket feltenni, amire az válaszolni is tud.


Letölteni ppt "Szemantikus keresők. A számítógépes keresés fejlődése Teljes szövegű keresés Kulcsszó alapú keresés Boole-operátorok alkalmazása Gyakorlati problémák:"

Hasonló előadás


Google Hirdetések