Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Szemantikus keresők
2
A számítógépes keresés fejlődése
Teljes szövegű keresés Kulcsszó alapú keresés Boole-operátorok alkalmazása Gyakorlati problémák: Rokon értelmű szavak Azonos alakú szavak
3
A számítógépes keresés fejlődése
Dokumentumok osztályozása tartalom szerint: Szemantikus web Intelligens szövegelemzők, taxonómiák Látens szemantikai elemzés Support Vector Machines
4
Intelligens szövegelemzés
Feladatai: Taxonómiák elkészítése Új dokumentumok automatikus besorolása Keresések elvégzése Felhasználása Kompromisszumok: Relevancia Teljes körűség
5
Internetes keresés A tudás reprezentálása a világhálón
Hagyományos keresőrendszerek működése: Oldalak begyűjtése Oldalak indexelése Kérdésértelmezés és keresés Találatok sorrendezése, rangsorolása
6
Oldalak begyűjtése Keresőrobotok feladata
Linkek követése a gyűjtés során Gyűjtés gyakorisága Kihagyott weblapok
7
Oldalak indexelése Az indexelő feladatai Felmerülő problémák:
Dokumentumok elemzése Fontos és kevésbé fontos kifejezések elkülönítése Gyakorlati módszerek
8
Kérdésértelmezés és keresés
Vektortér modell: Releváns visszacsatolás A VSM előnyei Internetes felhasználás problémái Visszaadott dokumentumhalmazok jellemzői: Precizitás= visszaadott relaváns dokumentum / összes visszaadott dokumentum Visszahívás= visszaadott relaváns dokumentum / összes releváns dokumentum
9
Találatok sorrendezése, rangsorolása
A megtalált kifejezések helyének vizsgálata A megtalált kifejezések gyakoriságának vizsgálata Felhasználók reakciói Oldalak közötti linkstrúktúra, horgonyok
10
A Google PageRank algoritmusa
Egy valós szám, amely egy adott oldalra vonatkoztatva annak fontosságát jelzi. M(i) azoknak az oldalaknak a halmaza, amik tartalmaznak linket az i. oldalra, L(j) a j. oldalról kimenő linkek száma.
11
d csillapító tényező (damping factor)
Bevezetésére azért volt szükség, mert feltételezzük, hogy a felhasználó nem örökösen csak a meglévő linkek közül választva halad tovább, hanem egyszer csak úgy gondolja, itt az ideje egy teljesen új kezdőlapról elindulni. Ennek a valószínűsége 1-d, azaz d annak a valószínűségnek felel meg, hogy a szörfölő folyamatosan a meglévő linkek közül választ.
12
A Google kereső PageRank implementációja
Eredetileg a Google az alábbi három tényező alapján rangsorolta a weblapokat: - Weboldal részeinek vizsgálata: oldalspecifikus tényezők - Bejövő Linkre rakott kulcsszavak - PageRank
13
IR érték A keresési eredmények előállítása érdekében a Google egy IR értéket generál az oldalspecifikus tényezők és a bejövő Linkre rakott kulcsszavak elemzésével, amit tovább súlyoz, aszerint, hogy a kifejezés hol fordul elő az oldalon Az IR-érték kombinálásra kerül az oldal PageRank értékével
14
A PageRank kijelzése a Google Eszköztáron
15
HITS Hyperlink-Induced Topic Search, hiperlinkeken alapuló téma szerinti keresés Egy kapcsolatrendszerből nyer ki információt az egyes csomópontok fontosságáról.
16
Alapötlete a releváns oldalak felbontása két kategóriára:
A keresett téma szempontjából központi (hub) mértékadó (authoritive) oldalakra. A csoportosítás egy rekurzív definíció alapján történik: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mértékadó oldalak pedig azok, amikre sok központi oldal mutat.
17
HITS és a közösségi szűrés
Közösségi szűrés (collaborative filtering), sok felhasználó profilja alapján von le következtetést az adott felhasználóra vonatkozólag. Ha két oldal ugyanazokra vagy majdnem ugyanazokra az oldalakra mutat, akkor a két oldal valószínűleg azonos témájú, illetve azonos közösséghez tartozik. Ugyanez igaz arra a két oldalra, amire ugyanazok az oldalak mutatnak.
18
HITS és a PageRank A PageRank egy témafüggetlen, csak a linkstruktúra által meghatározott érték, a HITS viszont mindig egy konkrét témára nézve keres. A HITS eredménye sokkal pontosabb és relevánsabb lesz, viszont minden egyes kérdésnél újra ki kell számolni, tehát kevésbé hatékony.
19
PowerSet kereső A keresett szó "jelentésére keres rá, nem pedig szavakra". Alapkoncepció: nem egyszerűen leindexelni akarják az oldalak tartalmát, hanem összefüggéseket keresni bennük. A végcél, hogy a keresőnek a természeteshez közeli nyelven tudjunk kérdéseket feltenni, amire az válaszolni is tud.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.