Szemantikus keresők
A számítógépes keresés fejlődése Teljes szövegű keresés Kulcsszó alapú keresés Boole-operátorok alkalmazása Gyakorlati problémák: Rokon értelmű szavak Azonos alakú szavak
A számítógépes keresés fejlődése Dokumentumok osztályozása tartalom szerint: Szemantikus web Intelligens szövegelemzők, taxonómiák Látens szemantikai elemzés Support Vector Machines
Intelligens szövegelemzés Feladatai: Taxonómiák elkészítése Új dokumentumok automatikus besorolása Keresések elvégzése Felhasználása Kompromisszumok: Relevancia Teljes körűség
Internetes keresés A tudás reprezentálása a világhálón Hagyományos keresőrendszerek működése: Oldalak begyűjtése Oldalak indexelése Kérdésértelmezés és keresés Találatok sorrendezése, rangsorolása
Oldalak begyűjtése Keresőrobotok feladata Linkek követése a gyűjtés során Gyűjtés gyakorisága Kihagyott weblapok
Oldalak indexelése Az indexelő feladatai Felmerülő problémák: Dokumentumok elemzése Fontos és kevésbé fontos kifejezések elkülönítése Gyakorlati módszerek
Kérdésértelmezés és keresés Vektortér modell: Releváns visszacsatolás A VSM előnyei Internetes felhasználás problémái Visszaadott dokumentumhalmazok jellemzői: Precizitás= visszaadott relaváns dokumentum / összes visszaadott dokumentum Visszahívás= visszaadott relaváns dokumentum / összes releváns dokumentum
Találatok sorrendezése, rangsorolása A megtalált kifejezések helyének vizsgálata A megtalált kifejezések gyakoriságának vizsgálata Felhasználók reakciói Oldalak közötti linkstrúktúra, horgonyok
A Google PageRank algoritmusa Egy valós szám, amely egy adott oldalra vonatkoztatva annak fontosságát jelzi. M(i) azoknak az oldalaknak a halmaza, amik tartalmaznak linket az i. oldalra, L(j) a j. oldalról kimenő linkek száma.
d csillapító tényező (damping factor) Bevezetésére azért volt szükség, mert feltételezzük, hogy a felhasználó nem örökösen csak a meglévő linkek közül választva halad tovább, hanem egyszer csak úgy gondolja, itt az ideje egy teljesen új kezdőlapról elindulni. Ennek a valószínűsége 1-d, azaz d annak a valószínűségnek felel meg, hogy a szörfölő folyamatosan a meglévő linkek közül választ.
A Google kereső PageRank implementációja Eredetileg a Google az alábbi három tényező alapján rangsorolta a weblapokat: - Weboldal részeinek vizsgálata: oldalspecifikus tényezők - Bejövő Linkre rakott kulcsszavak - PageRank
IR érték A keresési eredmények előállítása érdekében a Google egy IR értéket generál az oldalspecifikus tényezők és a bejövő Linkre rakott kulcsszavak elemzésével, amit tovább súlyoz, aszerint, hogy a kifejezés hol fordul elő az oldalon Az IR-érték kombinálásra kerül az oldal PageRank értékével
A PageRank kijelzése a Google Eszköztáron http://toolbar.google.com/intl/hu/
HITS Hyperlink-Induced Topic Search, hiperlinkeken alapuló téma szerinti keresés Egy kapcsolatrendszerből nyer ki információt az egyes csomópontok fontosságáról.
Alapötlete a releváns oldalak felbontása két kategóriára: A keresett téma szempontjából központi (hub) mértékadó (authoritive) oldalakra. A csoportosítás egy rekurzív definíció alapján történik: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mértékadó oldalak pedig azok, amikre sok központi oldal mutat.
HITS és a közösségi szűrés Közösségi szűrés (collaborative filtering), sok felhasználó profilja alapján von le következtetést az adott felhasználóra vonatkozólag. Ha két oldal ugyanazokra vagy majdnem ugyanazokra az oldalakra mutat, akkor a két oldal valószínűleg azonos témájú, illetve azonos közösséghez tartozik. Ugyanez igaz arra a két oldalra, amire ugyanazok az oldalak mutatnak.
HITS és a PageRank A PageRank egy témafüggetlen, csak a linkstruktúra által meghatározott érték, a HITS viszont mindig egy konkrét témára nézve keres. A HITS eredménye sokkal pontosabb és relevánsabb lesz, viszont minden egyes kérdésnél újra ki kell számolni, tehát kevésbé hatékony.
PowerSet kereső A keresett szó "jelentésére keres rá, nem pedig szavakra". Alapkoncepció: nem egyszerűen leindexelni akarják az oldalak tartalmát, hanem összefüggéseket keresni bennük. A végcél, hogy a keresőnek a természeteshez közeli nyelven tudjunk kérdéseket feltenni, amire az válaszolni is tud.