CS345 Adatbányászat Hivatkozáselemzés 2: Témaspecifikus oldalrang Központok és tekintélyek Szemétfelderítés Anand Rajaraman, Jeffrey D. Ullman.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

GRIN: Gráf alapú RDF index
A Floyd-Warshall algoritmus
Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Készítette: Kosztyán Zsolt Tibor
Valóban azt látjuk, ami a retinára vetül? Dr. Kosztyánné Mátrai Rita Eötvös Loránd Tudományegyetem, Bölcsészettudományi Kar, Informatika Tanszék.
I. előadás.
Zoological Record adatbázis bemutatása A Web of Knowledge platformon Tóth Szász Enikő
Adatelemzés számítógéppel
Orbán Éva SZIE Állatorvos-tudományi Könyvtár Hagyományos és új terápiás eljárások az információhiány kezelésére Tanulságos esetek az Állatorvos-tudományi.
Internet ismeretek II..
A Krúdy Gyula Városi Könyvtár katalógusának használatáról…
Online Katalógus aleph.nyf.hu.
Készítette: Major Máté
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Illeszkedési mátrix Villamosságtani szempontból legfontosabb mátrixreprezentáció. Legyen G egy irányított gráf, n ponton e éllel. Az n x e –es B(G) mátrixot.
Illés Tibor – Hálózati folyamok
Csoport részcsoport invariáns faktorcsoport részcsoport
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Gépi tanulási módszerek
Rangsorolás tanulása ápr. 24..
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Webdesign I - Oldaltervezés alapelvek. I. Tartalom-elhelyezés az oldalon ALAPELVEK 1.Mindig értékes és érdekes tartalom jelenjen meg az oldalon! 2.A tartalom.
Papp Róbert, Blaskovics Viktor, Hantos Norbert
Műszaki tudományok az interneten
Előadó: Prof. Dr. Besenyei Lajos
A digitális számítás elmélete
1 Hogyan juthatunk be a keresők első oldalára – kereső optimalizálás.
Szélességi bejárás A szélességi bejárással egy irányított vagy irányítás nélküli véges gráfot járhatunk be a kezdőcsúcstól való távolságuk növekvő sorrendjében.
Aki keres, az talál? Igen, talál. Ki ezt, ki azt, de egy szót beütve a google keresőbe (pl.) mindig ugyanazt, hacsak nem kerültek fel új honlapok az adott.
Készítette: Kosztyán Zsolt Tibor
Készítette: Lakos Péter.  Adott egy élsúlyozott, véges gráf  Negatív élsúlyokat nem tartalmaz  Lehet irányított vagy irányítatlan  Továbbá adott egy.
Keresőoptimalizáló eszközök ( S earch E ngine O ptimization tools )
Szemantikus keresők.
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Alapsokaság (populáció)
Support.ebsco.com Az EBSCOhost találati lista Oktatóprogram.
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
Keresőrendszerek.
I. előadás.
Lineáris algebra.
Készítette: Turócziné Kiscsatári Nóra
Az NVU webszerkesztő program
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Az internetes keresési módszerek
Keresés a weben Kulcsszavas keresés: Google (
Gráfok ábrázolása teljesen láncoltan
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Kiterjesztések szemantikája: Szemantikai tartomány : Adatoknak, vagy értékeknek egy nem üres halmazát szemantikai tartománynak nevezzük. Jelölése: D. Egy.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
Adatkeresés az interneten
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
HÁLÓZAT Maximális folyam, minimális vágás
17 ISMERTESSE AZ INTERNETES KERESÉSI MÓDSZEREKET! KONKRÉT GYAKORLATI PÉLDA KERESÉSRE.(KERESÉS, TALÁLATI LISTA ÉRTELMEZÉSE, TALÁLT OLDAL MENTÉSE.) Készítette:
I. Előadás bgk. uni-obuda
Vizsgaelőadás útmutató
A mesterséges neuronhálók alapjai
Gráfalgoritmusok G=(V,E) gráf ábrázolása
Vizsgaelőadás útmutató
Gráfalgoritmusok G=(V,E) gráf ábrázolása
Vizsgaelőadás útmutató
Előadás másolata:

CS345 Adatbányászat Hivatkozáselemzés 2: Témaspecifikus oldalrang Központok és tekintélyek Szemétfelderítés Anand Rajaraman, Jeffrey D. Ullman

Témaspecifikus oldalrang  Az általános népszerűség helyett mérhetjük-e egy témán belüli népszerűséget? pl. számítástudomány, egészség  Tereljük a véletlen sétát Amikor a véletlen sétáló teleportál, a weblapok egy S halmazából választ S csak a témával kapcsolatos oldalakat tartalmazza pl. Open Directory (DMOZ) lapok egy témában (  Minden S teleportáló halmazzal más r S rangvektort kapunk.

A mátrix formalizálása  A ij = M ij + (1-)/|S|, ha i ∈ S  A ij = M ij különben  Mutassuk meg, hogy A sztochasztikus  Az S teleporthalmaz minden lapjának ugyanazt a súlyt adtuk Adthatnán különböző súlyokat is

Példa Legyen S = {1},  = 0.8 CsúcsIteráció 012…stabil Figyeljük meg, hogy az oldalrangvektort máshogy inicializáljuk, mint a térítetlen oldalrang esetében

Milyen jól működik a TSPR?  Kísérleti eredmények [Haveliwala 2000]  16 témát választottak ki A teleporthalmazokat a DMOZ alapján pl. művészet, üzlet, sport  „Vak tanulmány” önkéntesekkel 35 teszt lekérdezés Az eredményeket rangsorolták a PageRankkel és a legközelebb álló téma TSPR-jével pl. a biciklizést a sport rangjával A legtöbb esetben az önkénteseknek jobban tetszett a TSPR rangsor

Melyik téma rangjait használjuk?  A felhasználó menüből választhat  Bayes-osztályozást használunk a lekérdezés témába sorolásához  Használhatjuk a lekérdezés környezetét pl. a lekérdezés egy ismert témáról szóló oldalról indult Lekérdezések története, pl. „kosárlabda” után „jordan”  Felhasználói környezet, pl. My Yahoo beállítások, könyvjelzők

Központok és tekintélyek  Tegyük fel, hogy van egy dokumentumkollekciónk egy tág témakörben pl. stanford, evolúció, irak esetleg szöveges keresés eredménye  Szervezhetjük-e ezeket valamilyen módon? Az oldalrang egy megoldás HITS (Hypertext-Induced Topic Selection, hiperszövegből levezetett témaválasztás) egy másik  kb. ugyanabban az időben javasolták (1998)

HITS modell  Az érdekes dokumentumok két osztályba tartoznak 1.A tekintélyek hasznos információkat tartalmazó lapok kari dolgozók honlapjai buszgyárak honlapjai 2.A központok olyan lapok, amelyek tekintélyekre hivatkoznak kar dolgozóinak jegyzéke magyarországi buszgyárak listája

Ideális látvány KözpontokTekintélyek

Kölcsönösen rekurzív definíció  Egy jó központ sok jó tekintélyre hivatkozik  Egy jó tekintélyre sok jó központ hivatkozik  A modell minden csúcshoz két számot rendel Központ érték és Tekintély érték Reprezentáljuk a h és a vektorokkal

Átmeneti mátrix: A  A H&A mátrixában A [i, j ] = 1, ha az i. lap hivatkozik a j.-re, 0, ha nem.  A T, azaz A transzponáltja, hasonlít a PageRank M mátrixra, csak A T -ben 1- esek vannak, M-ben pedig törtek.

Példa Yahoo M’softAmazon y a m y a m A =

Központ és tekintély egyenletei  Egy P lap központ értéke arányos az általa hivatkozott lapok tekintély értékeinek összegével h = λ Aa A λ konstans skálázó tényező  Egy P lap tekintély értéke arányos a rá hivatkozó lapok központ értékeinek összegével a = μ A T h A μ konstans skálázó tényező

Iterációs algoritmus  Legyen h, a kezdetben csupa 1-es  h = Aa  Skálázzuk h-t úgy, hogy a maximális eleme 1 legyen  a = A T h  Skálázzuk a-t úgy, hogy a maximális eleme 1 legyen  Folytassuk, amíg h, a nem konvergál

Példa A = A T = a(yahoo) a(amazon) a(m’soft) ====== / h(yahoo) = 1 h(amazon) = 1 h(m’soft) = 1 1 2/3 1/

Létezés és egyértelműség h = λ Aa a = μ A T h h = λμ AA T h a = λμ A T A a Ésszerű feltételezésekkel élve A-ról, a duális iterációs algoritmus a h* és a* vektorokhoz tart, ahol: h* a fő sajátvektora az AA T mátrixnak a* a fő sajátvektora az A T A mátrixnak

Páros magok KözpontokTekintélyek Leginkább sűrűn összefüggő mag (elsődleges mag) Kevésbé sűrűn összefüggő mag (másodlagos mag)

Másodlagos magok  Egy témának lehet sok páros magja különböző jelentésekhez vagy nézőpontokhoz abortusz: választás melletti, élet melletti érv evolúció: darwini, intelligens tervezés lokomotív: mozdony, focicsapat, rockegyüttes  Hogyan keressünk ilyen másodlagos magokat?

Másodlagos magok keresése  Amint megtaláltuk az elsődleges magot, eltávolíthatjuk a hivatkozásait a gráfból  Ismételjük meg a HITS algoritmust a maradék gráfra, így megtaláljuk a következő páros magot  Durván ezek a nem fő sajátvektoroknak felelnek meg az AA T és A T A mátrixokban

A HITS gráf létrehozása  Összefüggő gráf kell, hogy a HITS jól működjön

A Page Rank és a HITS  A Page Rank és a HITS ugyanarra a problémára két megoldás Mi S-ből D-be vivő hivatkozás értéke? Az oldalrang modellben a hivatkozás értéke az S felé menő hivatkozásoktól függ A HITS modellben az S-ből kimenő egyéb hivatkozások értékétől függ  A Page Rank és a HITS 1998 utáni végzete nagyon különböző lett Miért?

Webszemét  A keresés lett a web általános kapuja  Nagyon nagy kiváltság a keresési találatok első oldalán megjelenni pl. e-kereskedelmi lapok reklám által fenntartott lapok

Mi a webszemét?  Szemetelés (spamming) = szándékos cselekedet, amelynek célja egy weboldal helyzetének javítása a keresők eredményeiben, az oldal valódi értékéhez képest aránytalan mértékben  Szemét = olyan weblapok, amelyek szemetelés eredményeként jöttek létre  Ez nagyon tág definíció A SEO ipar nem ért egyet! SEO = keresőgépre optimalizálás  Hozzávetőlegesen a weblapok 10-15%-a szemét

A webszemét rendszertana  Gyöngyi Zoltán és Hector García-Molina megközelítését követjük [2004]  Fellendítő technikák Olyan technikák, amellyel magas relevancia/fontosság érhető el egy weblapon  Elrejtő technikák A fellendítő technikák elrejtésére szolgálnak  Elrejtés emberek és webtetűk * elől *web crawler

Fellendítő technikák  Szószemetelés A weblap szövegének módosítása úgy, hogy az relevánsnak tűnjön egy keresésben  Linkszemetelés Olyan hivatkozási szerkezet létrehozása, amely az oldalrangot vagy a központ és tekintély értékeket lendíti fel

Szószemetelés  Ismétlés néhány konkrét kifejezés, pl. ingyen, olcsó, viagra Célja a TF.IDF rangsémák átverése  Dömping sok nem kapcsolódó kifejezés pl. egész szótárak másolata  Szövés valódi oldalak lemásolása és véletlenszerű helyeken szemétkifejezések beszúrása  Kifejezéstűzés Különböző forrásokból származó mondatok és kifejezések összeragasztása

Linkszemetelés  Háromféle weboldal a szemetelő nézőpontjából Elérhetetlen lapok Elérhető lapok  pl. blog hozzászóló lapok  a szemetelő hivatkozhat a saját lapjára Saját lapok  teljesen a szemetelő irányítása alatt  több tartománynevet is átfoghat

Linkfarmok  A szemetelő célja Maximalizálni a t céloldal rangját  Technika Szerezzünk sok hivatkozást a t céloldalra az elérhető oldalakról Építsünk „linkfarmot”, hogy elérjük az oldalrangot szorzó hatást

Linkfarmok Elérhetetlen t ElérhetőSaját 1 2 M Az egyik leggyakoribb és leghatékonyabb linkfarm szervezés.

Elemzés Tegyük fel, hogy az elérhető lapoktól származó rang = x Legyen a céloldal rangja = y Egy „farm” oldal rangja = y/M + (1-)/N y = x + M[y/M + (1-)/N] + (1-)/N = x +  2 y + (1-)M/N + (1-)/N y = x/(1- 2 ) + cM/N, ahol c = /(1+) Elérhetetlen t Elérhető Saját 1 2 M Nagyon kicsi; elhanyagolható

Elemzés  y = x/(1- 2 ) + cM/N, ahol c = /(1+)  Ha  = 0.85 akkor 1/(1- 2 )= 3.6 Szorzó hatás a „szerzett” oldalrangnak M növelésével y-t bármilyen nagyra növelhetjük Elérhetetlen t Elérhető Saját 1 2 M

A szemét felfedezése  Szószemetelés Statisztikai módszerrel, pl. naív Bayes- osztályozással elemezzük a szöveget Hasonló az szemétszűréshez Hasznos is lehet: nagyjából megegyező lapok felfedezése  Linkszemetelés Nyitott kutatási terület Egy megközelítés: TrustRank

TrustRank ötlete  Alapelv: közelítők elkülönítése Ritka, hogy egy „jó” oldal mutat egy „rossz” (szemét) oldalra  Vegyünk mintát egy néhány „magoldalról” a weben  Kérjünk meg egy „jóst” (embert), hogy azonosítsa a jó és szemét oldalakat a maghalmazban Drága feladat, ezért a maghalmaz legyen minél kisebb

A bizalom terjedése  Nevezzük a maghalmaz „jó”-nak ítélt oldalait „megbízható” oldalaknak  A megbízható oldalak bizalom értéke legyen 1  Terjesszük a bizalmat a hivatkozásokon keresztül Minden oldal kap egy 0 és 1 közötti bizalom értéket Használjunk egy küszöbértéket, és jelöljük meg a küszöb alatti oldalakat szemétként

A bizalom terjedésének szabályai  A bizalom csillapítása Egy megbízható oldal által adott bizalom csökken a távolsággal  A bizalom elosztása Minél több a kimenő hivatkozás, annál kevesebb figyelmet fordít az oldal szerzője a kimenő hivatkozásokra A bizalom „eloszlik” a kimenő hivatkozások között

Egyszerű modell  Tegyük fel, hogy egy p oldal bizalma t(p) A kimenő hivatkozások halmaza O(p)  Minden q ∈ O(p)-ra p átadja a bizalmat t(p)/|O(p)|, ahol 0<<1  A bizalom additív p bizalma a rá hivatkozó oldalak által p-nek átadott bizalmak összege  Hasonlít a témaspecifikus oldalranghoz Egy skálázó tényezővel a bizalomrang = terelt oldalrang a megbízható oldalakat használva teleporthalmazként

A maghalmaz kiválasztása  Két egymásnak ellentétes megfontolás Embernek kell átnéznie minden egyes magoldalt, ezért a maghalmaznak minél kisebbnek kell lennie Biztosítani kell, hogy minden „jó oldal” elég jó bizalomrangot kapjon, tehát gondoskodni kell róla, hogy a jó lapok elérhetők legyenek a maghalmazból rövid utakon

Megközelítések a maghalmaz kiválasztására  Tegyük fel, hogy k elemű maghalmazt szeretnénk kiválasztani  PageRank Válasszuk ki az első k oldalt oldalrang alapján Feltesszük, hogy a magas oldalrangú oldalak közel állnak másik magas rangú oldalakhoz Jobban érdekelnek minket a magas rangó „jó” oldalak

Fordított oldalrang  Válasszuk a legtöbb kimenő hivatkozással rendeklező oldalakat  Tehetjük ezt rekurzívan Válasszunk sok kimenő hivatkozású oldalakra hivatkozó oldalakat  Formalizáljuk „fordított oldalrang”-ként Vegyük a G’ gráfot, amely a G web gráf megfordítása A G’-ben az oldalrang a G-beli fordított oldalranggal egyenlő  Válasszuk az első k oldalt fordított oldalrang alapján

Szeméttömeg  A TrustRank modellben megbízható lapokkal indulink és terjesztjük a bizalmat  Kiegészítő nézet: az oldalrang mekkora töredéke származik „szemét” lapokról?  A gyakorlatban nem ismerjük az összes szemétoldalt, ezért becsülnünk kell

Szeméttömeg becslése r(p) = a p oldal oldalrangja r + (p) = p oldalrangja, ha csak „jó” lapokra teleportálhatunk r - (p) = r(p) – r + (p) p szeméttömege = r - (p)/r(p)

Jó oldalak  Szeméttömeghez nagy mennyiségű „jó” oldalra van szükségünk. Nem kell olyan óvatosnak lenni az oldalak minőségét illetően, mint a TrustRank esetén  Egy ésszerű megközelítés oktatási webhelyek kormányzati webhelyek katonai webhelyek

Másik megközelítés  Visszaáramlás az ismert szemétoldalakról  Még nyitott kutatási terület…