Adatbányászati módszerek ajánló rendszerekben

Adatbányászati módszerek ajánló rendszerekben
KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

Tartalom A KDD Cup, Eredmények A Netflix Prize adathalmaz
A KDD Cup Task 1 feladat Módszerünk Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok Kihívások: adatméret, feladat nehézsége Magunkról

A KDD Cup KDD konferencia A „Kupa”
Évente megrendezésre kerül (2007: San Jose, CA) Adatbányászat legfontosabb tudományos világfóruma A „Kupa” Évente, nagy kihívást jelentő adatbányászati problémák 2007 Task 1: a Netflix melyik felhasználója melyik mozifilmet fogja értékelni 2006 Task 2: 1. helyezett Tikk Domonkosék (BME) 2007 Task 1: 1. helyezett: Kurucz Miklós, B. A., Kiss Tamás, Nagy István, Szabó Adrienn, Torma Balázs

Eredmények Task 1 - Who Rated What Task 2 - How Many Ratings
First place: MTA SZTAKI RMSE 0.256 First runner up: Neo Metrics RMSE 0.263 Second runner up: IBM Research RMSE 0.265 Task 2 - How Many Ratings First place: IBM Research First runner up: Neo Metrics Second runner up: Inductis

A Netflix Prize adathalmaz
Online DVD kölcsönző Felhasználói érté- kelések:  -  án M anonim rating KDD Cup 2007 ezen az adathalmazon

A Netflix Prize verseny
RMSE: jósolt értékelés (rating) négyzetes hibája Cinematch ajánló rendszer RMSE: 10% javítás RMSE = : $1,000,000 BellKor KorBell When Gravity and Dinosaurs Unite basho Gravity Dinosaur Planet A Arek Paterek

A KDD Cup Task 1 Az adott felhasználó értékelte-e az adott filmet ban: Megadott 100,000 felhasználó-film pár A felhasználók és a filmek is a Netflix Prize adathalmazból véletlenszerűen választva A film megjelent (vagy legalább egy értékelést kapott) előtt A felhasználó első értékelését 2006 előtt adta

Módszerünk: kombinációban
Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok

Szinguláris felbontás (SVD – PCA, faktor, főkomponens analízis, …)
Eckart – Young Tétel: k-dim SVD a mátrix legjobb közelítése ℓ2 (RMSE) és Frobenius normákban Zajszűrés – a mátrix „lényege”: k felhasználó és film faktor (pl. családi, thriller, sorozat, stb) kombinációja

Az SVD előrejelző képessége (10 dim)

Termék-termék hasonlóság
A korábbiakhoz hasonló filmeket szeretünk (és értékelünk – a kettő összefügg!) Két film hasonló, ha a felhasználók hasonlóan értékelik Hasonlóság: „adjusted cosine similarity” Korreláció, csak felhasználó (és nem film) átlagokkal

Becslés a leghasonlóbb 5 film alapján:

Asszociációs szabályok
Gyakori szekvenciákból kapjuk <X1,X2,...,Xn-1,Xn> : <X1,X2,...,Xn-1> → Xn Konfidencia: a jobb és bal oldal gyakoriság hányadosa Legmagasabb konfidenciájú illeszkedő szabályt használjuk Triviális szabályok (Twilight Zone 1-43) Leghosszabb szabály 6 elemű, tipikusan 3

Kihívások: adatméret 100 M rating: 100 M nem-0 elemű „ritka” mátrix
18 K film: 324 M elemű korreláció mátrix 480 K user És mindezt sok változatban, legjobb paramétereket megtalálni …

Kihívások: adatméret Ahhoz, hogy a fény a Galaxis túloldalára érjen […] ötszázezer évig kell utaznia. E távolságon a stoppos rekord valamivel kevesebb, mint öt év; persze ilyen tempó mellett nem sok mindent lehet látni útközben. [Adams 79, Galaxis Útikalauz Stopposoknak]

Kihívások: adatméret 100 M rating 18 K film 480 K user
SVD: < 1 óra – sok saját „tuningolás” után (Netflix Prize-hoz sok 100 iteráció kell belőle!) Hasonlóság: pár óra Asszoc.: 10 CPU 2 nap!

Kihívások: előrejelzés nehézsége
Triviális becslések: Csupa 0 RMSE: ( helyezett) Ratingek (ismeretlen) aránya a Cup halmazon RMSE: (5-6. helyezett) – egyetlen konstans! Kombinációk (lineáris regresszióval) Legjobb eredményünk RMSE: 0.255 Csak a film és user rating szám megbecsülésével, függetlenséggel számolva RMSE: 0.260 Csak adatbányászattal RMSE: 0.260 Leggyengébb 2 módszer (hasonlóság, asszoc) RMSE: 0.261 Mindegyik 1. helyezett!

Magunkról 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő
Rónyai Lajos akadémikus, laborvezető Lukács András ipari kapcsolatok, bioinformatika 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Benczúr András kutatás vezető kereső-technológiák

Adatbányászat és Webes keresés csoport
Alap és alkalmazott kutatás Hálózati adatbányászat Keresés, találat rangsorolás Web spam szűrés (EU FP7: Internet Archívum) Jelentős programkód alapkészlet kísérletekhez Közvetlen kapcsolat az ipar igényeihez és adataihoz Magyar nyelvű keresőrendszer prototípus fejlesztés

Adatbányászati és Keresési esettanulmányok
Magyar Telekom: heterogén Intranet több igazgatóság magyar, angol, német nyelv Emitel: statikus elvándorlási, nem-fizetési modell gyorsan elavul Naprakész elemzés egyedi vizualizációk T-online [origo]: 7M HTML hit/nap, TB+ log/hó OLAP technológia korlátozott dimenziókkal, időtartamra Naplóállományok elemzés céljára való megőrzése AEGON: Heterogén adatállomány Egyedi elemzési igények Desktop és intranet integrált keresés jogosultságkezeléssel

Összefoglalás KDD Cup sikerek: Magyarország mint „Adatbányászati Nagyhatalom”? Óriási adathalmazok, nehéz problémák Megoldásunk: rugalmas kódkészlet

Adatbányászat és Webkeresés Kutatócsoport
Köszönöm a figyelmet! Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

Adatbányászati módszerek ajánló rendszerekben

Hasonló előadás

Az előadások a következő témára: "Adatbányászati módszerek ajánló rendszerekben"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Adatbányászati módszerek ajánló rendszerekben

Hasonló előadás

Az előadások a következő témára: "Adatbányászati módszerek ajánló rendszerekben"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés