Adatbányászati módszerek ajánló rendszerekben KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
Tartalom A KDD Cup, Eredmények A Netflix Prize adathalmaz A KDD Cup Task 1 feladat Módszerünk Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok Kihívások: adatméret, feladat nehézsége Magunkról
A KDD Cup KDD konferencia A „Kupa” Évente megrendezésre kerül (2007: San Jose, CA) Adatbányászat legfontosabb tudományos világfóruma A „Kupa” Évente, nagy kihívást jelentő adatbányászati problémák 2007 Task 1: a Netflix melyik felhasználója melyik mozifilmet fogja értékelni 2006 Task 2: 1. helyezett Tikk Domonkosék (BME) 2007 Task 1: 1. helyezett: Kurucz Miklós, B. A., Kiss Tamás, Nagy István, Szabó Adrienn, Torma Balázs
Eredmények Task 1 - Who Rated What Task 2 - How Many Ratings First place: MTA SZTAKI RMSE 0.256 First runner up: Neo Metrics RMSE 0.263 Second runner up: IBM Research RMSE 0.265 Task 2 - How Many Ratings First place: IBM Research First runner up: Neo Metrics Second runner up: Inductis
A Netflix Prize adathalmaz Online DVD kölcsönző Felhasználói érté- kelések: - 2006. 10. 02-án 100 M anonim rating KDD Cup 2007 ezen az adathalmazon
A Netflix Prize verseny RMSE: jósolt értékelés (rating) négyzetes hibája Cinematch ajánló rendszer RMSE: 0.9514 10% javítás RMSE = 0.8572: $1,000,000 BellKor 0.8709 2007-10-19 KorBell 0.8712 2007-10-01 When Gravity and Dinosaurs Unite 0.8717 2007-10-01 basho 0.8746 2007-10-01 Gravity 0.8750 2007-10-01 Dinosaur Planet 0.8753 2007-10-04 ML@UToronto A 0.8787 2007-09-30 Arek Paterek 0.8789 2007-09-30
A KDD Cup Task 1 Az adott felhasználó értékelte-e az adott filmet 2006-ban: Megadott 100,000 felhasználó-film pár A felhasználók és a filmek is a Netflix Prize adathalmazból véletlenszerűen választva A film megjelent (vagy legalább egy értékelést kapott) 2006 előtt A felhasználó első értékelését 2006 előtt adta
Módszerünk: kombinációban Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok
Szinguláris felbontás (SVD – PCA, faktor, főkomponens analízis, …) Eckart – Young Tétel: k-dim SVD a mátrix legjobb közelítése ℓ2 (RMSE) és Frobenius normákban Zajszűrés – a mátrix „lényege”: k felhasználó és film faktor (pl. családi, thriller, sorozat, stb) kombinációja
Az SVD előrejelző képessége (10 dim)
Termék-termék hasonlóság A korábbiakhoz hasonló filmeket szeretünk (és értékelünk – a kettő összefügg!) Két film hasonló, ha a felhasználók hasonlóan értékelik Hasonlóság: „adjusted cosine similarity” Korreláció, csak felhasználó (és nem film) átlagokkal
Becslés a leghasonlóbb 5 film alapján:
Asszociációs szabályok Gyakori szekvenciákból kapjuk <X1,X2,...,Xn-1,Xn> : <X1,X2,...,Xn-1> → Xn Konfidencia: a jobb és bal oldal gyakoriság hányadosa Legmagasabb konfidenciájú illeszkedő szabályt használjuk Triviális szabályok (Twilight Zone 1-43) Leghosszabb szabály 6 elemű, tipikusan 3
Kihívások: adatméret 100 M rating: 100 M nem-0 elemű „ritka” mátrix 18 K film: 324 M elemű korreláció mátrix 480 K user És mindezt sok változatban, legjobb paramétereket megtalálni …
Kihívások: adatméret Ahhoz, hogy a fény a Galaxis túloldalára érjen […] ötszázezer évig kell utaznia. E távolságon a stoppos rekord valamivel kevesebb, mint öt év; persze ilyen tempó mellett nem sok mindent lehet látni útközben. [Adams 79, Galaxis Útikalauz Stopposoknak]
Kihívások: adatméret 100 M rating 18 K film 480 K user SVD: < 1 óra – sok saját „tuningolás” után (Netflix Prize-hoz sok 100 iteráció kell belőle!) Hasonlóság: pár óra Asszoc.: 10 CPU 2 nap!
Kihívások: előrejelzés nehézsége Triviális becslések: Csupa 0 RMSE: 0.279 (10-13. helyezett) Ratingek (ismeretlen) aránya a Cup halmazon RMSE: 0.268 (5-6. helyezett) – egyetlen konstans! Kombinációk (lineáris regresszióval) Legjobb eredményünk RMSE: 0.255 Csak a film és user rating szám megbecsülésével, függetlenséggel számolva RMSE: 0.260 Csak adatbányászattal RMSE: 0.260 Leggyengébb 2 módszer (hasonlóság, asszoc) RMSE: 0.261 Mindegyik 1. helyezett!
Magunkról 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Rónyai Lajos akadémikus, laborvezető Lukács András ipari kapcsolatok, bioinformatika 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Benczúr András kutatás vezető kereső-technológiák
Adatbányászat és Webes keresés csoport Alap és alkalmazott kutatás Hálózati adatbányászat Keresés, találat rangsorolás Web spam szűrés (EU FP7: Internet Archívum) Jelentős programkód alapkészlet kísérletekhez Közvetlen kapcsolat az ipar igényeihez és adataihoz Magyar nyelvű keresőrendszer prototípus fejlesztés
Adatbányászati és Keresési esettanulmányok Magyar Telekom: heterogén Intranet több igazgatóság magyar, angol, német nyelv Emitel: statikus elvándorlási, nem-fizetési modell gyorsan elavul Naprakész elemzés egyedi vizualizációk T-online [origo]: 7M HTML hit/nap, TB+ log/hó OLAP technológia korlátozott dimenziókkal, időtartamra Naplóállományok elemzés céljára való megőrzése AEGON: Heterogén adatállomány Egyedi elemzési igények Desktop és intranet integrált keresés jogosultságkezeléssel
Összefoglalás KDD Cup sikerek: Magyarország mint „Adatbányászati Nagyhatalom”? Óriási adathalmazok, nehéz problémák Megoldásunk: rugalmas kódkészlet
Adatbányászat és Webkeresés Kutatócsoport Köszönöm a figyelmet! Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport http://datamining.sztaki.hu benczur@sztaki.hu