Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Adatbányászati módszerek ajánló rendszerekben
KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
2
Tartalom A KDD Cup, Eredmények A Netflix Prize adathalmaz
A KDD Cup Task 1 feladat Módszerünk Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok Kihívások: adatméret, feladat nehézsége Magunkról
3
A KDD Cup KDD konferencia A „Kupa”
Évente megrendezésre kerül (2007: San Jose, CA) Adatbányászat legfontosabb tudományos világfóruma A „Kupa” Évente, nagy kihívást jelentő adatbányászati problémák 2007 Task 1: a Netflix melyik felhasználója melyik mozifilmet fogja értékelni 2006 Task 2: 1. helyezett Tikk Domonkosék (BME) 2007 Task 1: 1. helyezett: Kurucz Miklós, B. A., Kiss Tamás, Nagy István, Szabó Adrienn, Torma Balázs
4
Eredmények Task 1 - Who Rated What Task 2 - How Many Ratings
First place: MTA SZTAKI RMSE 0.256 First runner up: Neo Metrics RMSE 0.263 Second runner up: IBM Research RMSE 0.265 Task 2 - How Many Ratings First place: IBM Research First runner up: Neo Metrics Second runner up: Inductis
5
A Netflix Prize adathalmaz
Online DVD kölcsönző Felhasználói érté- kelések: - án M anonim rating KDD Cup 2007 ezen az adathalmazon
7
A Netflix Prize verseny
RMSE: jósolt értékelés (rating) négyzetes hibája Cinematch ajánló rendszer RMSE: 10% javítás RMSE = : $1,000,000 BellKor KorBell When Gravity and Dinosaurs Unite basho Gravity Dinosaur Planet A Arek Paterek
8
A KDD Cup Task 1 Az adott felhasználó értékelte-e az adott filmet ban: Megadott 100,000 felhasználó-film pár A felhasználók és a filmek is a Netflix Prize adathalmazból véletlenszerűen választva A film megjelent (vagy legalább egy értékelést kapott) előtt A felhasználó első értékelését 2006 előtt adta
9
Módszerünk: kombinációban
Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok
10
Szinguláris felbontás (SVD – PCA, faktor, főkomponens analízis, …)
Eckart – Young Tétel: k-dim SVD a mátrix legjobb közelítése ℓ2 (RMSE) és Frobenius normákban Zajszűrés – a mátrix „lényege”: k felhasználó és film faktor (pl. családi, thriller, sorozat, stb) kombinációja
11
Az SVD előrejelző képessége (10 dim)
12
Termék-termék hasonlóság
A korábbiakhoz hasonló filmeket szeretünk (és értékelünk – a kettő összefügg!) Két film hasonló, ha a felhasználók hasonlóan értékelik Hasonlóság: „adjusted cosine similarity” Korreláció, csak felhasználó (és nem film) átlagokkal
13
Becslés a leghasonlóbb 5 film alapján:
14
Asszociációs szabályok
Gyakori szekvenciákból kapjuk <X1,X2,...,Xn-1,Xn> : <X1,X2,...,Xn-1> → Xn Konfidencia: a jobb és bal oldal gyakoriság hányadosa Legmagasabb konfidenciájú illeszkedő szabályt használjuk Triviális szabályok (Twilight Zone 1-43) Leghosszabb szabály 6 elemű, tipikusan 3
15
Kihívások: adatméret 100 M rating: 100 M nem-0 elemű „ritka” mátrix
18 K film: 324 M elemű korreláció mátrix 480 K user És mindezt sok változatban, legjobb paramétereket megtalálni …
16
Kihívások: adatméret Ahhoz, hogy a fény a Galaxis túloldalára érjen […] ötszázezer évig kell utaznia. E távolságon a stoppos rekord valamivel kevesebb, mint öt év; persze ilyen tempó mellett nem sok mindent lehet látni útközben. [Adams 79, Galaxis Útikalauz Stopposoknak]
17
Kihívások: adatméret 100 M rating 18 K film 480 K user
SVD: < 1 óra – sok saját „tuningolás” után (Netflix Prize-hoz sok 100 iteráció kell belőle!) Hasonlóság: pár óra Asszoc.: 10 CPU 2 nap!
18
Kihívások: előrejelzés nehézsége
Triviális becslések: Csupa 0 RMSE: ( helyezett) Ratingek (ismeretlen) aránya a Cup halmazon RMSE: (5-6. helyezett) – egyetlen konstans! Kombinációk (lineáris regresszióval) Legjobb eredményünk RMSE: 0.255 Csak a film és user rating szám megbecsülésével, függetlenséggel számolva RMSE: 0.260 Csak adatbányászattal RMSE: 0.260 Leggyengébb 2 módszer (hasonlóság, asszoc) RMSE: 0.261 Mindegyik 1. helyezett!
19
Magunkról 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő
Rónyai Lajos akadémikus, laborvezető Lukács András ipari kapcsolatok, bioinformatika 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Benczúr András kutatás vezető kereső-technológiák
20
Adatbányászat és Webes keresés csoport
Alap és alkalmazott kutatás Hálózati adatbányászat Keresés, találat rangsorolás Web spam szűrés (EU FP7: Internet Archívum) Jelentős programkód alapkészlet kísérletekhez Közvetlen kapcsolat az ipar igényeihez és adataihoz Magyar nyelvű keresőrendszer prototípus fejlesztés
21
Adatbányászati és Keresési esettanulmányok
Magyar Telekom: heterogén Intranet több igazgatóság magyar, angol, német nyelv Emitel: statikus elvándorlási, nem-fizetési modell gyorsan elavul Naprakész elemzés egyedi vizualizációk T-online [origo]: 7M HTML hit/nap, TB+ log/hó OLAP technológia korlátozott dimenziókkal, időtartamra Naplóállományok elemzés céljára való megőrzése AEGON: Heterogén adatállomány Egyedi elemzési igények Desktop és intranet integrált keresés jogosultságkezeléssel
22
Összefoglalás KDD Cup sikerek: Magyarország mint „Adatbányászati Nagyhatalom”? Óriási adathalmazok, nehéz problémák Megoldásunk: rugalmas kódkészlet
23
Adatbányászat és Webkeresés Kutatócsoport
Köszönöm a figyelmet! Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.