Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport.

Hasonló előadás


Az előadások a következő témára: "KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport."— Előadás másolata:

1 KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

2 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Tartalom A KDD Cup, Eredmények A Netflix Prize adathalmaz A KDD Cup Task 1 feladat Módszerünk Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok Kihívások: adatméret, feladat nehézsége Magunkról

3 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 A KDD Cup KDD konferencia Évente megrendezésre kerül (2007: San Jose, CA) Adatbányászat legfontosabb tudományos világfóruma A „Kupa” Évente, nagy kihívást jelentő adatbányászati problémák 2007 Task 1: a Netflix melyik felhasználója melyik mozifilmet fogja értékelni 2006 Task 2: 1. helyezett Tikk Domonkosék (BME) 2007 Task 1: 1. helyezett: Kurucz Miklós, B. A., Kiss Tamás, Nagy István, Szabó Adrienn, Torma Balázs

4 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Eredmények Task 1 - Who Rated What First place: MTA SZTAKI RMSE 0.256 First runner up: Neo MetricsRMSE 0.263 Second runner up: IBM ResearchRMSE 0.265 Task 2 - How Many Ratings First place: IBM Research First runner up: Neo Metrics Second runner up: Inductis

5 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 A Netflix Prize adathalmaz Online DVD kölcsönző Felhasználói érté- kelések:  -  2006. 10. 02-án 100 M anonim rating KDD Cup 2007 ezen az adathalmazon

6 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06

7 A Netflix Prize verseny R MSE : jósolt értékelés (rating) négyzetes hibája Cinematch ajánló rendszer RMSE: 0.9514 10% javítás RMSE = 0.8572: $1,000,000 1.BellKor 0.8709 2007-10-19BellKor 2.KorBell 0.8712 2007-10-01KorBell 3.When Gravity and Dinosaurs Unite 0.8717 2007-10-01When Gravity and Dinosaurs Unite 4.basho 0.8746 2007-10-01basho 5.Gravity 0.8750 2007-10-01Gravity 6.Dinosaur Planet 0.8753 2007-10-04Dinosaur Planet 7.ML@UToronto A 0.8787 2007-09-30ML@UToronto A 8.Arek Paterek 0.8789 2007-09-30Arek Paterek

8 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 A KDD Cup Task 1 Az adott felhasználó értékelte-e az adott filmet 2006-ban: Megadott 100,000 felhasználó-film pár A felhasználók és a filmek is a Netflix Prize adathalmazból véletlenszerűen választva – A film megjelent (vagy legalább egy értékelést kapott) 2006 előtt – A felhasználó első értékelését 2006 előtt adta

9 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Módszerünk: kombinációban Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok

10 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Szinguláris felbontás (SVD – PCA, faktor, főkomponens analízis, …) Eckart – Young Tétel: k-dim SVD a mátrix legjobb közelítése ℓ 2 (RMSE) és Frobenius normákban Zajszűrés – a mátrix „lényege”: k felhasználó és film faktor (pl. családi, thriller, sorozat, stb) kombinációja

11 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Az SVD előrejelző képessége (10 dim)

12 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 A korábbiakhoz hasonló filmeket szeretünk (és értékelünk – a kettő összefügg!) Két film hasonló, ha a felhasználók hasonlóan értékelik Hasonlóság: „adjusted cosine similarity” Korreláció, csak felhasználó (és nem film) átlagokkal Termék-termék hasonlóság

13 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Becslés a leghasonlóbb 5 film alapján:

14 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Asszociációs szabályok Gyakori szekvenciákból kapjuk : → X n Konfidencia: a jobb és bal oldal gyakoriság hányadosa Legmagasabb konfidenciájú illeszkedő szabályt használjuk Triviális szabályok (Twilight Zone 1-43) Leghosszabb szabály 6 elemű, tipikusan 3

15 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Kihívások: adatméret 100 M rating: 100 M nem-0 elemű „ritka” mátrix 18 K film: 324 M elemű korreláció mátrix 480 K user És mindezt sok változatban, legjobb paramétereket megtalálni …

16 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Ahhoz, hogy a fény a Galaxis túloldalára érjen […] ötszázezer évig kell utaznia. E távolságon a stoppos rekord valamivel kevesebb, mint öt év; persze ilyen tempó mellett nem sok mindent lehet látni útközben. [Adams 79, Galaxis Útikalauz Stopposoknak] Kihívások: adatméret

17 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Kihívások: adatméret 100 M rating 18 K film 480 K user SVD: < 1 óra – sok saját „tuningolás” után (Netflix Prize-hoz sok 100 iteráció kell belőle!) Hasonlóság: pár óra Asszoc.: 10 CPU 2 nap!

18 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Kihívások: előrejelzés nehézsége Triviális becslések: Csupa 0 RMSE: 0.279 (10-13. helyezett) Ratingek (ismeretlen) aránya a Cup halmazon RMSE: 0.268 (5-6. helyezett) – egyetlen konstans! Kombinációk (lineáris regresszióval) Legjobb eredményünk RMSE: 0.255 Csak a film és user rating szám megbecsülésével, függetlenséggel számolva RMSE: 0.260 Csak adatbányászattal RMSE: 0.260 Leggyengébb 2 módszer (hasonlóság, asszoc) RMSE: 0.261 Mindegyik 1. helyezett!

19 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Magunkról 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Rónyai Lajos akadémikus, laborvezető Lukács András ipari kapcsolatok, bioinformatika Benczúr András kutatás vezető kereső-technológiák

20 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Adatbányászat és Webes keresés csoport Alap és alkalmazott kutatás Hálózati adatbányászat Keresés, találat rangsorolás Web spam szűrés (EU FP7: Internet Archívum) Jelentős programkód alapkészlet kísérletekhez Közvetlen kapcsolat az ipar igényeihez és adataihoz Magyar nyelvű keresőrendszer prototípus fejlesztés

21 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Magyar Telekom: heterogén Intranet több igazgatóság magyar, angol, német nyelv AEGON: Heterogén adatállomány Egyedi elemzési igények Desktop és intranet integrált keresés jogosultságkezeléssel Adatbányászati és Keresési esettanulmányok T-online [origo]: 7M HTML hit/nap, TB+ log/hó OLAP technológia korlátozott dimenziókkal, időtartamra Naplóállományok elemzés céljára való megőrzése Emitel: statikus elvándorlási, nem- fizetési modell gyorsan elavul Naprakész elemzés egyedi vizualizációk

22 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia 2007. 11. 06 Összefoglalás KDD Cup sikerek: Magyarország mint „Adatbányászati Nagyhatalom”? Óriási adathalmazok, nehéz problémák Megoldásunk: rugalmas kódkészlet

23 Köszönöm a figyelmet! Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport http://datamining.sztaki.hu benczur@sztaki.hu


Letölteni ppt "KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport."

Hasonló előadás


Google Hirdetések