Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport.

Hasonló előadás


Az előadások a következő témára: "KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport."— Előadás másolata:

1 KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

2 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Tartalom A KDD Cup, Eredmények A Netflix Prize adathalmaz A KDD Cup Task 1 feladat Módszerünk Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok Kihívások: adatméret, feladat nehézsége Magunkról

3 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia A KDD Cup KDD konferencia Évente megrendezésre kerül (2007: San Jose, CA) Adatbányászat legfontosabb tudományos világfóruma A „Kupa” Évente, nagy kihívást jelentő adatbányászati problémák 2007 Task 1: a Netflix melyik felhasználója melyik mozifilmet fogja értékelni 2006 Task 2: 1. helyezett Tikk Domonkosék (BME) 2007 Task 1: 1. helyezett: Kurucz Miklós, B. A., Kiss Tamás, Nagy István, Szabó Adrienn, Torma Balázs

4 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Eredmények Task 1 - Who Rated What First place: MTA SZTAKI RMSE First runner up: Neo MetricsRMSE Second runner up: IBM ResearchRMSE Task 2 - How Many Ratings First place: IBM Research First runner up: Neo Metrics Second runner up: Inductis

5 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia A Netflix Prize adathalmaz Online DVD kölcsönző Felhasználói érté- kelések:  -  án 100 M anonim rating KDD Cup 2007 ezen az adathalmazon

6 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia

7 A Netflix Prize verseny R MSE : jósolt értékelés (rating) négyzetes hibája Cinematch ajánló rendszer RMSE: % javítás RMSE = : $1,000,000 1.BellKor BellKor 2.KorBell KorBell 3.When Gravity and Dinosaurs Unite When Gravity and Dinosaurs Unite 4.basho basho 5.Gravity Gravity 6.Dinosaur Planet Dinosaur Planet A A 8.Arek Paterek Arek Paterek

8 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia A KDD Cup Task 1 Az adott felhasználó értékelte-e az adott filmet 2006-ban: Megadott 100,000 felhasználó-film pár A felhasználók és a filmek is a Netflix Prize adathalmazból véletlenszerűen választva – A film megjelent (vagy legalább egy értékelést kapott) 2006 előtt – A felhasználó első értékelését 2006 előtt adta

9 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Módszerünk: kombinációban Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok

10 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Szinguláris felbontás (SVD – PCA, faktor, főkomponens analízis, …) Eckart – Young Tétel: k-dim SVD a mátrix legjobb közelítése ℓ 2 (RMSE) és Frobenius normákban Zajszűrés – a mátrix „lényege”: k felhasználó és film faktor (pl. családi, thriller, sorozat, stb) kombinációja

11 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Az SVD előrejelző képessége (10 dim)

12 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia A korábbiakhoz hasonló filmeket szeretünk (és értékelünk – a kettő összefügg!) Két film hasonló, ha a felhasználók hasonlóan értékelik Hasonlóság: „adjusted cosine similarity” Korreláció, csak felhasználó (és nem film) átlagokkal Termék-termék hasonlóság

13 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Becslés a leghasonlóbb 5 film alapján:

14 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Asszociációs szabályok Gyakori szekvenciákból kapjuk : → X n Konfidencia: a jobb és bal oldal gyakoriság hányadosa Legmagasabb konfidenciájú illeszkedő szabályt használjuk Triviális szabályok (Twilight Zone 1-43) Leghosszabb szabály 6 elemű, tipikusan 3

15 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Kihívások: adatméret 100 M rating: 100 M nem-0 elemű „ritka” mátrix 18 K film: 324 M elemű korreláció mátrix 480 K user És mindezt sok változatban, legjobb paramétereket megtalálni …

16 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Ahhoz, hogy a fény a Galaxis túloldalára érjen […] ötszázezer évig kell utaznia. E távolságon a stoppos rekord valamivel kevesebb, mint öt év; persze ilyen tempó mellett nem sok mindent lehet látni útközben. [Adams 79, Galaxis Útikalauz Stopposoknak] Kihívások: adatméret

17 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Kihívások: adatméret 100 M rating 18 K film 480 K user SVD: < 1 óra – sok saját „tuningolás” után (Netflix Prize-hoz sok 100 iteráció kell belőle!) Hasonlóság: pár óra Asszoc.: 10 CPU 2 nap!

18 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Kihívások: előrejelzés nehézsége Triviális becslések: Csupa 0 RMSE: ( helyezett) Ratingek (ismeretlen) aránya a Cup halmazon RMSE: (5-6. helyezett) – egyetlen konstans! Kombinációk (lineáris regresszióval) Legjobb eredményünk RMSE: Csak a film és user rating szám megbecsülésével, függetlenséggel számolva RMSE: Csak adatbányászattal RMSE: Leggyengébb 2 módszer (hasonlóság, asszoc) RMSE: Mindegyik 1. helyezett!

19 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Magunkról 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Rónyai Lajos akadémikus, laborvezető Lukács András ipari kapcsolatok, bioinformatika Benczúr András kutatás vezető kereső-technológiák

20 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Adatbányászat és Webes keresés csoport Alap és alkalmazott kutatás Hálózati adatbányászat Keresés, találat rangsorolás Web spam szűrés (EU FP7: Internet Archívum) Jelentős programkód alapkészlet kísérletekhez Közvetlen kapcsolat az ipar igényeihez és adataihoz Magyar nyelvű keresőrendszer prototípus fejlesztés

21 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Magyar Telekom: heterogén Intranet több igazgatóság magyar, angol, német nyelv AEGON: Heterogén adatállomány Egyedi elemzési igények Desktop és intranet integrált keresés jogosultságkezeléssel Adatbányászati és Keresési esettanulmányok T-online [origo]: 7M HTML hit/nap, TB+ log/hó OLAP technológia korlátozott dimenziókkal, időtartamra Naplóállományok elemzés céljára való megőrzése Emitel: statikus elvándorlási, nem- fizetési modell gyorsan elavul Naprakész elemzés egyedi vizualizációk

22 Benczúr KDD Cup 2007: ajánló rendszerekSPSS Konferencia Összefoglalás KDD Cup sikerek: Magyarország mint „Adatbányászati Nagyhatalom”? Óriási adathalmazok, nehéz problémák Megoldásunk: rugalmas kódkészlet

23 Köszönöm a figyelmet! Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport


Letölteni ppt "KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport."

Hasonló előadás


Google Hirdetések