Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting 2008. július 2. Tikk Domonkos Gravity Research.

Slides:



Advertisements
Hasonló előadás
Lineáris regressziós MODELLEK
Advertisements

Ajánló rendszerek ápr. 24. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
„A világ legnagyobb technológiai diákversenye.”
Budapest New Technology Meetup Group Tárkányi Ferenc.
Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport
1 Megaprofil 2 Termékeink 3 Projekt, – beépített termékek 4 Sikertényezők.
„A Honlapod a Holnapod” online marketingkommunikációs workshop december 3. Varga István
KLENEN, Werle Rita Topten Egy nemzetközi projekt az energiahatékony termékekért KLENEN Mátraháza március 8. – 9. Werle Rita Topten International.
ENERGIAIRÁNYÍTÁSI SZABVÁNYOK
Együttműködés a bérleti konstrukciók gyors és rugalmas kiszolgálásában.
2008. augusztus 6.Budapest New Technology Meetup Group1 Zoltan Kalmar: Hahó Zoltan Kalmar: Hahó Kalmár Zoltán Internet Szolgáltatók.
Adatbázis kezelés Adatbázis tervezés.
Adminisztratív teendők Kacsuk Péter Egyetemi tanár
IWiW Problémák és megoldások Lécz Balázs iWiW Üzemeltetési vezető Virgo Systems Kft
Szilágyi Róbert, Lengyel Péter Magyar Agrárinformatikai Szövetség.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Számrendszerek T.R. Általában a számrendszerekről: Alapszám: N
4. Folytonos wavelet transzformáció (CWT) –folytatás
Módszerek sebességi állandók becslésére Kovács Benedek, Budapesti Műszaki és Gazdaségtudományi Egyetem.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Az APEH-hoz benyújtott bevallások adatai alapján
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
A négyzet kerülete K = 4· a.
Szállítási feladatok Optimalitás vizsgálat
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
A Microsoft Windows Vista gazdasági hatásai Lehetőségek az ökoszisztéma számára Microsoft Innovációs Nap november 27. Komáromi Zoltán Ügyvezető igazgató.
INNOCSEKK 156/2006 Hasonlóságelemzés-alapú vizsgálat a COCO módszer használatával Készítette: Péter Gábor
Az EU kohéziós politikájának 20 éve ( ) Dr. Nagy Henrietta egyetemi adjunktus SZIE GTK RGVI.
Copyright © 2005 | update software AG | update software Magyarország Kft. Radics Sándor principal IV.
Statisztikai alapok Egy kis matematika nem csak fizikához… Ezeket a lapokat hamarosan átdolgozzuk. A benne foglalt ismeretek szükségesek a fizikai mérési.
Statisztikai alapok Egy kis matematika nem csak fizikához…
Kvantitatív módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem
Az Alakfelismerés és gépi tanulás ELEMEI
Matematikai alapok és valószínűségszámítás
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
A diákat készítette: Matthew Will
Kvantitatív Módszerek
Kvantitatív módszerek
Adatbányászat és WEB2 Németh Bottyán Web2.0 Symposium.
Többváltozós adatelemzés
Regionális szakmai nap Október – November. Adatfelvétel – augusztus Benyújtott és nyertes pályázatok száma: en majd, postai úton.
MÉTA adatbázis: rács-alapú élőhelytérkép (~ db 35 ha-os hatszög)
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
Adatbányászati módszerek ajánló rendszerekben
SPSS Predictive Applications Cseh Zoltán Budapest április 20.
Mátrai Balázs vidékfejlesztési szakértő Magyarországi LEADER Központ
Szemcsés rendszerek statikája Tibély Gergely X. 26.
A gazdasági válság hatása a magyarországi vállalkozások körében H-1024 Budapest, Margit krt. 5/b  Tel: :   Web:
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Minőségbiztosítás II_5. előadás
Gondolkodjunk el ! Zene A változások már léteznek!
Viszonyszámok A viszonyszám két egymással logikai kapcsolatban álló statisztikai adat hányadosa V= A/B V: a viszonyszám A:a viszonyítás alapját képező.
Dr. Takács Attila – BME Geotechnikai Tanszék
Dodekaéder Hamilton köre
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
PPKE ITK 2006/07 tanév 7. szemeszter Őszi félév Távközlő rendszerek forgalmi elemzése Tájékoztatás GY. - 3.
Gépi tanulási módszerek
Back to Nature Egy kísérleti, természet-közeli, innovatív pedagógia kifejlesztése általános iskolák számára.
Lineáris regressziós modellek
Üzleti gazdaságtan Andor György.
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
Ajánló rendszerek ápr. 13. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
Mindenki lehet innovátor!
Ajánló rendszerek ápr. 13. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
Hatványozás azonosságai
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting július 2. Tikk Domonkos Gravity Research & Development Kft. web:

A feladat

 A jelenség az (U, I, R) véletlen hármassal modellezhető.  U: felhasználó azonosító (értékkészlet: {1, …, M})  I: termék azonosító (értékkészlet: {1, …, N})  R: értékelés (értékkészlet: {r 1, …, r L })  A jelenségnek egy (u, i, r) realizációja azt jelenti, hogy az u. felhasználó az i. termékre r értékelést adott.

A feladat  A cél: R becslése (U, I) alapján.  Hibakritérium: várható négyzetes eltérés.  Tehát a feladat egy klasszikus regresszióbecslés.  De!!! A klasszikus módszerek a prediktorváltozók szokatlan volta miatt csődöt mondanak.

Netflix verseny  A Netflix DVD kölcsönző cég hirdette meg.  Cél: az ajánlórendszerük RMSE hibájának 10%-kal való csökkentése.  Fődíj: 1 millió dollár.  Résztvevők: 170 országból 3000 csapat.  Probléma dimenzió: M ≈ , N ≈  Tanító készlet: ~100 millió db (felhasználó, film, értékelés, dátum) négyes.  Validációs készlet: ~1.5 millió db (felhasználó, film, dátum) hármas.

Megközelítések  Mátrix faktorizáció: közelítsük az értékelésmátrixot két alacsonyabb rangú mátrix szorzatával!  Szupport alapú módszerek: jellemezzük a felhasználókat a binarizált értékelésmátrix alapján!  Szomszéd módszerek: definiáljunk hasonlóságot az értékelésmátrix sorai vagy oszlopai között!  Boltzmann-gép: sztochasztikus, visszacsatolt neurális hálózat.

Mátrix faktorizáció  Ötlet: közelítsük az értékelésmátrixot két alacsonyabb rangú mátrix szorzatával! R ≈ P ∙ QR ≈ P ∙ Q  R: értékelésmátrix, (M x N)-es  P: felhasználójellemző mátrix, (M x K)-s  Q: termékjellemző mátrix: (K x N)-es  Probléma: rengeteg (akár 10 millió) paraméter, R egy része ismeretlen.  Megoldás: inkrementális gradiens módszer.

,4 -0,2 0,8 0,5 -1,3 -0,41, ,3 1,2 -0,51,1 -0,4 1,2 0,9 0,4 -0,4 1,2 -0,3 1,3 -0,1 0,9 0,4 1,1 -0,2 1,5 0,0 1,1 0,8 -1,2 -0,3 1,2 0,9 1,6 0,11,5 0,0 0,5 -0,3 -1,1 -0,2 0,4 -0,20,5 -0, ,2 P Q R

,5 -1,0 2,1 0,8 1,0 1,61, ,0 1,4 1,1 0,9 1,9 2,5 -0,3 P Q R

2D mátrixfaktorizáció Ötlet:  Jellemzőket síkban helyezzük el  Hasonló jellemzők legyenek közel egymáshoz  Gradienst számolunk, de a szomszédokat is frissítjük Consantine film mátrixa

2D mátrixfaktorizáció Mátrix triológia jellemzőmátrixai, azonos a faktorizációval készítve

 ha 2 film hasonló értékeléseket kapott, akkor a 2 film hasonló  ha 2 film hasonló, akkor hasonló értékeléseket kell  Film-szomszéd módszer: a felhasználó által értékelt hasonló filmek értékelései alapján következtetünk  User-szomszéd módszer: a film-szomszéd módszer duálisa” Szomszéd módszerek

f jk : a k. filmről következtet a j. filmre • s jk : a j. és a k. film közti hasonlóság • s jk :=|r jk | α Film-szomszéd módszerek r jk pontatlan, ha kevés közös értékelés van s jk számolható egy MF film-jellemzői alapján is. Az MF film-jellemzőket beszorozhatjuk a user jellemzőivel csak a K leghasonlóbb film alapján következtetünk a film átlagos értékelését is figyelembe vesszük, β súllyal.

A versenyen vezető csapatok,