Adatbányászati módszerek ajánló rendszerekben

Slides:



Advertisements
Hasonló előadás
Lineáris regressziós MODELLEK
Advertisements

Programozási tételek, és „négyzetes” rendezések
Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting július 2. Tikk Domonkos Gravity Research.
Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport
Keresőoptimalizálás Fizetett hirdetések a keresőkön Fizetett hirdetések tartalmi oldalakon Fizetett helyezések vagy regisztrációk Internetes hirdetések.
Keresőmarketing Nap 2007 A keresés mindent visz? Avagy a keresés szerepe a mindennapokban… Darvas Péter Szonda Ipsos.
Néhány fontos terület a Kreatív Ipar fejlődéséhez
Magyar, mint idegen nyelv témakörű oktatási és kulturális Internet portál HUNGAROPORT Dr Remzső Tibor MTA SZTAKI.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR AUTO- SZŰRŐ FEJLESZTÉSE TÁBLÁZAT ALAPÚ JELENTÉSEK UTÓLAGOS, BÖNGÉSZŐN BELÜLI TOVÁBB- FELDOLGOZÁSÁRA.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR KUTATÓK ÉJSZAKÁJA SZEPTEMBER 24. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS, OFFLINE.
Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Szűcs Imre CRM elemző GE Consumer Finance Budapest Bank Rt.
Adminisztratív teendők Kacsuk Péter Egyetemi tanár
Számítógépes algebrai problémák a geodéziában
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
SAS Enterprise Miner 2. gyakorlat
Csoportosítás megadása: Δx – csoport szélesség
Lineáris és nemlineáris regressziók, logisztikus regresszió
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Szigor vagy engedékenység a gyermeknevelésben
Tudástranszfer egyetemi városokban
Régióközi tudáshálózatok minőségének hatása a kutatási teljesítményre Sebestyén Tamás és Varga Attila.
Webbányászat (web mining) Mártonffy A: Kutakodom, tehát vagyok cikke nyomán.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Copyright © 2005 | update software AG | update software Magyarország Kft. Radics Sándor principal IV.
SPSS bevezetés.
Dr. Surján György és munkatársai IMEA TEA március 30. IMEA TEA Az Internetes Magyar Egészségügyi Adattár egyéves fejlődése.
Kutatás Üzleti Információ Informatika 1081 Budapest, Csokonai u 3. Telefon: Fax: Az e-kormányzat és az elektronikus.
| | Tananyagfejlesztések fejlesztői szemmel Wagner Balázs MTA SZTAKI.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
Az elektronikus könyvtárak hálózata Moldován István OSZK MEK Osztály Hódmezővásárhely, július 5-7. Digitalizálási konferencia.
Az Alakfelismerés és gépi tanulás ELEMEI
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
A hazai és a nemzetközi hadtudományi kutatások műhelyei, főbb képviselői, a legfontosabb hadtudományi kutatási témák GŐCZE ISTVÁN ZMNE, Gőcze.
Idősor előrejelzés Önálló laboratórium 2. Kollár Péter Attila ICG36F Konzulens: Dr. Pataki Béla.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Adatbányászat és WEB2 Németh Bottyán Web2.0 Symposium.
A Jövő Internet alkalmazásai Sidló Csaba, Benczúr András {sidlo, MTA SZTAKI Informatika Kutató Laboratórium Adatbányászat és Webes.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Megújuló energiaforrások – Lehetőségek és problémák
Alapsokaság (populáció)
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Kemény Sándor Doktoráns Konferencia 2007.
TUDTAD?Ha Kínában egymillió közül sem találni nálad jobbat……akkor csak egy vagy az 1300-ból!Hamarosan Kínában beszélnek majd legtöbben angolul.India lakosságának.
A Van der Waals-gáz molekuláris dinamikai modellezése Készítette: Kómár Péter Témavezető: Dr. Tichy Géza TDK konferencia
Verseny és szabályozás 2013 MTA KRTK KTI Bemutató konferencia szeptember 30.
A tudomány tudománya Kampis György ELTE TTK Tudományfilozófia Tanszék 12/7/12"FuturICT" TÁMOP ick-off meeting, SZTE.
Iskola-egészségügyi Konferencia augusztus Informatikai lehetőségek az iskola/ifjúság-egészségügyi munkában Wenhard Andrea egészségügyi szakközgaszdász.
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
A tudomány tudománya alprojekt Kampis György egy.tan., ELTE Az infokommunikációs technológiák társadalmi hatásai november 13. Balatonfüred.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Összefoglalás M. Kozlovszky MTA SZTAKI
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
A digitális kompetencia mérése. IKT-alapú értékelés
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Startup felvásárlások multikulturális hátterének elemzése, avagy mesterséges intelligencia alapú ellenőrzőszámítás diszkriminancia-elemzéshez Barta Gergő,
A magyar kistérségek innovációs képessége és versenyképessége
A könyvtári integrált rendszerek statisztikai moduljának használata
OVIDIUS Info-Service Co Ltd.
Üzleti terv bemutatása
OVIDIUS Info-Service Co Ltd.
OVIDIUS Info-Service Co Ltd.
Ajánló rendszerek ápr. 13. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Mindenki lehet innovátor!
Ajánló rendszerek ápr. 13. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
Készítette: Pető István Szent István Egyetem
Előadás másolata:

Adatbányászati módszerek ajánló rendszerekben KDD Cup 2007 Adatbányászati módszerek ajánló rendszerekben Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

Tartalom A KDD Cup, Eredmények A Netflix Prize adathalmaz A KDD Cup Task 1 feladat Módszerünk Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok Kihívások: adatméret, feladat nehézsége Magunkról

A KDD Cup KDD konferencia A „Kupa” Évente megrendezésre kerül (2007: San Jose, CA) Adatbányászat legfontosabb tudományos világfóruma A „Kupa” Évente, nagy kihívást jelentő adatbányászati problémák 2007 Task 1: a Netflix melyik felhasználója melyik mozifilmet fogja értékelni 2006 Task 2: 1. helyezett Tikk Domonkosék (BME) 2007 Task 1: 1. helyezett: Kurucz Miklós, B. A., Kiss Tamás, Nagy István, Szabó Adrienn, Torma Balázs

Eredmények Task 1 - Who Rated What Task 2 - How Many Ratings First place: MTA SZTAKI RMSE 0.256 First runner up: Neo Metrics RMSE 0.263 Second runner up: IBM Research RMSE 0.265 Task 2 - How Many Ratings First place: IBM Research First runner up: Neo Metrics Second runner up: Inductis

A Netflix Prize adathalmaz Online DVD kölcsönző Felhasználói érté- kelések:  -  2006. 10. 02-án 100 M anonim rating KDD Cup 2007 ezen az adathalmazon

A Netflix Prize verseny RMSE: jósolt értékelés (rating) négyzetes hibája Cinematch ajánló rendszer RMSE: 0.9514 10% javítás RMSE = 0.8572: $1,000,000 BellKor 0.8709 2007-10-19 KorBell 0.8712 2007-10-01 When Gravity and Dinosaurs Unite 0.8717 2007-10-01 basho 0.8746 2007-10-01 Gravity 0.8750 2007-10-01 Dinosaur Planet 0.8753 2007-10-04 ML@UToronto A 0.8787 2007-09-30 Arek Paterek 0.8789 2007-09-30

A KDD Cup Task 1 Az adott felhasználó értékelte-e az adott filmet 2006-ban: Megadott 100,000 felhasználó-film pár A felhasználók és a filmek is a Netflix Prize adathalmazból véletlenszerűen választva A film megjelent (vagy legalább egy értékelést kapott) 2006 előtt A felhasználó első értékelését 2006 előtt adta

Módszerünk: kombinációban Szinguláris felbontás Termék-termék hasonlóság alapú ajánlás Asszociációs szabályok

Szinguláris felbontás (SVD – PCA, faktor, főkomponens analízis, …) Eckart – Young Tétel: k-dim SVD a mátrix legjobb közelítése ℓ2 (RMSE) és Frobenius normákban Zajszűrés – a mátrix „lényege”: k felhasználó és film faktor (pl. családi, thriller, sorozat, stb) kombinációja

Az SVD előrejelző képessége (10 dim)

Termék-termék hasonlóság A korábbiakhoz hasonló filmeket szeretünk (és értékelünk – a kettő összefügg!) Két film hasonló, ha a felhasználók hasonlóan értékelik Hasonlóság: „adjusted cosine similarity” Korreláció, csak felhasználó (és nem film) átlagokkal

Becslés a leghasonlóbb 5 film alapján:

Asszociációs szabályok Gyakori szekvenciákból kapjuk <X1,X2,...,Xn-1,Xn> : <X1,X2,...,Xn-1> → Xn Konfidencia: a jobb és bal oldal gyakoriság hányadosa Legmagasabb konfidenciájú illeszkedő szabályt használjuk Triviális szabályok (Twilight Zone 1-43) Leghosszabb szabály 6 elemű, tipikusan 3

Kihívások: adatméret 100 M rating: 100 M nem-0 elemű „ritka” mátrix 18 K film: 324 M elemű korreláció mátrix 480 K user És mindezt sok változatban, legjobb paramétereket megtalálni …

Kihívások: adatméret Ahhoz, hogy a fény a Galaxis túloldalára érjen […] ötszázezer évig kell utaznia. E távolságon a stoppos rekord valamivel kevesebb, mint öt év; persze ilyen tempó mellett nem sok mindent lehet látni útközben. [Adams 79, Galaxis Útikalauz Stopposoknak]

Kihívások: adatméret 100 M rating 18 K film 480 K user SVD: < 1 óra – sok saját „tuningolás” után (Netflix Prize-hoz sok 100 iteráció kell belőle!) Hasonlóság: pár óra Asszoc.: 10 CPU 2 nap!

Kihívások: előrejelzés nehézsége Triviális becslések: Csupa 0 RMSE: 0.279 (10-13. helyezett) Ratingek (ismeretlen) aránya a Cup halmazon RMSE: 0.268 (5-6. helyezett) – egyetlen konstans! Kombinációk (lineáris regresszióval) Legjobb eredményünk RMSE: 0.255 Csak a film és user rating szám megbecsülésével, függetlenséggel számolva RMSE: 0.260 Csak adatbányászattal RMSE: 0.260 Leggyengébb 2 módszer (hasonlóság, asszoc) RMSE: 0.261 Mindegyik 1. helyezett!

Magunkról 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Rónyai Lajos akadémikus, laborvezető Lukács András ipari kapcsolatok, bioinformatika 3 poszt-doktor 8 Ph.D. hallgató 6 fejlesztő Benczúr András kutatás vezető kereső-technológiák

Adatbányászat és Webes keresés csoport Alap és alkalmazott kutatás Hálózati adatbányászat Keresés, találat rangsorolás Web spam szűrés (EU FP7: Internet Archívum) Jelentős programkód alapkészlet kísérletekhez Közvetlen kapcsolat az ipar igényeihez és adataihoz Magyar nyelvű keresőrendszer prototípus fejlesztés

Adatbányászati és Keresési esettanulmányok Magyar Telekom: heterogén Intranet több igazgatóság magyar, angol, német nyelv Emitel: statikus elvándorlási, nem-fizetési modell gyorsan elavul Naprakész elemzés egyedi vizualizációk T-online [origo]: 7M HTML hit/nap, TB+ log/hó OLAP technológia korlátozott dimenziókkal, időtartamra Naplóállományok elemzés céljára való megőrzése AEGON: Heterogén adatállomány Egyedi elemzési igények Desktop és intranet integrált keresés jogosultságkezeléssel

Összefoglalás KDD Cup sikerek: Magyarország mint „Adatbányászati Nagyhatalom”? Óriási adathalmazok, nehéz problémák Megoldásunk: rugalmas kódkészlet

Adatbányászat és Webkeresés Kutatócsoport Köszönöm a figyelmet! Benczúr András MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport http://datamining.sztaki.hu benczur@sztaki.hu