Ajánló rendszerek ápr. 24. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

A Dijkstra algoritmus.
Vatera-forintok a kalapács alatt Gerő Viktor. A vatera marketing céljai - Minél több vevő (több felhasználó) ‏ - Minél többször (gyakoribb tranzakció)‏
Adatelemzés számítógéppel
Programozási tételek, és „négyzetes” rendezések
Nobody’s Unpredictable Vélemények a pénzügyi-gazdasági válságról az internethasználó lakosság és a legalább 50 főt foglalkoztató vállalkozások körében.
Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting július 2. Tikk Domonkos Gravity Research.
4. Marketing előadás 2009.Március 4. A szervezetek beszerzése- a vállalatok „fogyasztói magatartása”
Logók és logfájlok Az online közönségmérés kihívásai.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR AUTO- SZŰRŐ FEJLESZTÉSE TÁBLÁZAT ALAPÚ JELENTÉSEK UTÓLAGOS, BÖNGÉSZŐN BELÜLI TOVÁBB- FELDOLGOZÁSÁRA.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR KUTATÓK ÉJSZAKÁJA SZEPTEMBER 24. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS, OFFLINE.
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
Adatbázis kezelés Adatbázis tervezés.
V. A készletezés logisztikája
IWiW Problémák és megoldások Lécz Balázs iWiW Üzemeltetési vezető Virgo Systems Kft
Készítette / Author: Tuska Katalin
VALÓS IDŐBEN VÁLASZT ADÓ EGÉSZSÉGÜGYI PROFIL, MINT TÖBBDIMENZIÓS MEGSZORÍTÁS MÁTRIX, ALAPJÁN ÉLELMISZERT SZŰRŐ DOMAIN SPECIFIKUS ALGORITMUS Kusper Gábor.
BME Filozófia és Tudománytörténet Tanszék 1111 Budapest, Egry J.. u. 1. E 610. Dr. Margitay Tihamér 2. nap.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Rangsorolás tanulása ápr. 24..
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Klaszterező algoritmusok smart city alkalmazásokhoz Gonda László Témavezető: Dr. Ispány Márton.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Funkciópont elemzés: elmélet és gyakorlat
INNOCSEKK 156/2006 Hasonlóságelemzés-alapú vizsgálat a COCO módszer használatával Készítette: Péter Gábor
Hozam-előrejelzés a gabonatermesztésben
Az SPSS technológiával háromszorosára nőtt az online eladásokból származó bevétel.
Hierarchikus klaszteranalízis
A fejlesztő értékelés.
A munkapiaci-előrejelzések gyakorlata: kitől tanulhatunk? Cseres-Gergely Zsombor, MTA KTI.
Egytényezős variancia-analízis
Folyam alapú véleményezés Több, mint puszta rangsorolás.
Szemantikus keresők.
Adatbányászat és WEB2 Németh Bottyán Web2.0 Symposium.
Make the Greener Choice Greener One Make the Greener Choice!
Többváltozós adatelemzés
Többváltozós adatelemzés
Online értékesítési modellek
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Lineáris regresszió.
Két kvantitatív változó kapcsolatának vizsgálata
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
HALLGATÓI ELÉGEDETTSÉGI VIZSGÁLATOK A WJLF-EN A es tanév eredményei.
LOGISZTIKA Előadó: Dr. Fazekas Lajos Debreceni Egyetem Műszaki Kar.
Kooperatív oktatással a befogadás támogatásáért
Adatbányászati módszerek a weblogfájlok elemzésében
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
CMMI 1.3 – Verifikáció Készítette: Kis Gergely. Bevezetés A specifikációt, követelményt vetjük össze a kész/készülő termékkel Itt nem vizsgáljuk, hogy.
Personalization and privacy: a survey of privacy risks and remedies in personalization-based systems Eran Toch · Yang Wang · Lorrie Faith Cranor.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
E-Learning, E-Kereskedelem, és E-Gazdaság fejlődései
Gépi tanulási módszerek
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Personalization and privacy: a survey of privacy risks and remedies in personalization-based systems Eran Toch · Yang Wang · Lorrie Faith Cranor.
Mennyit ér az adatbázisod?. Amennyit kihozol belőle…
„Adatbázis építés, adatállományok felhasználása, frissítése, targetálás; egy sikeres DM esettanulmány bemutatása” Vörös Gergely online média értékesítési.
Lineáris regressziós modellek
Cseres-Gergely Zsombor
Ajánló rendszerek ápr. 13. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
III. előadás.
A évi kompetenciamérés FIT-jelentéseinek új elemei
Ajánló rendszerek ápr. 13. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)
Készítette: Pető István Szent István Egyetem
A mesterséges neuronhálók alapjai
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

Ajánló rendszerek ápr. 24. Copyright: Dietmar Jannah, Markus Zanker and Gerhard Friedrich (slides based on their IJCAI talk „Tutorial: Recommender Systems”)

Ajánló rendszerek – motiváció Joseph Pine: „Mass Customization” (1993) a szabványos, egyenvásárlóra tervezett tömegtermékek ideje lejárt többféle vásárló, többféle igényét kielégítő, heterogén (sokféle) termékek gyártásának irányába kell elmozdulni Jeff Bezos (Amazon, CEO) „Ha 2 millió vásárlóm van akkor 2 millió boltom kell, hogy legyen a Weben” dia: Engedy Balázs: Ajánlórendszerek

Ajánló rendszerek – motiváció A heterogenitás dilemmája Megvan a sokféle termék, változatos kínálat Így a vásárlónak rengeteg lehetőségből kell választani (információ túlterhelés)  A kínálatot szűrni/rangsorolni kell! Ajánló rendszerek: A vásárlónak csak a releváns termékeket mutassuk Egyénre/testreszabott vásárlás!  Webes vásárlásokat (vásárlói kosarak) könnyű nyomon követni Járulékos eladások, visszatérő vásárlók  dia: Engedy Balázs: Ajánlórendszerek

100K film, 10M user, 1000M értékelés

„Long tail” Eladások 30%-a (amazon)

Ajánlási feladat U - felhasználók (users), I - termékek (items), egy f : U×I → R leképezésből néhány példa (R halmaz, teljes rendezéssel). explicit értékelés: milyen skálán? implicit értékelés: kattintások, oldallátogatások, eltöltött idő stb. Tanulási feladat: határozzuk meg azt az f’: U×I → R leképezést, amely a lehető legjobban közelíti f-et, és teljesen definiált a teljes U×I téren. Ajánló rendszer:

Ajánló rendszerek - megközelítések Kollaboratív ajánlás: a predikció inputjához hasonló adatok is felhasználásra kerülnek a predikció során user-based: a cél felhasználóhoz hasonló ízlésű felhasználók szavazatainak felhasználásával történik a predikció item-based: a cél termékhez hasonló termékekre tett értékelések használatával készül a predikció Tartalomalapú módszerek: a célfelhasználó korábbi értékelései alapján történik a predikció Hibrid módszerek: az előző két módszer ötvözete

Ajánló rendszerek - kiértékelés Valós célfüggvények: Ügyfélelégedettség! Ajánlott elemek megvásárlása (likeolása) Többet vásárolnak mintha nem lenne ajánlás?

„Online” kiértékelés Élő rendszer, kontrollcsoport (Jannach, Hegelich 2009) játék app letöltő oldal 150K user 6+1 csoportra osztva oldalmegnyitás, mint (implicit) értékelés 3.6%-al több letöltés azokban a csoportokban ahol volt ajánlás nincs szignifikáns különbség az egyes ajánlórendszerek mellett

„Offline” kiértékelés Hisztorikus adatokból tanító és teszt adatbázis leválasztása): rangsor-alapú kiértékelési metrikák

Kollaboratív ajánlás

Kollaboratív ajánlás Alapgondolat: Felhasználók (explicit vagy implicit) értékelik a tartalmakat Azok a felhasználók akik a múltban hasonló dolgokat kedveltek a jövőben is hasonlóan fognak viselkedni

Felhasználó-alapú legközelebbi szomszéd alapú ajánlás Válasszunk ki hasonló felhasználókat (peer) akik értékelték a kérdéses tartalmat Becslésünk az értékelésre legyen a peerek értékelésének átlaga (aggregáció)

Felhasználó-alapú legközelebbi szomszéd alapú ajánlás Hogyan mérjük a hasonlóságot? Hány peert válasszunk? Átlagolás?

Hasonlósági mérték: korreláció két felhasználó hasonlósága csak azokon az elemeken ahol mindketten értékeltek

Becslés az értékelésre hasonlósággal súlyozunk a felhasználók saját átlagától való eltérésre normalizálunk (pesszimista vs. optimista felhasználók)

Problémák Nem minden értékelés ugyanolyan súlyú ahol mindenki egyetért az kevésbé számít, mint ahol vegyesek a vélemények szórást vegyük figyelembe! Ha a közösen értékelt elemek száma alacsony (minden párra más az N) az nagyon torzíthat súlyozzuk a hasonlósági metrikát a metszet elemszámával! Szomszédság meghatározása: fix K, vagy küszöbérték

Elem-alapú legközelebbi szomszéd alapú ajánlás |U| >> |I|

A „hidegindítás” probléma Ha érkezik egy új felhasználó vagy elem akkor ahhoz nincs értékelésünk. Hogyan találunk hasonló egyedeket? „Kényszerítjük” az új felhasználót néhány ajánlásra vagy Rekurzív kollaboratív ajánlás:

Gráf-alapú ajánlás

Gráf-alapú ajánlás motiváció: HITS algoritmus jó hubok jó információs oldalakra mutatnak jó információs oldalak sok jó hubról hivatkozottak

Gráf-alapú ajánlás szomszédsági mtx {a} felhasználó reprezentációs mátrix {cr}: „melyik user mennyire reprezentatív a másikra nézve” termék reprezentációs mátrix {pr}: „melyik termék mennyire reprezentatív egy userhez”

Memória vs. modell-alapú megközelítés Memória-alapú: az értékelési mátrix közvetlen felhasználása hasonló felhasználók keresésére és becslésre nem skálázódik megfelelően O(|U|2) vagy O(|I|2) Modell-alapú: előfeldolgozó és tanuló lépés előzi meg az ajánlást ajánláskor nem az adatbázist, csak a modellt használjuk modelleket újratanít(hat)juk

Regresszió alapú aggregáció felhasználók közti hasonlósági mérték (heurisztika) helyett minden egyes felhasználóhoz tanítsunk egy regressziós modellt, ami a többi felhasználó értékelései, mint jellemzők alapján predikál regresszor tanítása: olyan elemeken ahol a célfelhasználónak ismertek az értékelései megj: nagyon kicsik az egyes tanító adatbázisok, ezért egyszerű modell (lineáris regresszió)

Dimenzió csökkentés alapú ajánlás

Dimenzió csökkentés alapú ajánlás

Kollaboratív ajánlás – összegzés Intuitív Jól működik számos környezetben Nem kell hozzá „jellemzőtér-tervezés” Sok felhasználó, sok értékelés kell Ritka mátrix probléma… Külső információt nehéz bevonni Az egyes változatok teljesítményére különböző eredmények (nincs konszezus)

Tartalom alapú ajánló rendszerek

Tartalom alapú ajánló rendszerek Kizárólag a célfelhasználó korábbi értékelései alapján ajánlunk Az elemeket jellemzőkkel írjuk le pl: színészek, stáb, kategória, leírás szavai A jellemzőkre egy osztályozót/regresszort építhetünk Tanítás a célfelhasználó korábbi értékelésein

Tartalom alapú ajánló rendszerek

Tartalom alapú ajánlás – előnyök Független a többi felhasználótól (megj: jellemzőtérbe beépíthetjük az információt) egyetlen felhasználó esetén is életképes a rendszer Nincs hidegindítási probléma Ritkaság nem okoz gondot „egyéniségek”-nél is működik új, vagy nem felkapott elemeket is ajánlhat (long tail) Értelmezhető modell (pl. legnagyobb súlyú tüzelő jellemzők)

Tartalom alapú ajánlás – hátrányok Jellemzőtér kialakítása probléma specifikus és gyakran nehézségekbe ütközik Túlspecializáció: Elképzelhető, hogy nem mindig a már magasan értékeltekhez leginkább hasonló elem ajánlása az ideális Pl. Étterem ajánló rendszer: amennyiben a felhasználó még csak kínai és magyar ételeket értékelt, soha nem fogunk neki görög éttermet ajánlani (még ha az a legjobb is a városban), hiszen túlságosan különböző az eddig (jónak) értékelt elemektől Egy új felhasználónak egy ideig nem tudunk értékelést adni (megfelelő méretű tanító adatbázis kell)

Hibridizáció tartalom alapú → kollaboratív „tanulható” felhasználóknál hiányzó értékelésekre becslés tartalom alapú módszerekkel a becsült értéket (kis súllyal) felhasználjuk kollaboratív módszerekben kollaboratív → tartalom alapú jellemzőket nyerünk ki a többi felhasználó és azok értékelései alapján Pl: szakirodalom ajánlásnál hivatkozások alapján →

Hibridizáció (általános sémák) módszerek szavaztatása súlyozva egy fejlesztői adatbázison mért pontossággal stacking jellemzőtérbe beépül a többi rendszer kimenete

Összegzés Kollaboratív ajánlás Legközelebbi szomszéd alapú Gráf alapú Modell alapú Tartalom alapú ajánlás Hibrid rendszerek