Rangsorolás tanulása ápr. 13.
Állásra jelentkezők rangsorolása
Rangsorolási feladat Adott elemek egy halmaza o1…n és egy q lekérdezés Az {oi,q} párokat (gazdag) jellemzőtérrel írjuk le Rangsoroljuk o1…n elemeket q-szerinti relavancia szempontjából! A kimenet az o1…n elemek egy rendezett listája
Rangsorolás tanulása Tanító adatbázis: Modell:
Rangsorolás vs. regresszió Egyszerű megoldás: helyezést, mint valós értéket regresszáljuk Célfüggvény más! Konkrét értékek nem érdekesek, csak a rendezés Az egyes lekérdezések közti normalizáció problémás: pl. f(q1,o1,18) = f(q2, o2,72) = 1
(Leg)releváns(abb) elemek kiválasztása Sokszor a gyakorlatban csak néhány releváns elem ismert a lekérdezéshez (nem teljes rangsor). Releváns/nem-releváns bináris osztályozás? Egy halmazból mindig a legrelevánsabbakat kell kiválasztani! (globális osztályozó predikálhat mindent nem-relevánsnak) Rangsorolásnál az adott O belüli (relatív) rangsor a kérdés és nem egy abszolút rangsor.
Kiértékelési metrikák Kendall tau: Releváns elem választásnál: reciprok rangsor = 1/rank, ahol rank az első releváns elem helyezése MRR: reciprok rangsor átlagolva több q,O pár felett rel(k): a k.-nak visszaadott elem releváns-e P(k)= precízió@k MAP: AveP átlagolva több q,O pár felett
Megközelítések Pontszerű (pointwise) megközelítés Regressziós (teljes rangsorolás) vagy osztályozási (releváns elemek) problémaként kezeljük Pár-alapú (pairwise) megközelítés Az egyes O-kon belül párokat formálunk, arra az osztályozási feladatra vezetjük vissza, hogy oi elem relevánsabb-e, mint oj. Rangsorolásnál mindenki mindenkivel versenyez. Lista-alapú (listwise) megközelítés A rangsorolást közvetlenül tanuljuk. Egy q,O pár egy egyed
Pár-alapú rangsorolók
SVMrank
SVMrank
SVMrank Tfh. f(x) lineáris, ekkor: … http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html
Lista-alapú rangsorolók
ListMLE – Plackett Luce Modell π egy rangsorolása O elemeinek π-1(i) a rangsor i. pozíciójában álló elem s egy pontszám az egyes értékekhez P egy eloszlás s szerint csökkenő(növekvő) sorrendnek a legnagyobb(legkissebb) a valószínűsége
ListMLE Legyen Keressük azt az paramétervektort ami maximalizálja a tanító adatbázis megfigyelésének valószínűségét (MLE) a Plackett-Luce modell alapján:
ha sorrend helyett releváns találatok ListMLE ha sorrend helyett releváns találatok Jelölje Yi az i. lekérdezéshez releváns találatok halmazát ?
Megjegyzések A pontszerű megközelítésnél számottevően jobbak a pár- ill. lista-alapú módszerek A gyakorlatban a pár- és lista-alapú módszerek versenyképesek Tanító példák száma: Pár-alapúnál |Q\|O|2 Lista-alapúnál |Q| tanító példa
Összegzés Rangsorolási feladat Pontszerű (pointwise) megközelítés Teljes rangsor Releváns elemek Pontszerű (pointwise) megközelítés Regresszió Releváns/nem releváns osztályozás Pár-alapú (pairwise) megközelítés SVMrank Lista-alapú (listwise) megközelítés ListMLE