Task 1 Adatértelmezés I.
Forrásadatok rec_log_train.txt értékelés distinct user 4710 distinct item 7.2% elfogadás user_profile.txt distinct user Year-of-birth Gender Number-of-tweet Tag-Ids Item.txt 6095 distinct item 4 szintű hierarchia A többi txt feldolgozása később
A top 10% item adja a rekordok 90%-át
A 10 leggyakoribb hierarchia szint H RC%(+1) ,257,3433% ,334,1389% ,683,7009% ,433,7927% ,202,76210% ,701,99410% ,134,71210% ,872,8779% ,670,7204% ,313,98810% A rekordok 58%-a innen jön Kisebb kategóriáknál sem megy 20% felé az elfogadás 339 különböző kategória A hierarchiának 4 szintje van, de nem teljes
A top 40% user adja rekordok 90%-át
Rekordok userenként I. A userek felének van 18 –nál kevesebb rekordja Jellemzően hármas rekordok A legtöbb adat egy ügyfélről records per userRC#(distinct Users) , , , , ,007, , , , ,096, , , ,001 1, ,133,208 94, , ,210 1, ,121,370 74,758
Rekordok userenként II. A rekordszámban a kiugrások csak a kategóriaösszevonás miatt Nem elég, hogy kevés a megfigyelés az ügyfelek jelentős részénél, de az adat is torz
Demográfia I. A férfiak szignifikánsan nagyobb arányban fogadnak el tartalmat
Demográfia II. Születési idő Fiatal korfa Első pillantásra nem ez lesz a legfontosabb attribútum
„Demográfia” III. A kiugró rekordszámok csak a diszkretizálás miatt, amúgy lecsengő A szélsőértékek (0, 1000+) alacsonyabb hajlandóságot mutatnak