Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaEszter Faragóné Megváltozta több, mint 10 éve
1
Task 1 Adatértelmezés I.
2
Forrásadatok rec_log_train.txt 73 209 277 értékelés 1 392 873 distinct user 4710 distinct item 7.2% elfogadás user_profile.txt 2 320 894 distinct user Year-of-birth Gender Number-of-tweet Tag-Ids Item.txt 6095 distinct item 4 szintű hierarchia A többi txt feldolgozása később
3
A top 10% item adja a rekordok 90%-át
4
A 10 leggyakoribb hierarchia szint H RC%(+1) 1.1.2.1 9,257,3433% 1.4.1.5 5,334,1389% 1.4.2.4 4,683,7009% 1.2.2.1 4,433,7927% 1.4.9.2 4,202,76210% 1.4.2.2 3,701,99410% 1.4.1.4 3,134,71210% 1.4.2.3 2,872,8779% 8.2.5.2 2,670,7204% 1.4.2.1 2,313,98810% A rekordok 58%-a innen jön Kisebb kategóriáknál sem megy 20% felé az elfogadás 339 különböző kategória A hierarchiának 4 szintje van, de nem teljes
5
A top 40% user adja rekordok 90%-át
6
Rekordok userenként I. A userek felének van 18 –nál kevesebb rekordja Jellemzően hármas rekordok A legtöbb adat egy ügyfélről 14 456 records per userRC#(distinct Users) 1 6 6 2 158 79 3 672,765 224,255 4 2,712 678 5 3,655 731 6 1,007,832 167,972 7 5,215 745 8 7,560 945 9 1,096,596 121,844 10 7,230 723 11 12,001 1,091 12 1,133,208 94,434 13 9,204 708 14 14,210 1,015 15 1,121,370 74,758
7
Rekordok userenként II. A rekordszámban a kiugrások csak a kategóriaösszevonás miatt Nem elég, hogy kevés a megfigyelés az ügyfelek jelentős részénél, de az adat is torz
8
Demográfia I. A férfiak szignifikánsan nagyobb arányban fogadnak el tartalmat
9
Demográfia II. Születési idő Fiatal korfa Első pillantásra nem ez lesz a legfontosabb attribútum
10
„Demográfia” III. A kiugró rekordszámok csak a diszkretizálás miatt, amúgy lecsengő A szélsőértékek (0, 1000+) alacsonyabb hajlandóságot mutatnak
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.