Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Task 1 Adatértelmezés I.. Forrásadatok rec_log_train.txt 73 209 277 értékelés 1 392 873 distinct user 4710 distinct item 7.2% elfogadás user_profile.txt.

Hasonló előadás


Az előadások a következő témára: "Task 1 Adatértelmezés I.. Forrásadatok rec_log_train.txt 73 209 277 értékelés 1 392 873 distinct user 4710 distinct item 7.2% elfogadás user_profile.txt."— Előadás másolata:

1 Task 1 Adatértelmezés I.

2 Forrásadatok rec_log_train.txt 73 209 277 értékelés 1 392 873 distinct user 4710 distinct item 7.2% elfogadás user_profile.txt 2 320 894 distinct user Year-of-birth Gender Number-of-tweet Tag-Ids Item.txt 6095 distinct item 4 szintű hierarchia A többi txt feldolgozása később

3 A top 10% item adja a rekordok 90%-át

4 A 10 leggyakoribb hierarchia szint H RC%(+1) 1.1.2.1 9,257,3433% 1.4.1.5 5,334,1389% 1.4.2.4 4,683,7009% 1.2.2.1 4,433,7927% 1.4.9.2 4,202,76210% 1.4.2.2 3,701,99410% 1.4.1.4 3,134,71210% 1.4.2.3 2,872,8779% 8.2.5.2 2,670,7204% 1.4.2.1 2,313,98810%  A rekordok 58%-a innen jön  Kisebb kategóriáknál sem megy 20% felé az elfogadás  339 különböző kategória  A hierarchiának 4 szintje van, de nem teljes

5 A top 40% user adja rekordok 90%-át

6 Rekordok userenként I.  A userek felének van 18 –nál kevesebb rekordja  Jellemzően hármas rekordok  A legtöbb adat egy ügyfélről 14 456 records per userRC#(distinct Users) 1 6 6 2 158 79 3 672,765 224,255 4 2,712 678 5 3,655 731 6 1,007,832 167,972 7 5,215 745 8 7,560 945 9 1,096,596 121,844 10 7,230 723 11 12,001 1,091 12 1,133,208 94,434 13 9,204 708 14 14,210 1,015 15 1,121,370 74,758

7 Rekordok userenként II. A rekordszámban a kiugrások csak a kategóriaösszevonás miatt Nem elég, hogy kevés a megfigyelés az ügyfelek jelentős részénél, de az adat is torz

8 Demográfia I. A férfiak szignifikánsan nagyobb arányban fogadnak el tartalmat

9 Demográfia II. Születési idő Fiatal korfa Első pillantásra nem ez lesz a legfontosabb attribútum

10 „Demográfia” III. A kiugró rekordszámok csak a diszkretizálás miatt, amúgy lecsengő A szélsőértékek (0, 1000+) alacsonyabb hajlandóságot mutatnak


Letölteni ppt "Task 1 Adatértelmezés I.. Forrásadatok rec_log_train.txt 73 209 277 értékelés 1 392 873 distinct user 4710 distinct item 7.2% elfogadás user_profile.txt."

Hasonló előadás


Google Hirdetések