零基礎(chǔ)入門推薦系統(tǒng)——task02:數(shù)據(jù)分析

通過數(shù)據(jù)分析了解數(shù)據(jù)整體情況,發(fā)現(xiàn)用戶、文章的屬性信息,以便后續(xù)進行特征工程和模型構(gòu)建。

數(shù)據(jù)字段:

日志文件包括字段:用戶id、文章id、點擊時間戳、點擊環(huán)境、點擊設(shè)備、點擊操作系統(tǒng)、點擊所在國家、點擊所在區(qū)域、點擊來源等

文章文件包括字段:文章id、類別id、創(chuàng)建時間戳、文章字數(shù)

文章向量:文章id、250長度向量

數(shù)據(jù)分析步驟包括以下步驟:

1. 用戶維度分析

????訓(xùn)練集測試集用戶點擊文章次數(shù)統(tǒng)計

????探索性統(tǒng)計分析:info();describe(); head()

????日志文件字段條形圖分析用戶點擊環(huán)境、設(shè)備、操作系統(tǒng)、國家、區(qū)域、次數(shù)等的分布

????測試集、訓(xùn)練集數(shù)據(jù)分布一致性探索(如用戶至少點擊文章次數(shù))

2. 用戶行為分析

????重復(fù)點擊行為分析(多次點擊閱讀文章)

????用戶點擊環(huán)境變化分析

????用戶點擊新聞數(shù)量分布(點擊次數(shù)分析用戶活躍度)

????用戶點擊新聞文章主題的偏好(閱讀興趣是否廣泛或單一)

????用戶閱讀文章長度分布(長短文)

????用戶點擊新聞時間差分布(分析用戶點擊文章時間差異)

????用戶閱讀新聞的文章創(chuàng)建時間差分析(反映用戶對文章時效性的偏好)

3. 新聞文章維度分析

? ??探索性分析

????????詞頻、文章主題、文章創(chuàng)建時間統(tǒng)計分析

????????文章向量表示

? ??數(shù)據(jù)分析

????????新聞點擊次數(shù)分布(熱點新聞、文章熱度分析等)

????????新聞共線分析(連續(xù)出現(xiàn)的次數(shù),分析用戶看連續(xù)兩篇新聞的相關(guān)性)

????????計算用戶前后查看文章的相似度(分析用戶查看新聞相似度走向)

4. 新增分析維度

????用戶閱讀頻率分析(多久閱讀一次)

????交互分析(不同時間閱讀文章類型、不同時辰新聞點擊分布、設(shè)備與新聞點擊分析、系統(tǒng)與新聞點擊分析、來源渠道與新聞主題分布)

????文章主題間的文章相似度

????用戶前后點擊新聞的相似度(點擊時間差在一定范圍內(nèi)、范圍外相似度比較)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容