通過數(shù)據(jù)分析了解數(shù)據(jù)整體情況,發(fā)現(xiàn)用戶、文章的屬性信息,以便后續(xù)進行特征工程和模型構(gòu)建。
數(shù)據(jù)字段:
日志文件包括字段:用戶id、文章id、點擊時間戳、點擊環(huán)境、點擊設(shè)備、點擊操作系統(tǒng)、點擊所在國家、點擊所在區(qū)域、點擊來源等
文章文件包括字段:文章id、類別id、創(chuàng)建時間戳、文章字數(shù)
文章向量:文章id、250長度向量
數(shù)據(jù)分析步驟包括以下步驟:
1. 用戶維度分析
????訓(xùn)練集測試集用戶點擊文章次數(shù)統(tǒng)計
????探索性統(tǒng)計分析:info();describe(); head()
????日志文件字段條形圖分析用戶點擊環(huán)境、設(shè)備、操作系統(tǒng)、國家、區(qū)域、次數(shù)等的分布
????測試集、訓(xùn)練集數(shù)據(jù)分布一致性探索(如用戶至少點擊文章次數(shù))
2. 用戶行為分析
????重復(fù)點擊行為分析(多次點擊閱讀文章)
????用戶點擊環(huán)境變化分析
????用戶點擊新聞數(shù)量分布(點擊次數(shù)分析用戶活躍度)
????用戶點擊新聞文章主題的偏好(閱讀興趣是否廣泛或單一)
????用戶閱讀文章長度分布(長短文)
????用戶點擊新聞時間差分布(分析用戶點擊文章時間差異)
????用戶閱讀新聞的文章創(chuàng)建時間差分析(反映用戶對文章時效性的偏好)
3. 新聞文章維度分析
? ??探索性分析
????????詞頻、文章主題、文章創(chuàng)建時間統(tǒng)計分析
????????文章向量表示
? ??數(shù)據(jù)分析
????????新聞點擊次數(shù)分布(熱點新聞、文章熱度分析等)
????????新聞共線分析(連續(xù)出現(xiàn)的次數(shù),分析用戶看連續(xù)兩篇新聞的相關(guān)性)
????????計算用戶前后查看文章的相似度(分析用戶查看新聞相似度走向)
4. 新增分析維度
????用戶閱讀頻率分析(多久閱讀一次)
????交互分析(不同時間閱讀文章類型、不同時辰新聞點擊分布、設(shè)備與新聞點擊分析、系統(tǒng)與新聞點擊分析、來源渠道與新聞主題分布)
????文章主題間的文章相似度
????用戶前后點擊新聞的相似度(點擊時間差在一定范圍內(nèi)、范圍外相似度比較)