用戶網(wǎng)絡(luò)行為畫像分析

用戶網(wǎng)絡(luò)行為畫像(視頻推薦領(lǐng)域)

含義:將定性與定量結(jié)合在一起的方法,對同一類用戶進行不同維度的刻畫,定性包含:生活情境、使用場景、用戶心智等
定量則對特征進行統(tǒng)計分析和計算。

用戶畫像數(shù)據(jù)來源:

  1. 用戶屬性,如用戶的基本信息:性別、年齡、年收入、興趣愛好、活躍時間、所在城市等,屬于靜態(tài)數(shù)據(jù)
  2. 用戶歷史記錄,屬于動態(tài)數(shù)據(jù)

用戶畫像在推薦系統(tǒng)中的應(yīng)用:

  1. 亞馬遜:通過瀏覽物品、購買物品、將物品加入收藏夾和wishlist及評分等用戶反饋
  2. 豆瓣:分析用戶“看過”和“想看”列表獲取用戶的偏好信息
  3. 新聞:根據(jù)讀者用戶行為習(xí)慣和閱讀經(jīng)歷為其定制內(nèi)容
  4. 信貸:用戶畫像提供豐富的用戶標簽體系,如用戶的年齡,文化程度,職業(yè),家庭狀況,購買習(xí)慣,購買能力等用于信貸評分

用戶畫像建模

1.用戶定性畫像:標簽
(1)如何定義標簽:標簽名稱,標簽類別,標簽值的取值范圍
(2)解釋標簽:對標簽的語義信息進行描述,
(3)推理標簽:定義相應(yīng)的推理規(guī)則
(4)驗證標簽:標簽是否合理,標簽關(guān)系是否一致

針對用戶定性畫像,主要包含用戶維度和視頻維度

用戶維度:包含用戶特征(如姓名,年齡,職業(yè),,,)、用戶行為(如歷史記錄,視頻點播,視頻瀏覽記錄)、用戶興趣偏好(如觀看時間偏好,觀看類型偏好)

視頻維度:視頻特征如(類別,導(dǎo)演,主題...)

群體用戶畫像:

針對所有用戶進行用戶畫像分析比較困難,所以需要進行群體用戶畫像分析,根據(jù)不同的評估維度和模型算法,通過聚類方式將具有相同特征的用戶劃分為同一個族群。
1.用戶畫像獲取 :問卷,數(shù)據(jù)統(tǒng)計
2.用戶畫像相似度計算 :歐式距離、余弦距離、曼哈頓距離
3.用戶畫像聚類:kmeans、基于密度、層次化聚類.
4.群體用戶畫像生成.

用戶畫像管理

用戶畫像表現(xiàn)形式:
(1)關(guān)鍵詞法:一組代表用戶屬性的特征詞
(2)評分矩陣法:二維矩陣,行表示用戶,列表示項目,交叉為打分
(3)向量空間表示法:給出關(guān)鍵詞及其權(quán)重
(4)本體表示法

用戶畫像存儲方式:
(1)關(guān)系型數(shù)據(jù)庫
(2)非關(guān)系型數(shù)據(jù)庫:
a.鍵值存儲數(shù)據(jù)庫:redis
b.列存儲數(shù)據(jù)庫:HBase
c.文檔型數(shù)據(jù)庫:MongoDb
d.圖形數(shù)據(jù)庫: Neo4J
推薦系統(tǒng)用戶畫像數(shù)據(jù)量大,主要針對少數(shù)列進行查詢,對列的操作不會導(dǎo)致對全表的數(shù)據(jù)操作,添加刪除相應(yīng)的列不會遇到數(shù)據(jù)碎片等諸多好處,因此列式數(shù)據(jù)庫更加適合用戶畫像的批量數(shù)據(jù)處理和即時查詢,對海量數(shù)據(jù)進行處理時具有很大的優(yōu)勢。
(3)數(shù)據(jù)倉庫:hadoop、spark。

公眾號:netrookie
原文:http://netrookie.cn/personas/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容