用戶模型主要用來存儲用戶興趣數(shù)據(jù),用戶模型中對用戶的興趣基于長短興趣進(jìn)行描述。
建模數(shù)據(jù)來源
內(nèi)部數(shù)據(jù)
內(nèi)部數(shù)據(jù)指App或者Web,用戶互動產(chǎn)生的行為記錄,例如評論、分享等,屬于主動行為;瀏覽、點(diǎn)擊等屬于被動行為。
需要支出的是,一般基于主動行為我們應(yīng)該進(jìn)行特殊加權(quán),主動行為的興趣強(qiáng)度要高于被動行為。
外部數(shù)據(jù)
指社交網(wǎng)站等第三方授權(quán)數(shù)據(jù),對于一個剛上市的產(chǎn)品來說,用戶的行為歷史很少,這時就需要利用第三方的行為記錄對用戶興趣進(jìn)行刻畫。
行為劃分
| 主動行為 | 被動行為 |
|---|---|
| 分享 | 點(diǎn)擊 |
| 評論 | 瀏覽 |
| 收藏 | ...... |
| 喜歡&不喜歡 | ...... |
| 轉(zhuǎn)發(fā) | ...... |
用戶興趣刻畫
可通過Tag、Topic、分類進(jìn)行基本的興趣標(biāo)識。
- Tag:最小粒度單位興趣標(biāo)識。
- Topic:Tag的上級父單位,一個Topic下可以由很多Tag組成。
- 分類:分類是最粗粒度的興趣標(biāo)識,由于分類是一個用戶前端篩選內(nèi)容的習(xí)慣,一直沿用至今,所以推薦系統(tǒng)中也需要保留分類概念。
日志到興趣的抽取

image.png
興趣權(quán)重計(jì)算
w(user+1)=top(w(user) * λ + g(c) * h(b))
w(user):更新之前興趣點(diǎn)權(quán)重,與之前的積累相關(guān)。
w(user+1):是更新結(jié)束后回寫到用戶模型表中的興趣點(diǎn)權(quán)重。
λ:衰減因子,小于等于1.0,可配置。
g(c):資訊內(nèi)容模型,與資訊內(nèi)容本身有關(guān)。
h(b):用戶行為參數(shù),調(diào)整用戶行為影響強(qiáng)弱,正負(fù),與用戶具體行為有關(guān),可配置。
top:對結(jié)果根據(jù)權(quán)重進(jìn)行從大到小排序,取出權(quán)值最大的前N個,可配置。
新用戶模型=排序topN(舊用戶模型行為衰減因子+news權(quán)重行為參數(shù))