推薦系統(tǒng)陳開江 - C3 內(nèi)容推薦

講了什么?
用戶畫像,標(biāo)簽挖掘,基于內(nèi)容推薦

1 用戶畫像

  • 什么是用戶畫像
    用戶向量化后就是用戶畫像,便簽,注冊資料,社交關(guān)系都是稀疏向量;Embedding,svd,主題模型選出來的是稠密向量
  • 關(guān)鍵因素
    維度自己可以定義
    量化每個維度的量化以推薦效果的好壞來反向優(yōu)化用戶畫像
  • 構(gòu)建方法
    簡單原始數(shù)據(jù)構(gòu)建,人口統(tǒng)計信息,播放歷史
    數(shù)據(jù)統(tǒng)計信息,給物品標(biāo)簽,統(tǒng)計用戶在這些標(biāo)簽上的歷史行為,從標(biāo)簽維度做數(shù)據(jù)統(tǒng)計,最后做截斷
    黑盒,用過潛語義模型用戶興趣,SVD隱因子,深度學(xué)習(xí)Embedding向量

2 標(biāo)簽挖掘

過程是什么?
分析所有能分析的非結(jié)構(gòu)化內(nèi)容,結(jié)構(gòu)化后構(gòu)建高質(zhì)量的標(biāo)簽庫
根據(jù)用戶行為數(shù)據(jù)為用戶構(gòu)建高覆蓋度和區(qū)分度的畫像標(biāo)簽庫

  • 數(shù)據(jù)從哪兒來
    能分析的非結(jié)構(gòu)化內(nèi)容
  • 標(biāo)簽庫長什么樣
    衡量便簽度好壞有3個維度覆蓋面,健康度,經(jīng)濟(jì)性(標(biāo)簽庫是否足夠簡單,不要出現(xiàn)太多語義重復(fù)的標(biāo)簽)
    對應(yīng)的解決方法
    覆蓋面廣:挖掘文本,視頻,音頻,圖像標(biāo)簽,用戶填寫更多資料,跨公司數(shù)據(jù)打通
    分布健康:對比較大的分類,不斷細(xì)分,是分布更加健康
    語義獨(dú)立:Embedding,隱語義模型,主題模型比較不錯
    如何構(gòu)建好的標(biāo)簽庫:
    分為中心化(專業(yè)人員參與)和非中心化(完全依靠用戶標(biāo)簽),需要兩種相結(jié)合,多分類體系,同義標(biāo)簽保留最常用的,去中心化的標(biāo)簽頁要專業(yè)人員把控質(zhì)量
  • 怎么挖掘標(biāo)簽
    關(guān)鍵詞提?。篢F-IDF TextRank
    實(shí)體識別:HMM和CRF條件隨機(jī)場,CRF+BiLSTM,詞典方法,人物,位置,著作,影視劇,歷史事件和熱點(diǎn)事件
    內(nèi)容分類:按照分類體系分類
    文本聚類:劃分多個類簇,工程上比較難工業(yè)化
    主題模型:學(xué)習(xí)主題向量,再預(yù)測新的文本在各個主題上的分布
    Embedding:Word2vec(CBOW和Skip Gram),GloVe和FastText(學(xué)習(xí)詞的Embedding向量和做短文本分類)
    標(biāo)簽選擇:卡方檢驗(yàn)和信息增益

3 基于內(nèi)容的推薦

  • 內(nèi)容推薦的好處
    新的物品,有助于冷啟動
  • 兩個產(chǎn)出
    結(jié)構(gòu)化的內(nèi)容庫
    內(nèi)容分析模型
    • 分類模型
    • 主題模型
    • 實(shí)體識別模型
    • Embedding模型
  • 算法
    通過相似度算法計算
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容