2020-06-23 深度學(xué)習(xí)推薦系統(tǒng) 第5章 多角度審視推薦系統(tǒng)

推薦系統(tǒng)中需要解決的問題是綜合性的,任何一個(gè)技術(shù)細(xì)節(jié)的缺失都會(huì)影響最終效果. 要求我們從不同的維度審視推薦系統(tǒng),不僅抓住問題的核心,更要從整體上思考推薦問題.
本節(jié)從系統(tǒng)的角度介紹一些關(guān)鍵部分的需要解決的問題和做法

推薦系統(tǒng)的特征工程

構(gòu)建特征工程應(yīng)該遵循的基本原則是什么?

盡可能地讓特征工程抽取出一組特征能夠保留推薦環(huán)境及用戶行為過程中的所有有用的信息,盡量摒棄冗余信息.

需要把自己置身于場(chǎng)景中,想想在使用某個(gè)推薦產(chǎn)品中的點(diǎn)擊和轉(zhuǎn)化都受什么因素影響.

特征分類

一般這些受到影響的特征一般可以分為這幾類:

  1. 用戶行為數(shù)據(jù): 隱式顯式反饋數(shù)據(jù)
  2. 用戶關(guān)系數(shù)據(jù): 社交關(guān)系數(shù)據(jù)
  3. 屬性\標(biāo)簽類數(shù)據(jù): 用戶屬性,物品標(biāo)簽
  4. 內(nèi)容類數(shù)據(jù):圖片,評(píng)論等等
  5. 上下文信息: 用戶產(chǎn)生行為的場(chǎng)景信息
  6. 統(tǒng)計(jì)類特征那個(gè): 物品的點(diǎn)擊率轉(zhuǎn)化率等

處理辦法

特征可以分為兩大類
1.連續(xù)型特征: 一般采用歸一化和離散化和飛非線性處理的方法
2.類別型特征: one-hot multi-hot

特征工程的業(yè)務(wù)理解

傳統(tǒng)的人工特征組合\過濾的工作已經(jīng)不存在了,取而代之的是將特征工程與模型結(jié)構(gòu)統(tǒng)一思考\整體建模的深度學(xué)習(xí)模式.
不變的是,只有深入了解業(yè)務(wù)的運(yùn)行模式,了解用戶咋業(yè)務(wù)場(chǎng)景下的思考方式和行為動(dòng)機(jī),才能精確地抽取出最有價(jià)值的特征,構(gòu)建成功的深度學(xué)習(xí)模型.

推薦系統(tǒng)召回層的主要策略

上圖是一個(gè)簡易的推薦系統(tǒng)的階段流程,主要分為召回和排序.特點(diǎn)如下:

召回: 待計(jì)算的候選集合大,速度快,模型簡單,特征較少,盡量讓用戶感興趣的物品在這個(gè)階段能夠被快速召回,即保證相關(guān)物品的召回率.
排序?qū)?/code>:首要目標(biāo)是的得到精準(zhǔn)的排序結(jié)果.需處理的物品數(shù)量少,可利用較多特征,使用比較復(fù)雜的模型.

多路召回

召回的主要目標(biāo)的高效和召回率高, 一般出于性能的考慮使用多路并行召回的方式.


image.png

這里除了傳統(tǒng)的熱度召回cf召回,值得一提的是embedding召回,這里在前面的emb章節(jié)做過介紹,是目前主流的召回方式.

推薦系統(tǒng)的實(shí)時(shí)性

實(shí)時(shí)性的重要之處在于:

  1. 特征的實(shí)時(shí)性: 用戶的習(xí)慣愛好更新的越快,越能為用戶進(jìn)行更有時(shí)效性的推薦.
  2. 模型的實(shí)時(shí)性: 推薦系統(tǒng)更新的越快,模型越容易發(fā)現(xiàn)罪行流程的數(shù)據(jù)模式.

對(duì)于模型的實(shí)時(shí)更新一般分為幾個(gè)階段:

  1. 全量更新:利用某個(gè)時(shí)間段內(nèi)所有訓(xùn)練樣本進(jìn)行訓(xùn)練.
    訓(xùn)練時(shí)間長時(shí)效性差
  2. 增量更新:增量更新將新加入的樣本"喂"給原有模型進(jìn)行增量訓(xùn)練.
    往往無法找到全局最優(yōu),在實(shí)際場(chǎng)景中,一般采取增量一段時(shí)間后全量訓(xùn)練的方式
  3. 在線學(xué)習(xí):FTRL實(shí)時(shí)訓(xùn)練.

如何合理設(shè)定推薦系統(tǒng)中的優(yōu)化目標(biāo)

優(yōu)化目標(biāo)需要根據(jù)商業(yè)目標(biāo)來制定,再進(jìn)行相應(yīng)的模型迭代.不能拿到新技術(shù)就拿去用,陷入無意義的戰(zhàn)術(shù)勤奮中. 書中舉了youtube和mtl的例子.
我們要結(jié)合業(yè)務(wù)場(chǎng)景,從業(yè)務(wù)角度觸發(fā)進(jìn)行算法上的迭代和優(yōu)化.

冷啟動(dòng)

冷啟動(dòng)是指數(shù)據(jù)匱乏場(chǎng)景下如何進(jìn)行推薦.可以分為三類:

  1. 用戶冷啟動(dòng): 新用戶注冊(cè)
  2. 物品冷啟動(dòng): 新物品如何推薦
  3. 系統(tǒng)冷啟動(dòng): 推薦系統(tǒng)初期.

方法有:

  1. 規(guī)則: 熱榜,趨勢(shì),評(píng)分,以及按照用戶tag的熱度推薦,以及按照物品tag的推薦等等
  2. 探索和利用: UCB, THOMPSON采樣, e-greedy等等.

探索和利用的意義

探索和利用除了用在冷啟動(dòng),還可以用于發(fā)覺用戶新的興趣,增加結(jié)果的多樣性的場(chǎng)景,防止產(chǎn)生疲勞,并幫助用戶發(fā)現(xiàn)新的興趣.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容