推薦系統(tǒng)中需要解決的問題是綜合性的,任何一個(gè)技術(shù)細(xì)節(jié)的缺失都會(huì)影響最終效果. 要求我們從不同的維度審視推薦系統(tǒng),不僅抓住問題的核心,更要從整體上思考推薦問題.
本節(jié)從系統(tǒng)的角度介紹一些關(guān)鍵部分的需要解決的問題和做法
推薦系統(tǒng)的特征工程
構(gòu)建特征工程應(yīng)該遵循的基本原則是什么?
盡可能地讓特征工程抽取出一組特征能夠保留推薦環(huán)境及用戶行為過程中的所有有用的信息,盡量摒棄冗余信息.
需要把自己置身于場(chǎng)景中,想想在使用某個(gè)推薦產(chǎn)品中的點(diǎn)擊和轉(zhuǎn)化都受什么因素影響.
特征分類
一般這些受到影響的特征一般可以分為這幾類:
- 用戶行為數(shù)據(jù): 隱式顯式反饋數(shù)據(jù)
- 用戶關(guān)系數(shù)據(jù): 社交關(guān)系數(shù)據(jù)
- 屬性\標(biāo)簽類數(shù)據(jù): 用戶屬性,物品標(biāo)簽
- 內(nèi)容類數(shù)據(jù):圖片,評(píng)論等等
- 上下文信息: 用戶產(chǎn)生行為的場(chǎng)景信息
- 統(tǒng)計(jì)類特征那個(gè): 物品的點(diǎn)擊率轉(zhuǎn)化率等
處理辦法
特征可以分為兩大類
1.連續(xù)型特征: 一般采用歸一化和離散化和飛非線性處理的方法
2.類別型特征: one-hot multi-hot
特征工程的業(yè)務(wù)理解
傳統(tǒng)的人工特征組合\過濾的工作已經(jīng)不存在了,取而代之的是將特征工程與模型結(jié)構(gòu)統(tǒng)一思考\整體建模的深度學(xué)習(xí)模式.
不變的是,只有深入了解業(yè)務(wù)的運(yùn)行模式,了解用戶咋業(yè)務(wù)場(chǎng)景下的思考方式和行為動(dòng)機(jī),才能精確地抽取出最有價(jià)值的特征,構(gòu)建成功的深度學(xué)習(xí)模型.
推薦系統(tǒng)召回層的主要策略

上圖是一個(gè)簡易的推薦系統(tǒng)的階段流程,主要分為召回和排序.特點(diǎn)如下:
召回: 待計(jì)算的候選集合大,速度快,模型簡單,特征較少,盡量讓用戶感興趣的物品在這個(gè)階段能夠被快速召回,即保證相關(guān)物品的召回率.
排序?qū)?/code>:首要目標(biāo)是的得到精準(zhǔn)的排序結(jié)果.需處理的物品數(shù)量少,可利用較多特征,使用比較復(fù)雜的模型.
多路召回
召回的主要目標(biāo)的高效和召回率高, 一般出于性能的考慮使用多路并行召回的方式.

這里除了傳統(tǒng)的熱度召回cf召回,值得一提的是embedding召回,這里在前面的emb章節(jié)做過介紹,是目前主流的召回方式.
推薦系統(tǒng)的實(shí)時(shí)性
實(shí)時(shí)性的重要之處在于:
- 特征的實(shí)時(shí)性: 用戶的習(xí)慣愛好更新的越快,越能為用戶進(jìn)行更有時(shí)效性的推薦.
- 模型的實(shí)時(shí)性: 推薦系統(tǒng)更新的越快,模型越容易發(fā)現(xiàn)罪行流程的數(shù)據(jù)模式.
對(duì)于模型的實(shí)時(shí)更新一般分為幾個(gè)階段:
- 全量更新:利用某個(gè)時(shí)間段內(nèi)所有訓(xùn)練樣本進(jìn)行訓(xùn)練.
訓(xùn)練時(shí)間長時(shí)效性差 - 增量更新:增量更新將新加入的樣本"喂"給原有模型進(jìn)行增量訓(xùn)練.
往往無法找到全局最優(yōu),在實(shí)際場(chǎng)景中,一般采取增量一段時(shí)間后全量訓(xùn)練的方式 - 在線學(xué)習(xí):FTRL實(shí)時(shí)訓(xùn)練.
如何合理設(shè)定推薦系統(tǒng)中的優(yōu)化目標(biāo)
優(yōu)化目標(biāo)需要根據(jù)商業(yè)目標(biāo)來制定,再進(jìn)行相應(yīng)的模型迭代.不能拿到新技術(shù)就拿去用,陷入無意義的戰(zhàn)術(shù)勤奮中. 書中舉了youtube和mtl的例子.
我們要結(jié)合業(yè)務(wù)場(chǎng)景,從業(yè)務(wù)角度觸發(fā)進(jìn)行算法上的迭代和優(yōu)化.
冷啟動(dòng)
冷啟動(dòng)是指數(shù)據(jù)匱乏場(chǎng)景下如何進(jìn)行推薦.可以分為三類:
- 用戶冷啟動(dòng): 新用戶注冊(cè)
- 物品冷啟動(dòng): 新物品如何推薦
- 系統(tǒng)冷啟動(dòng): 推薦系統(tǒng)初期.
方法有:
- 規(guī)則: 熱榜,趨勢(shì),評(píng)分,以及按照用戶tag的熱度推薦,以及按照物品tag的推薦等等
- 探索和利用: UCB, THOMPSON采樣, e-greedy等等.
探索和利用的意義
探索和利用除了用在冷啟動(dòng),還可以用于發(fā)覺用戶新的興趣,增加結(jié)果的多樣性的場(chǎng)景,防止產(chǎn)生疲勞,并幫助用戶發(fā)現(xiàn)新的興趣.