序言

本書的目的是“從技術(shù)創(chuàng)造的視角，以具體的技術(shù)誕生場(chǎng)景為藍(lán)圖，試圖引導(dǎo)讀者學(xué)習(xí)和掌握工業(yè)界模型設(shè)計(jì)背后真正“銀彈” - 目的是解決什么樣的問題”

深度學(xué)習(xí)打破之前原有的學(xué)術(shù)界模型復(fù)雜條件苛刻的情況，它具有以下特點(diǎn)：

開源工具多
深度模型的模塊標(biāo)準(zhǔn)化程度高
模型的設(shè)計(jì)和實(shí)現(xiàn)結(jié)構(gòu)，大大提升了算法迭代效率
工業(yè)界技術(shù)的正確視角是問題驅(qū)動(dòng)而不是拿著錘子找釘子

問題驅(qū)動(dòng): 定義清楚問題,想清楚技術(shù)的需求,然后尋找或構(gòu)思相應(yīng)的技術(shù)工具

以阿里為例它通過電商場(chǎng)景的行為模式和用戶興趣的利用,進(jìn)行了一系列的算法迭代,是問題驅(qū)動(dòng)的典型例子.

現(xiàn)在,大部分公司的工業(yè)級(jí)深度學(xué)習(xí)處于1.0, 已經(jīng)遇到了瓶頸,傳統(tǒng)的:

搭積木
喂數(shù)據(jù)
算法改進(jìn)需要工程大量的升級(jí)改造

這幾種形式已經(jīng)難以為繼,需要進(jìn)入2.0階段,作者判斷和呼吁

對(duì)于推薦\搜索和廣告領(lǐng)域,業(yè)界需要重新定義和設(shè)計(jì)新的系統(tǒng)架構(gòu),以適應(yīng)深度學(xué)習(xí)爆發(fā)式發(fā)展帶來的領(lǐng)先算法那能力.

需要專項(xiàng)更為復(fù)雜和系統(tǒng)性的技術(shù)體系,進(jìn)一步創(chuàng)造技術(shù)紅利.

1. 互聯(lián)網(wǎng)增長(zhǎng)引擎-推薦系統(tǒng)

2. 前深度學(xué)習(xí)時(shí)代-推薦系統(tǒng)的進(jìn)化之路

傳統(tǒng)的推薦算法那的演進(jìn)如下圖, 傳統(tǒng)的推薦模型是很重要的基礎(chǔ):

目前cf\lr等傳統(tǒng)的推薦模型具有可解釋性強(qiáng)\硬件環(huán)境要求低\抑郁快速訓(xùn)練和部署的優(yōu)勢(shì),有大量使用的場(chǎng)景;
傳統(tǒng)的是深度學(xué)習(xí)推薦的基礎(chǔ).

例如,lr是是單層單神經(jīng)元的神經(jīng)網(wǎng)絡(luò);因子分解演化除了FM,deepFM等深度模型具有很好的效果.

上圖,可分為4個(gè)部分:

協(xié)同過濾(藍(lán)色)
邏輯回歸: LR
因子分解機(jī):FM,FFM
組合模型:GBDT+LR

CF

通過貢獻(xiàn)矩陣和合適的相似性度量的方法,進(jìn)行推薦的技術(shù)

userCF細(xì)節(jié)不贅述
缺點(diǎn):

實(shí)際場(chǎng)景中user量大,開銷大,計(jì)算量大

itemCF細(xì)節(jié)不贅述

CF的缺點(diǎn)

協(xié)同過濾雖然直觀,可解釋性強(qiáng),但是不具有較強(qiáng)的泛化能力,無法將兩個(gè)物品相似這一信息推廣到其他物品的相似性計(jì)算上.導(dǎo)致里一個(gè)嚴(yán)重的問題:

熱門物品具有很強(qiáng)的頭哦不相應(yīng),容易跟大量物品產(chǎn)生相似性;而尾部物品由于特征向量稀疏,很少與其他物品產(chǎn)生相似性,導(dǎo)致很少被推薦.

矩陣分解

矩陣分解即將共現(xiàn)矩陣分解得到用戶和物品的隱向量.

矩陣分解有幾種方式:
1.特征值分解eigen decomposition
2.奇異值分解sigular value decomposition
- 要求共現(xiàn)矩陣是稠密的,復(fù)雜度高,不適合大數(shù)據(jù)場(chǎng)景
3.梯度下降

優(yōu)缺點(diǎn)

泛化能力強(qiáng)
空間復(fù)雜度低 $(n+m)k$
易于擴(kuò)展和靈活:和embedding的思路類似

邏輯回歸

理論知識(shí)略,網(wǎng)上很多了

優(yōu)點(diǎn)

1.物理意義匹配:邏輯回歸是廣義線性模型的一種,它的假設(shè)是因變量 $y$ 服從伯努利分布.對(duì)于用戶是否點(diǎn)擊的場(chǎng)景也可以定義為這個(gè)分布.
2.可解釋性強(qiáng):根據(jù)權(quán)重解釋特征的強(qiáng)弱.
3.工程化簡(jiǎn)單