首先,這里不討論目標(biāo)明確性的問題(目標(biāo)明確性指的是,我們是否有一個(gè)可以明確優(yōu)化且可以數(shù)值化的目標(biāo),不能直接數(shù)值化的例如“優(yōu)化用戶體驗(yàn)”,這個(gè)先決條件在這里不做解釋,其實(shí)是另一個(gè)課題)。所以,我們假設(shè)我們有一個(gè)明確的可以量化的目標(biāo)。比如提升用戶時(shí)長(zhǎng)。
那么在目標(biāo)明確后,我們?nèi)绾螌?duì)問題進(jìn)行完整的建模呢?
例如
- 1、原始做法(point-wise)
常規(guī)的點(diǎn)擊率,播放時(shí)長(zhǎng)在曝光情況下的建模,即預(yù)估p(ctr | user, item),但是這個(gè)建模忽略了用戶瀏覽的上下文
- 2、上下文建模(context-dnn)
進(jìn)一步,我們可以加入context的建模,即我們?cè)陬A(yù)估下一個(gè)展現(xiàn)位時(shí),輸入之前展現(xiàn)過的列表。即每一個(gè)位置,都依賴于它之前的內(nèi)容。比如一次請(qǐng)求預(yù)估10個(gè)輸出,那么預(yù)估第2個(gè)輸出的時(shí)候,就把第一個(gè)輸出的內(nèi)容作為context,預(yù)估第三個(gè)的時(shí)候,第1,2個(gè)已選項(xiàng)為context,以此類推。(當(dāng)然,實(shí)際操作中會(huì)減枝)
- 3、局部雙向依賴(list-wise)
但是2的方法有個(gè)問題,就是沒有考慮到雙向的依賴。即用戶一次能接觸到整個(gè)序列(一屏),而其點(diǎn)擊某個(gè)位置的概率其實(shí)可能會(huì)依賴于整屏中的任意一個(gè)位置的內(nèi)容。為此我們引入了list-wise的模型,直接預(yù)估一個(gè)序列帶來整體的收益(點(diǎn)擊,播放,gmv等),則預(yù)估時(shí),其實(shí)每個(gè)位置的貢獻(xiàn),都考慮到了整個(gè)序列(上下文)?!緦?shí)際操作的時(shí)候,一般也是通過啟發(fā)式搜索,加入隨機(jī)性等,生成候選序列,再評(píng)估)
- 4、短期雙向依賴(SDDM)
上述我們只考慮了在一次請(qǐng)求的一個(gè)序列中的雙向依賴關(guān)系。但我們把視角繼續(xù)擴(kuò)大,可以發(fā)現(xiàn),在一個(gè)用戶的歷史行為序列中,實(shí)際上也存在雙向依賴。我們當(dāng)前(1,2,3)系統(tǒng)給出的結(jié)果,并不是在“雙向依賴”假設(shè)下的最優(yōu)解。
在這里,如何理解雙向依賴呢?:先定義“依賴”,依賴是指,當(dāng)我們做當(dāng)前決定的時(shí)候,所依賴的東西。我們先從單向理解,用戶的很多行為,可能會(huì)很大程度上受到之前環(huán)境(例如推送的內(nèi)容)的影響,即當(dāng)前的推送,依賴于之前(歷史)的推送。
那么問題便成了我們已知之前的推送內(nèi)容的條件下,最大化當(dāng)前推送選擇的收益,能否使整體的收益最大?
答案是否定的。原因很好理解,我們?cè)谥巴扑偷臅r(shí)候,并沒有考慮到后續(xù)的收益,換句話說,我們這次的推送,可能會(huì)對(duì)下一次,后幾次用戶的行為產(chǎn)生影響(收益),如果只考慮當(dāng)前收益,那么便只優(yōu)化了當(dāng)前的局部最優(yōu)【即很多系統(tǒng)都會(huì)陷入到的一個(gè)局部最優(yōu)的狀態(tài)】,所以我們還需要考慮當(dāng)前推送對(duì)未來造成的潛在影響,即:當(dāng)前的決策其實(shí)也隱式依賴于后續(xù)的收益,那后續(xù)的收益怎么獲取呢?當(dāng)然、我們也只能從歷史數(shù)據(jù)中的某一刻,來為模型定義當(dāng)前和后續(xù)。
PS1:【由于實(shí)際上我們沒法拿到(所有的后續(xù)),以及過長(zhǎng)依賴造成的學(xué)習(xí)難度問題,所以操作中可能需要一些強(qiáng)假設(shè)以簡(jiǎn)化問題,例如將后續(xù)的收益限制在一個(gè)依賴窗口內(nèi)(比如1h),一次session等】
PS2:【有的同學(xué)可能會(huì)想,是否能通過更復(fù)雜的歸因方式,將后續(xù)的收益,歸因到當(dāng)前的曝光上。實(shí)際上這樣是可以的,也能一定程度優(yōu)化這個(gè)問題,但是帶來的問題是,歸因的合理性是一個(gè)更強(qiáng)的假設(shè),可能本身就是有誤的】
PS3:【當(dāng)然除了歸因,還能通過其他間接收益來側(cè)面優(yōu)化整體的收益(比如視頻網(wǎng)站要優(yōu)化時(shí)長(zhǎng),那么我們加入評(píng)論這個(gè)目標(biāo))】
- 5、長(zhǎng)期雙向依賴問題。(LDDM)
在4中,我們可能只考慮了短期的收益,那么對(duì)于決策周期很長(zhǎng)的用戶行為來說,我們?nèi)绾谓D兀窟@就需要我們對(duì)這種長(zhǎng)周期決策進(jìn)行分析和歸因,來簡(jiǎn)化這個(gè)問題(其實(shí)也是加入了歸因邏輯的強(qiáng)假設(shè))【雖然不是很優(yōu),但目前比較直接的方法就是如此了,歡迎大家在這個(gè)問題上進(jìn)行溝通和討論,我也希望有更健壯和高效的方式來解決這個(gè)問題?!?/li>
PS:有句話說的非常對(duì),“算法的短期收益總是被高估,長(zhǎng)期收益被低估”