2019-03-29

隨著網(wǎng)絡(luò)購(gòu)物所能涵蓋的物品類型越來(lái)越廣泛,人們逐漸發(fā)現(xiàn)推薦系統(tǒng)中的CF推薦算法和CB推薦算法并不能很好的適應(yīng)某些特殊物品的推薦需求。例如,更新?lián)Q代非??於藗冇滞ǔ2粫?huì)頻繁購(gòu)買的電子產(chǎn)品等。對(duì)于這些產(chǎn)品來(lái)說(shuō),其各方面的性能參數(shù)在幾年之間就會(huì)有很大變化,代表著歷史偏好的用戶畫像并不能很好的反映用戶當(dāng)前的購(gòu)買需求,于是就需要推薦系統(tǒng)將用戶的當(dāng)前需求作為重要的信息參考源。人們發(fā)現(xiàn)可以利用物品的參數(shù)特征等屬性形成約束知識(shí),再將用戶對(duì)物品的特定需求刻畫為約束條件,然后經(jīng)過(guò)對(duì)物品集合的約束滿足問(wèn)題的求解,就可以得到用戶所期望的物品了。

在視頻推薦領(lǐng)域中,基于約束的推薦可以被應(yīng)用在針對(duì)某一特定類型影片的深度垂直搜索中,通常這類影片具有區(qū)別于其他類型影片的專業(yè)特色屬性,而相對(duì)應(yīng)的用戶對(duì)此類型的影片也有著一定程度的專業(yè)性了解。例如,音樂(lè)愛(ài)好者在搜索古典音樂(lè)紀(jì)錄片時(shí),他們可能會(huì)傾向于將影片中所涉及的某些音樂(lè)元素作為約束條件。

通過(guò)一個(gè)約束知識(shí)示例,對(duì)約束滿足問(wèn)題和關(guān)聯(lián)推薦算法的運(yùn)作流程進(jìn)行介紹。

1.約束知識(shí)示例

對(duì)于音樂(lè)愛(ài)好者來(lái)說(shuō),他們對(duì)古典音樂(lè)紀(jì)錄片所看重的屬性可能是影片話題(如鋼琴家、小提琴家、指揮家等)、影片所涉及的音樂(lè)家或者音樂(lè)團(tuán)體、影片時(shí)長(zhǎng)及發(fā)行年代等。倘若對(duì)這些獨(dú)具特色的屬性來(lái)對(duì)古典音樂(lè)紀(jì)錄片進(jìn)行表示時(shí),就可以得到一個(gè)集合示例。然后有了這個(gè)集合后,就可以將基于約束知識(shí)的推薦過(guò)程視為約束滿足問(wèn)題的解決過(guò)程。約束滿足問(wèn)題可以通過(guò)以下定義得到明確描述。

1.創(chuàng)建推薦任務(wù)

推薦任務(wù)是以元組(R,I)的形式表示出來(lái)的,其中用集合R表示目標(biāo)用戶對(duì)物品的特定需求,即對(duì)物品的約束條件,用集合I表示一個(gè)物品集合。上例中推薦任務(wù)的完成目標(biāo)是從集合I中確定出能夠滿足集合R要求的物品。

當(dāng)推薦系統(tǒng)找不到能夠滿足目標(biāo)用戶所給出的約束條件的物品時(shí),為了仍要生成推薦物品列表,系統(tǒng)就需要對(duì)約束條件做一定程度的修改,從而主動(dòng)提出某些備選方案。

關(guān)聯(lián)知識(shí)與關(guān)聯(lián)推薦算法

關(guān)聯(lián)知識(shí)以關(guān)聯(lián)規(guī)則為表現(xiàn)形式,用以描述數(shù)據(jù)庫(kù)中數(shù)據(jù)之間關(guān)聯(lián)性的知識(shí)。在推薦系統(tǒng)領(lǐng)域中,可以通過(guò)對(duì)用戶畫像中關(guān)聯(lián)規(guī)則的挖掘來(lái)分析用戶習(xí)慣,發(fā)現(xiàn)物品之間的關(guān)聯(lián)性,并利用這種關(guān)聯(lián)性指導(dǎo)系統(tǒng)做出推薦。典型的關(guān)聯(lián)規(guī)則挖掘問(wèn)題是美國(guó)沃爾瑪超市分析發(fā)現(xiàn)的“尿布與啤酒”現(xiàn)象就是一個(gè)尤為經(jīng)典的案例。在視頻推薦領(lǐng)域中我們也常能發(fā)現(xiàn)關(guān)聯(lián)推薦算法的身影,以豆瓣電影的推薦為例,在世界著名古典音樂(lè)指揮家卡拉揚(yáng)的記錄片“卡拉揚(yáng)——至臻完美”的影片信息頁(yè)面中,我們可以看到豆瓣的推薦系統(tǒng)在其推薦領(lǐng)區(qū)域會(huì)顯示出對(duì)“鋼琴的藝術(shù)”、“小提琴家的藝術(shù)”等音樂(lè)紀(jì)錄片的推薦,而不僅僅是“指揮的藝術(shù)”。實(shí)際上,喜歡古典音樂(lè)的觀影者確實(shí)會(huì)觀看上述影片,她們更希望系統(tǒng)不局限于某個(gè)類別中基于影片相似度的推薦如(繼續(xù)推薦一些介紹其他指揮家的影片或介紹卡拉揚(yáng)的其他影片,而是出現(xiàn)一些基于影片關(guān)聯(lián)性的推薦(如推薦出一些介紹其他古典音樂(lè)大師的記錄片)。

1.關(guān)聯(lián)推薦算法流程

算法輸入:n個(gè)用戶畫像。

算法輸出:針對(duì)目標(biāo)用戶U的Top-N的推薦列表。

1.從系統(tǒng)中的n個(gè)用戶畫像中挖掘出所有強(qiáng)關(guān)聯(lián)規(guī)則,建立集合Pu以表示目標(biāo)用戶U尚未觀看但極可能感興趣的視頻。

2.再次使用置信度對(duì)集合Pu中的視頻進(jìn)行高低排序。

3.取出排序列表中的前N個(gè)視頻構(gòu)成Top-N推薦列表。

由于對(duì)系統(tǒng)中全體用戶的畫像進(jìn)行關(guān)聯(lián)規(guī)則挖掘意義不明顯且計(jì)算量大,所以基于關(guān)聯(lián)規(guī)則的推薦算法常與CF推薦算法混合使用。在這類混個(gè)方案中,使用了CF推薦算法中的最近鄰算法將上表中的用戶畫像數(shù)目n限定在目標(biāo)用戶的最鄰近范圍內(nèi),使得關(guān)聯(lián)規(guī)則挖掘算法所處理的數(shù)據(jù)規(guī)模被有針對(duì)性的限制咋一定范圍內(nèi)。同時(shí),為了避免由于這種數(shù)據(jù)規(guī)模的限制而導(dǎo)致關(guān)聯(lián)規(guī)則的挖掘結(jié)果受限,這類混合方案也會(huì)將CF推薦算法的結(jié)果作為對(duì)基于關(guān)聯(lián)規(guī)則推薦算法結(jié)果的有效補(bǔ)充,納入到最終的推薦列表中。

并行式混合

并行式混合方法包括加權(quán)式、切換式和混雜式,其共同點(diǎn)是運(yùn)用特定的混合機(jī)制將系統(tǒng)內(nèi)的多種推薦算法的輸出結(jié)果加以整合形成最終的輸出。

加權(quán)式混合方法式眾多混合方法中最易設(shè)計(jì)出混合推薦系統(tǒng)的一種方法,它是將系統(tǒng)中不同的推薦算法所生成的物品評(píng)分、物品排序等推薦結(jié)果進(jìn)行線性的加權(quán)組合,生成最終的推薦結(jié)果。加權(quán)式混合方法的過(guò)程分為訓(xùn)練階段、生成候選物品階段和生成評(píng)分階段。在訓(xùn)練階段,各推薦算法使用相同的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,直到能為測(cè)試用戶提供候選物品的程度為止,之后進(jìn)入到生成候選物品階段。在生成候選物品階段,各推薦算法對(duì)同一用戶畫像進(jìn)行候選物品的生成。需要注意的是,各推薦算法所能覆蓋的物品范圍是有差異的,例如,CF推薦算法只能覆蓋到已評(píng)分的物品,而CB類推薦算法可以覆蓋到任何物品,在確定候選物品的范圍時(shí)就要考慮到這一情況。在本階段的最后,各推薦算法生成的候選物品一般要通過(guò)并集或交集的形式來(lái)結(jié)合。在生成評(píng)分階段,各推薦算法對(duì)上一階段生成的候選物品集中每一個(gè)候選物品進(jìn)行評(píng)分,系統(tǒng)再按照一定的加權(quán)方式(權(quán)重分配)將同一物品的各方評(píng)分綜合為一個(gè)最終的分?jǐn)?shù),并按此分?jǐn)?shù)對(duì)候選物品排序作為輸出。

使用加權(quán)式混合方法的好處在于可以將系統(tǒng)的全部性能以最直接的方式應(yīng)用在推薦過(guò)程中,而且在后期可以很容易對(duì)系統(tǒng)中的各推薦算法的權(quán)重分配進(jìn)行調(diào)整。但需要注意的是,使用加權(quán)混合方法的一個(gè)隱含 假設(shè)是系統(tǒng)中各推薦算法在用戶和物品范圍上的性能應(yīng)該在一定程度上是統(tǒng)一的。很顯然CF類推薦算法在較新物品上的覆蓋能力很弱,將之與CB類推薦算法進(jìn)行混合時(shí)就需要對(duì)它們的候選物品空間做調(diào)整,這其實(shí)是犧牲了一部分CB類推薦算法的優(yōu)勢(shì)。

2.切換式混合方法是指系統(tǒng)會(huì)根據(jù)推薦時(shí)的具體情況在以上各種推薦算法中做切換,選擇一種最適合的推薦算法,這種方法考慮到了不同的推薦算法對(duì)用戶和物品范圍的覆蓋能力,對(duì)于不同的用戶畫像,系統(tǒng)會(huì)選擇出不同的推薦算法來(lái)匹配。

切換式混合方法的過(guò)程分為訓(xùn)練階段、算法選擇階段、生成候選物品階段和生成評(píng)分階段。

在訓(xùn)練階段,各推薦算法使用相同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,以達(dá)到能為測(cè)試用戶提供候選物品的程度,之后進(jìn)入算法選擇階段。在算法選擇階段,算法切換標(biāo)準(zhǔn)的定義是非常重要的環(huán)節(jié),此后系統(tǒng)會(huì)依據(jù)算法切換的標(biāo)準(zhǔn),選擇出最適合當(dāng)前推薦情景的算法,一旦某一種算法被選中,則該算法將單獨(dú)進(jìn)入之后的生成候選物品階段和生成評(píng)分階段中。

切換式混合方法由于要考慮算法切換所依據(jù)的標(biāo)準(zhǔn),所以增加了推薦過(guò)程的復(fù)雜度。另一方面,切換式混合方法考慮各推薦算法所能作用的用戶范圍,使用切換式混合方法的系統(tǒng)能對(duì)其中各推薦算法的優(yōu)勢(shì)與劣勢(shì)保持很好的敏感性,這是切換式混合方法的顯著優(yōu)點(diǎn)。

混雜式

由于用戶對(duì)物品的著眼點(diǎn)不同,而推薦算法所生成的推薦結(jié)果往往是代表各自的觀察角度的,所以單一的推薦結(jié)果并不能滿足各類人群的需求。為了保證最終的推薦結(jié)果能具有多樣性,就可以使用混雜式方法將多種推薦算法的推薦結(jié)果按照一定的配比加以組合,同時(shí)呈現(xiàn)給用戶。整個(gè)混合過(guò)程分為訓(xùn)練階段、生成候選物品階段和生成評(píng)分階段。

在訓(xùn)練階段,各推薦算法使用相同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,以達(dá)到能為測(cè)試用戶提供候選物品的程度,之后進(jìn)入生成候選物品階段,在生成候選物品階段和生成評(píng)分階段,各推薦算法根據(jù)同一用戶畫像分別生成候選物品集,并對(duì)這些候選物品集種的候選物品進(jìn)行排序,最后系統(tǒng)將各推薦算法的排序結(jié)果綜合呈現(xiàn)出來(lái)。

整體式混合

整體式混合方法包括特征組合、特征補(bǔ)充,他們的共同點(diǎn)是通過(guò)對(duì)主推薦算法的輸入數(shù)據(jù)進(jìn)行預(yù)先處理,擴(kuò)展了主推薦算法可以利用的信息源數(shù)目,將多種推薦算法的特性整合到一起,實(shí)現(xiàn)推薦系統(tǒng)性能的提升。

1.特征組合? 單一類型的推薦系統(tǒng)所能利用的信息源是有限的,如單純的CF類推薦算法無(wú)法利用到物品畫像這一CB類推薦算法所能利用的信息源。從信息源的擴(kuò)展利用這一角度出發(fā),在推薦系統(tǒng)內(nèi)部加入?yún)^(qū)別于主推薦算法的輔推薦算法,特征組合式混合方法先借助輔推薦算法啊從附加信息源種提取出附加特征,再將這些附加特征屬入基于其他信息源的主推薦算法中,使得主推薦算法能夠使用到附加信息源的數(shù)據(jù),增強(qiáng)了算法的推薦性能。(輔推薦算法中的不足,在主推薦算法中完全避開了)。

2.特征補(bǔ)充

特征補(bǔ)充式混合方法是先通過(guò)輔推薦算法對(duì)物品進(jìn)行評(píng)分或分類,再將這些信息輸入下一階段的主推薦算法中,使得主推薦算法所能利用的數(shù)據(jù)被補(bǔ)充的更為豐富。他的優(yōu)點(diǎn)是,無(wú)須對(duì)主推薦算法做修改,而是通過(guò)優(yōu)化輸入數(shù)據(jù)來(lái)加強(qiáng)主推薦算法的性能的,且設(shè)計(jì)基于特征補(bǔ)充式混合方法的推薦系統(tǒng)更加容易實(shí)現(xiàn),另外,在特征組合式混合方法中,主推薦算法需要處理由輔推薦算法提供的大量高維數(shù)據(jù),其本質(zhì)是對(duì)雙方提取的特征進(jìn)行組合,而在特征補(bǔ)充式混合方法中,只有小規(guī)模的特征會(huì)被添加到主推薦算法的輸入中,,其本質(zhì)是對(duì)主推薦算法提取的特征進(jìn)行補(bǔ)充。

流水線式混合

共同點(diǎn)是將各推薦算法按照一定次序依次運(yùn)行,達(dá)到對(duì)推薦結(jié)果逐步優(yōu)化的目的。

1.層疊式

當(dāng)系統(tǒng)中的主推薦算法產(chǎn)生了一些難以區(qū)分排名先后的推薦結(jié)果時(shí),就可以在其后加入次級(jí)推薦算法來(lái)針對(duì)上一階段的粗糙排序做出更為精細(xì)的排序,這就是層疊式混合方法。

2.級(jí)聯(lián)式

級(jí)聯(lián)式混合方法與特征補(bǔ)充式混合方法有類似的架構(gòu),但這兩種方法中由輔推薦算法輸入主推薦算法中的數(shù)據(jù)類型非常不同,特征補(bǔ)充式混合方法是把輔推薦算法的整個(gè)學(xué)習(xí)模型作為主推薦算法的輸入數(shù)據(jù)而級(jí)聯(lián)式混合方法是把輔推薦算法的整個(gè)學(xué)習(xí)模型作為主推薦算法的輸入數(shù)據(jù),它是系統(tǒng)首先使用CB類推薦算法學(xué)習(xí)出可以表示用戶畫像的模型,然后CF類推薦算法利用這些信息稠密的模型達(dá)到最佳的推薦性能,其效果要比直接利用粗糙的評(píng)分?jǐn)?shù)據(jù)好很多。

視頻推薦評(píng)測(cè)

每年針對(duì)視頻推薦都有大量論文發(fā)表。

面對(duì)眾多的視頻推薦算法,如何評(píng)價(jià)這些推薦算法的優(yōu)劣目前并沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。

接下來(lái)說(shuō)的不但有助于大家客觀評(píng)價(jià)一個(gè)視頻推薦算法的好壞,更有益的作用是,可以根據(jù)這些評(píng)測(cè)方法來(lái)指導(dǎo)視頻推薦算法的改進(jìn),從而得到更好的推薦結(jié)果。

一般來(lái)說(shuō),推薦系統(tǒng)評(píng)測(cè)主要考慮試驗(yàn)方法和評(píng)測(cè)指標(biāo)兩個(gè)方面。試驗(yàn)方法是指哪些數(shù)據(jù)去對(duì)一個(gè)待評(píng)測(cè)的推薦算法進(jìn)行評(píng)價(jià);測(cè)量指標(biāo)是指用待評(píng)測(cè)算法的哪些指標(biāo)進(jìn)行比較,從而衡量哪個(gè)算法的性能更優(yōu)異。

推薦系統(tǒng)評(píng)測(cè)的試驗(yàn)方法可分為用戶調(diào)查、在線評(píng)測(cè)和離線評(píng)測(cè)三種方式

用戶問(wèn)卷只調(diào)查用戶對(duì)于推薦結(jié)果的滿意度。

在線評(píng)測(cè)就是設(shè)計(jì)在線用戶試驗(yàn),根據(jù)用戶在線反饋來(lái)衡量推薦系統(tǒng)的表現(xiàn),這種在線測(cè)試方法雖然可以直觀的得到用戶對(duì)系統(tǒng)的滿意度等指標(biāo),但是從設(shè)計(jì)試驗(yàn)到施行試驗(yàn)整個(gè)過(guò)程所需的高額成本卻是一般的科研工作者都無(wú)法負(fù)擔(dān)的,所以這種測(cè)評(píng)方法一般用于商用視頻推薦算法產(chǎn)品的測(cè)試,并不常見(jiàn)于科研工作中。

離線評(píng)測(cè)根據(jù)待評(píng)價(jià)的推薦系統(tǒng)在試驗(yàn)數(shù)據(jù)集上的表現(xiàn)來(lái)衡量推薦系統(tǒng)的質(zhì)量,相對(duì)于在線評(píng)測(cè),離線評(píng)測(cè)方法更方便經(jīng)濟(jì),一旦數(shù)據(jù)集選定,只需要將待評(píng)測(cè)的推薦系統(tǒng)在此數(shù)據(jù)集上運(yùn)行即可,在目前的研究工作中離線評(píng)價(jià)方式仍是科研工作人員的首選。

推薦系統(tǒng)常用的評(píng)測(cè)指標(biāo)是準(zhǔn)確度指標(biāo),它用于衡量該算法能夠多準(zhǔn)確的預(yù)測(cè)用戶對(duì)視頻的喜歡程度。準(zhǔn)確度指標(biāo)又有多種衡量方式,有的比較視頻預(yù)測(cè)評(píng)分和真實(shí)評(píng)分的絕對(duì)差值,有的衡量視頻預(yù)測(cè)評(píng)分和真實(shí)評(píng)分的相關(guān)性,有的不考慮具體評(píng)分,只考慮排名是否正確,除了這些準(zhǔn)確度指標(biāo)外,還需要從其他指標(biāo)方面衡量一個(gè)視頻推薦系統(tǒng)的好壞,比如準(zhǔn)確度指標(biāo)達(dá)到要求以后,所推薦的視頻是否最大范圍的覆蓋了系統(tǒng)中盡可能多種類的視頻?是否能夠滿足不同用戶的個(gè)性化需求?

視頻推薦試驗(yàn)方法:

在推薦測(cè)評(píng)系統(tǒng)中,從運(yùn)營(yíng)層面來(lái)說(shuō),一個(gè)用于商用的推薦算法從算法優(yōu)化到最終上線的不同階段,用到的試驗(yàn)方法也不盡相同,比如算法優(yōu)化階段,更多的是用離線測(cè)評(píng)的方法,使用大量的歷史數(shù)據(jù)評(píng)價(jià)推薦算法的預(yù)測(cè)準(zhǔn)確度等指標(biāo);上線前期,有些公司可能會(huì)將線上系統(tǒng)部署兩套,其中一套運(yùn)行的是原有推薦算法,另一套運(yùn)行的是優(yōu)化后的推薦算法,根據(jù)一段時(shí)間內(nèi)這兩套系統(tǒng)的單擊率等指標(biāo)評(píng)價(jià)推薦算法優(yōu)劣;為了準(zhǔn)確獲得用戶滿意度,有些公司還會(huì)在算法上線之后的一段時(shí)間內(nèi),通過(guò)問(wèn)卷調(diào)查的形式采集用戶滿意度數(shù)據(jù),從而對(duì)推薦算法有個(gè)全面的評(píng)價(jià)。

在線測(cè)評(píng)

就是通過(guò)預(yù)定規(guī)則把真實(shí)線上用戶分成幾組,對(duì)不同組的用戶采用不同的方案,通過(guò)用戶的反饋或行為表現(xiàn)比較方案的優(yōu)劣。目前最常見(jiàn)的在線評(píng)測(cè)試驗(yàn)方法是A/B測(cè)試,即針對(duì)同一個(gè)推薦目標(biāo),給出兩套算法方案A和B,讓一部分用戶使用方案A,另一部分使用方案B,再通過(guò)用戶的行為日志分析比較兩套推薦算法的優(yōu)劣。A/B測(cè)試的宗旨是:1.同時(shí)運(yùn)行兩個(gè)或兩個(gè)以上方案;

2.兩個(gè)方案只有一個(gè)變量不同,其他條件均相同。

3.有明確的評(píng)價(jià)指標(biāo)用于評(píng)價(jià)兩套方案的優(yōu)劣;

4.試驗(yàn)過(guò)程中,同一個(gè)用戶從始至終都應(yīng)該只接觸一個(gè)方案。

說(shuō)明,雖然實(shí)驗(yàn)名字是A/B試驗(yàn),但是它并不局限于比較兩種方案,也可以并行比較多種方案,只要這些方案滿足上述宗旨條件即可。A/B測(cè)試最常用的場(chǎng)景是網(wǎng)頁(yè)優(yōu)化,此時(shí)的評(píng)價(jià)指標(biāo)是網(wǎng)頁(yè)應(yīng)用的單擊率、轉(zhuǎn)化率等網(wǎng)頁(yè)指標(biāo)。

Youtube也曾經(jīng)用A/B測(cè)試的方法驗(yàn)證其視頻推薦算法的推薦準(zhǔn)確度,其評(píng)價(jià)指標(biāo)包括單擊率、長(zhǎng)單擊率(即只有最終引領(lǐng)用戶進(jìn)入視頻觀看單擊才算做有效單擊)、會(huì)話時(shí)間長(zhǎng)短、觀影前時(shí)段(即從進(jìn)入網(wǎng)站到進(jìn)入穩(wěn)定觀看狀態(tài)之間所用的時(shí)間)、覆蓋率等。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容