關(guān)于智能推薦的6個小經(jīng)驗,你值得擁有!

智能推薦系統(tǒng)并不神秘,我們網(wǎng)上購物,經(jīng)常出現(xiàn)“為你推薦,或是相關(guān)聯(lián)組合搭配”的商品,可以說智能推薦就在我們周邊,它的出現(xiàn)也更好地實現(xiàn)個性化服務(wù)。亞馬遜的CEOJeffBezos曾經(jīng)說過,他的夢想是“如果我有100萬個用戶,我就要為他們做100萬個亞馬遜網(wǎng)站”。可見智能推薦系統(tǒng)的重要性,它通過機器學(xué)習(xí)、數(shù)據(jù)挖掘、搜索引擎等技術(shù),開發(fā)良好的推薦系統(tǒng),但如何做好這些達(dá)到更優(yōu)的效果呢?我們大圣眾包(www.dashengzb.cn)小編為大家整理來自于盛大智能推薦團(tuán)隊負(fù)責(zé)人陳運文的一些經(jīng)驗總結(jié)!

1、充分運用顯式隱式反饋數(shù)據(jù)

數(shù)據(jù)是一切推薦系統(tǒng)的基礎(chǔ)。良好的推薦效果一定是來自于豐富而準(zhǔn)確的數(shù)據(jù)。這些數(shù)據(jù)既包括了用戶(user)和待推薦物品(item)相關(guān)的基礎(chǔ)信息(注:item和具體的推薦場景相關(guān),可以是商品、影片、音樂、新聞等,如果是進(jìn)行好友推薦,那么item也可以是user本身),另一方面,user和item之間在網(wǎng)站或應(yīng)用中發(fā)生的用戶行為和關(guān)系數(shù)據(jù)也非常重要。因為這些用戶行為和關(guān)系數(shù)據(jù)能真實的反映每個用戶的偏好和習(xí)慣。采集這些基礎(chǔ)數(shù)據(jù),并做好清洗和預(yù)處理,是整個推薦系統(tǒng)的基石。

用戶行為數(shù)據(jù),又可細(xì)分為兩部分:顯式反饋數(shù)據(jù)(explicitfeedbacks)和隱式反饋(implicitfeedbacks)數(shù)據(jù)。顯式反饋是指能明確表達(dá)用戶好惡的行為數(shù)據(jù),例如用戶對某商品的購買、收-藏、評分等數(shù)據(jù)。與之相反,隱式反饋數(shù)據(jù)是指無法直接體現(xiàn)用戶偏好的行為,例如用戶在網(wǎng)站中的點擊、瀏覽、停留、跳轉(zhuǎn)、關(guān)閉等行為。通過挖掘顯式反饋數(shù)據(jù)能明確把握用戶的偏好,但在很多應(yīng)用中,顯式反饋數(shù)據(jù)通常很稀疏,導(dǎo)致對用戶偏好的挖掘無法深入。這個問題在一些剛上線的應(yīng)用、或者偏冷門的物品或用戶身上反映尤其明顯。在這種情況下,用戶的隱式反饋數(shù)據(jù)就顯得尤為重要。因為雖然用戶在網(wǎng)站中的點擊等行為很龐雜,但其中蘊藏了大量信息。在2006-2008年間進(jìn)行的國際著名推薦競賽NetflixPrize中,冠軍隊成員YehudaKoren發(fā)現(xiàn)將用戶租用影片的記錄,轉(zhuǎn)換為特征向量注入奇異值分解算法(SVD)用于影響用戶興趣向量,能夠很好的提高推薦準(zhǔn)確率。

基礎(chǔ)數(shù)據(jù)的預(yù)處理對推薦效果的提升也非常有幫助。以2012年的ACMKDD-Cup(國際數(shù)據(jù)挖掘競賽)為例,訓(xùn)練樣本中,負(fù)樣本的數(shù)量居然達(dá)到了總樣本數(shù)量的92.82%,但是通過仔細(xì)分析這些負(fù)樣本,發(fā)現(xiàn)其中有大量樣本存在噪音,通過一系列的Session分析和篩選方法,從中保留了11.2%的樣本進(jìn)行后續(xù)推薦挖掘,不僅成功提高了推薦精度,而且大大減少了運算量。所以充分利用各類顯式和隱式數(shù)據(jù),并做好數(shù)據(jù)的預(yù)處理,保證輸入數(shù)據(jù)的質(zhì)量,是第一個關(guān)鍵點。

2、重視時間因素

用戶的行為是存在很強的時間規(guī)律的。例如通常人們中午會吃飯、周末會休假、過年會回家團(tuán)圓等等。用戶在各個應(yīng)用中的行為也同樣有規(guī)律可以挖掘,用好時間這個特征,在很多推薦場景下,會對推薦效果的提升有很大的幫助。

用戶行為日志中,行為發(fā)生的時間戳(timestamp)通常都會被記錄。這個時間戳能從user和item兩方面來進(jìn)行分析。從user的角度來看:user的興趣往往會隨著時間不斷變化,幾年前的興趣和當(dāng)前的興趣可能是不同的;另一方面,user的行為也存在一定的規(guī)律,例如工作日的行為是類似的,而在周末里user的行為也會變化,甚至在同一天中,上午和晚上的user行為和偏好也會有各種不同的規(guī)律。

從item的角度來看,流行度隨著時間會有規(guī)律性的波動,通過持續(xù)挖掘user與item之間的行為在一段時間內(nèi)的記錄,往往能夠發(fā)掘出這種規(guī)律,并進(jìn)而用于指導(dǎo)我們預(yù)測user在后續(xù)某個時刻的行為,提高推薦的準(zhǔn)確率。

時間因素的一些常見處理方案包括:1)在協(xié)同過濾計算user或者item相似度的公式中,增加時間因子,發(fā)揮相近時間的作用;2)將時間離散映射到自然月、周、日、小時等時間片中,并分別進(jìn)行統(tǒng)計計算,并進(jìn)而將累積的數(shù)據(jù)用于特定的回歸模型(Regressionmodels)中,指導(dǎo)結(jié)果預(yù)測;3)將時間作為線性連續(xù)變量,用于訓(xùn)練模型參數(shù)等。

3、特定推薦場景需要使用地域特征

有一些推薦場景是和用戶所處地域密切相關(guān)的,尤其對一些LBS、O2O的應(yīng)用來說,一旦離開地域這個特征,那么智能推薦的效果根本就無從談起。例如當(dāng)需要推薦一個餐館時,如果不考慮用戶當(dāng)前所在的位置,那么即使某餐館和當(dāng)前用戶的口味匹配度非常高,但遠(yuǎn)在天邊,這個推薦也是毫無價值的。

目前推薦系統(tǒng)在地域特征的使用還停留在較為原始的狀態(tài),通常需要讓用戶手工篩選推薦結(jié)果所在的區(qū)域(如省、市、區(qū)、縣等),或者指定若干半徑范圍內(nèi)的結(jié)果。這種方式不僅操作繁瑣,而且缺乏對地域信息的細(xì)致分析。例如地點A和B的地圖直線距離雖然較遠(yuǎn),但兩點間有地鐵直接往返,而另一地點C雖然地圖直線距離A很近,但兩點間需要繞行交通不便。另外從用戶角度來說,每天活動的地域總是存在規(guī)律的,例如工作日白天,往往活動區(qū)域在工作地點附近,夜晚的時間會在家附近等。

在基于地理位置信息的應(yīng)用中,需要更聰明的挖掘用戶對地域的偏好(而且這種偏好往往和時間緊密聯(lián)系),例如在基于用戶的協(xié)同過濾中,將類似地域用戶活躍用戶的行為,作為推薦的依據(jù),即認(rèn)為活動地域相似的用戶,可能存在一定相同的偏好?;蛘呤褂没谖锲返膮f(xié)同過濾思想,在計算item之間相似度時引入地域特征。在LatentFactorModel中,將用戶的活動地域作為隱式反饋來作用于用戶特征向量等,都是可行的方案。

手機是進(jìn)行基于地域信息推薦的最好載體,隨著移動互聯(lián)網(wǎng)應(yīng)用越來越普及,期待未來有更多基于地域信息的推薦產(chǎn)品的問世。

4、SNS關(guān)系的使用

社交網(wǎng)絡(luò)近年來得到了突飛猛進(jìn)的發(fā)展,用戶不再是單純的內(nèi)容接收者,而是能夠主動的建立用戶之間的關(guān)系。這些關(guān)系,可以劃分為顯式關(guān)系(explicitrelations)和隱式關(guān)系(implicitrelations)。顯式關(guān)系指的是用戶已明確建立的相關(guān)關(guān)系,例如在微博中關(guān)注/被關(guān)注某人等,或者在社區(qū)中加為好友等。而隱式關(guān)系指用戶之間存在一些互動行為,但這些行為不能明確指示用戶間的關(guān)系。例如用戶在微博中點擊、評論、轉(zhuǎn)發(fā)另一個用戶的帖子,如果在網(wǎng)絡(luò)游戲世界中另一個玩家交談,或者PK等。隱式關(guān)系雖然并不如顯式關(guān)系那樣明確,但比顯式關(guān)系要豐富的多。所以在一些對推薦精度要求很高的應(yīng)用場景下,顯式關(guān)系需要發(fā)揮主要作用;而對一些需要提高推薦召回率和推薦結(jié)果多樣性的場景下,尤其是當(dāng)顯式關(guān)系面臨數(shù)據(jù)稀疏性的問題時(注:這個問題在推薦應(yīng)用中普遍存在),充分利用隱式關(guān)系能起到非常好的效果。以今年的KDD-Cup競賽為例,在騰訊微博的好友推薦系統(tǒng)上,我們通過在SVD++模型中增加隱式關(guān)系,處理數(shù)據(jù)稀疏性的問題,能夠?qū)⑼扑]準(zhǔn)確率提升5.5%

此外,移動互聯(lián)網(wǎng)的普及,讓SNS關(guān)系使用起來更加便捷,而且加上地域信息,產(chǎn)生了像微信這樣新穎的移動應(yīng)用,而SNS關(guān)系和地域特征的結(jié)合使用,一定會讓推薦系統(tǒng)也產(chǎn)生出更受歡迎的結(jié)果。

5、大數(shù)據(jù)挖掘和性能優(yōu)化

大數(shù)據(jù)挖掘是近年來的研究熱點,得益于分布式計算技術(shù)的廣泛使用,系統(tǒng)吞吐的數(shù)據(jù)規(guī)模越來越大,離線數(shù)據(jù)挖掘的能力也越來越強,處理大量用戶行為數(shù)據(jù)變得越來越便捷。但在推薦挖掘中,系統(tǒng)能夠提供的運算能力和實際的運算需求之間,始終存在矛盾,所以如果有效合理的分配運算資源十分重要。這里需要在挖掘深度上進(jìn)行合理的分配。對重點的用戶或者item,可以分配更多的資源,進(jìn)行更深入的挖掘。對基礎(chǔ)數(shù)據(jù)也是如此,高質(zhì)量的數(shù)據(jù)可以用于更詳細(xì)的分析,而低價值的數(shù)據(jù)可能只需要簡化處理流程。

后端的離線系統(tǒng)往往還需要定期更新模型,這里模型的全量或增量更新方式也是一個值得關(guān)注的點。以用戶模型為例,并非所有用戶的個性化模型都需要頻繁更新,活躍的、高貢獻(xiàn)值的用戶,應(yīng)該需要更頻繁的予以更新。對item也類似,熱門item和冷門item更新技術(shù)的周期可以不同。

在大數(shù)據(jù)推薦系統(tǒng)的性能優(yōu)化方面,還有一些常用的技巧,例如倒排索引的使用,cache機制的充分運用等。

6、明確優(yōu)化目標(biāo)和評估手段

開發(fā)一個初步可用的推薦系統(tǒng)并不難,難的是如何在原有推薦效果的基礎(chǔ)上精益求精,更進(jìn)一步。優(yōu)化目標(biāo)和評估手段的確定是解決這個問題的關(guān)鍵所在。首先需要確定系統(tǒng)的優(yōu)化目標(biāo)。例如有些推薦系統(tǒng)追求推薦結(jié)果的點擊率;有些則還考慮點擊后的實際轉(zhuǎn)化或成交效果;有些推薦場景更關(guān)注推薦結(jié)果的新穎性,即希望更多的將本站新收錄的物品展現(xiàn)給用戶;另一些則更重視結(jié)果的多樣性。

在推薦系統(tǒng)的目標(biāo)明確后,隨之而來的問題是,如何量化的評價這些推薦目標(biāo)?傳統(tǒng)的評分預(yù)測問題通常使用均方根誤差(RMSE)或者平均絕對誤差(MAE)等計算方法。但在實際應(yīng)用中Top-N推薦更為常見,這種場景下NDCG(NormalizedDiscountedCumulativeGain)或MAP(MeanAveragePrecision)是普遍使用的衡量方法。

由于推薦系統(tǒng)經(jīng)常借鑒相關(guān)領(lǐng)域的一些技術(shù),如廣告學(xué)或搜索系統(tǒng),因此計算廣告學(xué)中的pCTR或者搜索系統(tǒng)的Precision-Recall曲線等也經(jīng)常用于評估推薦效果的優(yōu)劣。有些系統(tǒng)甚至直接將推薦系統(tǒng)轉(zhuǎn)化為一個機器學(xué)習(xí)問題,評估手段也隨之轉(zhuǎn)化為對應(yīng)問題的方法。

實際系統(tǒng)中,往往是多個指標(biāo)(點擊率、準(zhǔn)確率、覆蓋率、多樣性、新穎性等)共同作用,并且按照產(chǎn)品的實際需求,加權(quán)折衷后進(jìn)行結(jié)果評測。測試方法也有線上A/BTesting以及人工評測等。無論采用何種方法,一個成熟的推薦系統(tǒng)一定要建立在明確的優(yōu)化目標(biāo)和評測系統(tǒng)之上,它們像一把尺子,丈量著推薦系統(tǒng)每次前進(jìn)的腳步。

以前我們習(xí)慣了千人一面,如今我們喜歡千人千面,智能系統(tǒng)的出現(xiàn)正是基于“千人千面”的環(huán)境下,通過數(shù)據(jù)、算法、架構(gòu)等等技術(shù)手段,把用戶的行為特點與自身的推薦產(chǎn)品結(jié)合,更智能、更人性、更實用服務(wù)于我們用戶!

(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書,可添加大圣花花個人微信號(dashenghuaer))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容