1、CF簡介
推薦系統(tǒng)的目標是根據(jù)用戶的個性化需求將最符合用戶興趣的信息/商品/音樂/視頻挑選出來并且推薦給用戶。
協(xié)同過濾(collaborative filtering)是推薦系統(tǒng)所采用的最為重要的技術之一,其原理是根據(jù)相似用戶的興趣來推薦當前用戶沒有看過但是很可能會感興趣的信息,所基于的假設是,如果兩個用戶興趣類似,那么很有可能當前用戶會喜歡另一個用戶所喜歡的內(nèi)容.

-why CF
CF的優(yōu)勢在于不受被推薦的物品的具體內(nèi)容的限制、與社會網(wǎng)絡的緊密結合以及推薦的準確性.
- CF原理
協(xié)同過濾一般是在海量的用戶中發(fā)掘出一小部分和你品位比較類似的,在協(xié)同過濾中,這些用戶成為鄰居,然后根據(jù)他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。
-User-Based CF
如果你和小明對于音樂的品位相似,假如小明喜歡聽Adele,那么你也有可能喜歡聽。好了,問題來了:1)如何衡量兩個用戶是否相似?2)如何根據(jù)相似用戶推薦物品?
-Item-Based CF
基于物品的推薦思路是:根據(jù)你評價過的物品,找出與其相似的物品。加入小明喜歡聽Adele,Adele和L.a有相同的音樂風格,那么小明也有可能喜歡聽L.a。這里類比問題:1)如何衡量兩個歌手是否相似?2)如何根據(jù)相似的歌手給用戶推薦物品?
相似度計算請參見:《文本相似度算法調(diào)研簡介》
-基于內(nèi)容的推薦
基于內(nèi)容相似度的推薦,顧名思義,把與你喜歡看的新聞內(nèi)容相似新聞推薦給你
1)無冷啟動問題,只要用戶產(chǎn)生了初始的歷史數(shù)據(jù),就可以開始進行推薦的計算
2)隨著用戶的瀏覽記錄數(shù)據(jù)的增加,這種推薦一般也會越來越準確。
--基于CF的推薦
1)能夠過濾機器難以自動內(nèi)容分析的信息,如藝術品,音樂等。
2)共用其他人的經(jīng)驗,避免了內(nèi)容分析的不完全或不精確,并且能夠基于一些復雜的,難以表述的概念(如信息質(zhì)量、個人品味)進行過濾。
3)有推薦新信息的能力。可以發(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對推薦信息的內(nèi)容事先是預料不到的??梢园l(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。
4)推薦個性化、自動化程度高、能夠有效的利用其他相似用戶的回饋信息、加快個性化學習的速度。
5)系統(tǒng)開始時推薦質(zhì)量較差;
6)質(zhì)量取決于歷史數(shù)據(jù)集;
2、基于CF的攻擊
1)隨機攻擊
向系統(tǒng)中注入隨機數(shù)值,從而達到對推薦系統(tǒng)的干擾的目的。比如,隨機給全部item隨機評分。
2)均值攻擊
在隨機攻擊的基礎之上,利用評分均值,構造更加“像”的注入數(shù)據(jù)。還以評分為例,以平均值為參數(shù),做正態(tài)分布的評分,將評分按特定方向刷分。
3)造勢攻擊
比均值攻擊更加高明的地方在于,除了有對目標物品的高評分(或者低平分)之外,還包含了很多熱門物品的高評分,這樣的目的在于:很多用戶的使用記錄也包含了這些熱門物品,注入的數(shù)據(jù)更容易和用戶形成“近鄰”關系,從而更容易被推薦系統(tǒng)采用,更容易影響到最終的用戶。
4)局部攻擊
比造勢攻擊更加高明的地方在于,局部攻擊能夠識別出特定的用戶群體,并據(jù)此發(fā)生攻擊。
5)針對性的打壓攻擊
與抬高某個物品的評分的目的不同,打壓攻擊是為了要降低某個物品的評分。方法就是上面的方法,反其道而行之。通常,打壓攻擊更加容易得手——學術界還沒有解釋出為什么會存在這種不對稱性。
6) 點擊流攻擊和隱式反饋
手段是模擬用戶在網(wǎng)頁上的操作,來達到注入數(shù)據(jù)的目的。
下章針對推薦系統(tǒng)的弱點,如何完成反作弊系統(tǒng)設計,請關注作者。