前些日子聽了 @kevin 同學(xué)的知乎 live《了解信息流產(chǎn)品和內(nèi)容推薦算法》,很有收獲(可以在外行前裝一裝了 ??)。鑒于兩小時的 live 信息量很大,就做了份筆記,把其中最有價值的部分做成了圖解,應(yīng)該算得上是「干貨」了。
不過, 5 分鐘能讀完的小文,到底只是走馬觀花而已。倘若讀完真的感興趣,還是建議去聽 live,畢竟就其內(nèi)容質(zhì)量而言,9.99 元是真的值。
什么是信息流產(chǎn)品

每個使用新聞客戶端的用戶,都多少接觸過的信息流這種產(chǎn)品形態(tài)。它有以下諸多特點:
- 海量信息,能源源不斷地刷出新的、實時的內(nèi)容
- 能在合適的場景下,為用戶提供合適的內(nèi)容
- 強用戶黏性、長使用時長,利于廣告曝光創(chuàng)造營收
如何推薦內(nèi)容
信息流的內(nèi)容并不是純靠算法推薦,人工運營也是其中的重要部份。實際上,人工和算法各有所長——人工運營更長于新聞價值的判斷(尤其是「情感判斷」),以及對熱點的預(yù)測,對突發(fā)事件的響應(yīng);而算法,運用在個性化匹配、冷門的長尾內(nèi)容推薦上,則更適合。
一個算法實現(xiàn)的內(nèi)容推薦基本框架,理論上可以抽象成下圖。

落實到具體實現(xiàn),這里是魅族 新聞資訊 的一個實際案例。

如何評估推薦質(zhì)量
一個信息流產(chǎn)品,不會僅僅使用一種算法模型,通常會進行分流。占大比重的是經(jīng)過驗證的穩(wěn)定模型,同時,會有多個占小比重的實驗?zāi)P汀?/p>
要評估這些實驗算法模型的效果,采用的評測指標(biāo)主要為以下三項:
- 準(zhǔn)確率:推薦列表里,多少比例的文章,是用戶讀過的
- 召回率:推薦列表中,用戶讀過的文章,占用戶閱讀記錄的比例
- 覆蓋率:推薦列表里的文章,占文章庫總數(shù)的比例
舉例來說,文章總量為 100,用戶實際看了 10 篇文章。最終實驗?zāi)P屯扑]了20篇文章,用戶看過的有 8 篇。準(zhǔn)確率為 40%,召回率為 80%,覆蓋率為 20%。
除此以外,還需關(guān)注的核心業(yè)務(wù)指標(biāo):
- UV 轉(zhuǎn)化率:閱讀 UV / 曝光 UV,反映多少比例的曝光用戶轉(zhuǎn)化為閱讀用戶
- PV 轉(zhuǎn)化率:閱讀 PV / 曝光 PV,反映文章的平均轉(zhuǎn)化情況
- 人均篇數(shù):閱讀 PV / 閱讀 UV,反映內(nèi)容消費深度
- 人均閱讀時長:閱讀總時長 / 閱讀 UV,反映內(nèi)容消費深度
為什么要看多個指標(biāo),不能只關(guān)注點擊率呢?是因為一味追求點擊率,會鼓勵「標(biāo)題黨」,導(dǎo)致用戶文章閱讀完成度降低,最終影響產(chǎn)品調(diào)性,造成深度用戶流失。
影響推薦效果的因素
影響信息流推薦效果的因素,并不僅僅只有算法模型。事實上,由于自建模型的難度很高,造成差異的往往是算法外的因素。
首先,強大的內(nèi)容庫是一個信息流產(chǎn)品的基礎(chǔ)。內(nèi)容的多樣性、數(shù)量、質(zhì)量、時效如果得不到保障,推薦效果根本無從談起。譬如,今日頭條、網(wǎng)易新聞這種量級的產(chǎn)品,內(nèi)容每日入庫量至少超過 500k,可推薦集要超過 200k。
其次,一些交互細節(jié)及業(yè)務(wù)參數(shù)的調(diào)優(yōu),也會對最終的效果產(chǎn)生非常大的影響。

另外,數(shù)據(jù)上報會極大影響推薦準(zhǔn)確度和策略選擇。而且通常也是埋坑及填坑最大的地方,需要產(chǎn)品對上報時機、閾值、去重、內(nèi)容做規(guī)范。此外,冷啟動策略、如何防止用戶畫像固化造成的「瓶頸效應(yīng)」,等等,都會最終影響推薦效果。
用戶畫像體系
用戶畫像是內(nèi)容推薦重要的參考體系,通常是對用戶主動行為、推送刺激產(chǎn)生的數(shù)據(jù)進行挖掘后生成的。

上圖是魅族新聞資訊的一個用戶畫像實例,其中:
- 更新頻率:一級類目的制定,不會輕易改變,否則對算法效果影響很大,一般每周更新;而二級類目、標(biāo)簽幾乎實時更新
- 準(zhǔn)確性驗證:用推送來驗證畫像準(zhǔn)確性時,如果畫像較為準(zhǔn)確,推送的點擊率一般在 20% 以上
- 負反饋、搜索:這兩種行為數(shù)據(jù)雖然較少,但對畫像的準(zhǔn)確性影響很大
相關(guān)領(lǐng)域 & 如何入門
信息流產(chǎn)品涉及領(lǐng)域非常多,包括內(nèi)容庫、用戶畫像、短視頻、搜索、信息流廣告,等等。而且每個領(lǐng)域都有很多值得深挖的內(nèi)容,非常鍛煉產(chǎn)品能力。
如果想要入門信息流領(lǐng)域,內(nèi)容運營是一個非常好的切入口——可以研究現(xiàn)有自媒體平臺,深入探索它的下發(fā)策略、管理后臺、數(shù)據(jù)統(tǒng)計。最后,是幾本參考書籍推薦,能讓產(chǎn)品對系統(tǒng)的理解能力成倍提升:《推薦系統(tǒng)實踐》《這就是搜索引擎》《計算廣告》。