今日頭條:成也算法,敗也算法

今日頭條首席算法架構(gòu)師曹歡歡

打開今日頭條,我們看到的是滿屏的新聞資訊。從內(nèi)容上看,今日頭條很像其他新聞客戶端;從功能上看,今日頭條又特別像互聯(lián)網(wǎng)媒體。但在今日頭條CEO張一鳴眼中,今日頭條卻是一款個(gè)性化推薦引擎產(chǎn)品。

百度是專注信息搜索的大引擎,今日頭條是專注信息推薦的垂直引擎。從這個(gè)角度講,今日頭條跟百度十分相似。曾經(jīng)百度新聞也是靠機(jī)器算法來(lái)篩選新聞,但后來(lái)被今日頭條甩出幾條街。

個(gè)性化推薦算法

今日頭條由張一鳴于2012年3月創(chuàng)建,在不到四年的時(shí)間里便輕松超過包括百度新聞在內(nèi)的其他新聞客戶端,一躍成為互聯(lián)網(wǎng)媒體的后起之秀。今天頭條的成功崛起,主要得益于背后的個(gè)性化推薦算法。

在張一鳴看來(lái),算法是今日頭條的核心。

今日頭條沒有任何采編人員,本身不生產(chǎn)任何內(nèi)容,完全靠機(jī)器算法來(lái)運(yùn)轉(zhuǎn)。今日頭條搭建的算法模型會(huì)記錄注冊(cè)用戶的每一次閱讀行為,并基于此計(jì)算用戶的喜好,推送用戶可能感興趣的內(nèi)容。

當(dāng)用戶使用微博、QQ等社交賬號(hào)登陸今日頭條時(shí),它也能在5秒鐘內(nèi)通過算法解讀使用者的興趣DNA,用戶每次動(dòng)作后,10秒更新用戶模型,越用越懂用戶,從而進(jìn)行精準(zhǔn)的閱讀內(nèi)容推薦。

正是由于這套算法,使得今日頭條在短短兩年多的時(shí)間內(nèi)便擁有了2.2億用戶,每天有超過2000萬(wàn)用戶在今日頭條上閱讀自己感興趣的文章。

基于用戶投票和標(biāo)簽實(shí)現(xiàn)個(gè)性化推薦

基于精心設(shè)計(jì)的機(jī)器學(xué)習(xí)引擎和大數(shù)據(jù)處理架構(gòu),今日頭條能實(shí)現(xiàn)特定用戶的個(gè)性化推薦。據(jù)官方描述,今日頭條可以在0.1秒內(nèi)計(jì)算出推薦結(jié)果,3秒完成文章提取、挖掘、消重、分類,5秒計(jì)算出新用戶興趣分配,10秒內(nèi)更新用戶模型。

算法聽起來(lái)很厲害,但基本原理很簡(jiǎn)單。其核心理念就是投票,每個(gè)用戶一票,喜歡哪一篇文章就把票投給這篇文章,經(jīng)過統(tǒng)計(jì),最后得到結(jié)果很可能是在這個(gè)人群下最好的文章,并把這篇文章推薦給同人群用戶。實(shí)際上個(gè)性化推薦并不是機(jī)器給用戶推薦,而是用戶之間在互相推薦,看起來(lái)似乎很簡(jiǎn)單,但實(shí)際上這需要基于海量的用戶行為數(shù)據(jù)挖掘與分析。

具體而言,今日頭條會(huì)給每位用戶打上各種標(biāo)簽,比如科技、小米、足球、NBA等。當(dāng)文章包含標(biāo)簽關(guān)鍵詞時(shí),系統(tǒng)會(huì)自動(dòng)推薦給具有這些標(biāo)簽的用戶,即實(shí)現(xiàn)所謂的個(gè)性化推薦。個(gè)性化推薦其實(shí)就是不斷匹配標(biāo)簽的過程,只是實(shí)現(xiàn)過程比較復(fù)雜而已。

真正關(guān)心的內(nèi)容上不了頭條

雖然今日頭條的個(gè)性化推薦算法實(shí)現(xiàn)了海量用戶的精準(zhǔn)送達(dá),但因流量至上帶來(lái)的低俗化也飽受社會(huì)質(zhì)疑。

在今日頭條網(wǎng)站,排在首頁(yè)的內(nèi)容很大一部分是娛樂八卦和負(fù)面的社會(huì)新聞。該類內(nèi)容吸引讀者,流量大,可以理解,但這并不代表用戶真正關(guān)心的就是這些內(nèi)容。

人性中天然存在獵奇、惰性等特點(diǎn),給算法提供了可乘之機(jī)。只根據(jù)數(shù)據(jù)勘測(cè)某條資訊閱讀量、轉(zhuǎn)發(fā)量高,就粗暴地推薦給用戶,或根據(jù)用戶過往點(diǎn)擊行為,猜測(cè)喜歡看因一時(shí)好奇而點(diǎn)擊的低俗內(nèi)容,就不斷給用戶推薦類似內(nèi)容,與其說(shuō)算法跌入人性陷阱,不如說(shuō)算法利用人性弱點(diǎn)將用戶局限在信息的繭房里。

有時(shí)候,很多用戶閱讀娛樂八卦只是為了短暫的放松,并不代表用戶真正關(guān)心的內(nèi)容是娛樂八卦。有時(shí)候偶爾點(diǎn)擊一些低俗內(nèi)容,也只是一種好奇心理在作怪。單純根據(jù)用戶點(diǎn)擊來(lái)判斷用戶的興趣,其實(shí)是非常片面的,也是不合理的。正是在這種算法下,越來(lái)越多的娛樂八卦甚至低俗內(nèi)容充斥其中,許多高質(zhì)量?jī)?nèi)容則逐漸被邊緣化,最終造成媒體劣幣驅(qū)逐良幣、用戶被低俗內(nèi)容吞噬等后果。

人民日?qǐng)?bào)也曾經(jīng)發(fā)文怒懟今日頭條,直言新聞莫被算法"綁架"。

搭上所謂算法的“便車”,一些原本信息量豐富的新聞客戶端推薦的內(nèi)容越來(lái)越單一,一些原本客觀公正的內(nèi)容生產(chǎn)者變得越來(lái)越偏激,一些新聞媒體原本宏大的格局變得越來(lái)越狹小。

算法不是萬(wàn)能的

任何一種算法都有本身的局限性,今日頭條更不例外。很多時(shí)候,你沒點(diǎn)擊過的內(nèi)容可能才是你真正感興趣的內(nèi)容,但這些內(nèi)容在今日頭條上根本找不到。在沒有選擇的情況下,你只能點(diǎn)擊娛樂八卦等內(nèi)容。所以,算法也要及時(shí)做出改進(jìn),適當(dāng)推薦用戶沒點(diǎn)擊過的內(nèi)容。

此外,算法推薦和人工干預(yù)相結(jié)合也是大勢(shì)所趨。最重要的新聞不一定是點(diǎn)擊率最高的新聞,時(shí)政、財(cái)經(jīng)等嚴(yán)肅新聞需要人工進(jìn)行強(qiáng)干預(yù),以修正機(jī)器的錯(cuò)覺。在這方面,今日頭條可以學(xué)學(xué)一點(diǎn)資訊和天天快報(bào)。

成也算法,敗也算法。算法給今日頭條帶來(lái)了巨大的流量和收益,但也給今日頭條帶來(lái)了飽受質(zhì)疑的負(fù)面影響。如何抵住流量誘惑,真正贏得用戶口碑才是今日頭條目前需要真正考慮的問題。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 概述及標(biāo)簽體系搭建 1 概述 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長(zhǎng),“信息過載”問題愈來(lái)愈嚴(yán)重,愈發(fā)帶來(lái)很大...
    JinkeyAI閱讀 23,314評(píng)論 10 241
  • 2016年7月11日 周一 期末考試及批卷工作已經(jīng)全部結(jié)束了,今天上午就是班級(jí)成績(jī)匯總。下午老師放假,我去局里開保...
    魅力春天閱讀 243評(píng)論 0 1
  • 今天讀了張清平《林徽因傳》序號(hào)和第一章 這本書是對(duì)于詩(shī)人、建筑學(xué)家、一代才女林徽因一生的記錄,更是解開了她與梁思成...
    Rainbow小雪閱讀 298評(píng)論 2 1
  • 各位久等了,原本說(shuō)好的更新,奈何七月考試季·學(xué)習(xí)季雙重疊加,整個(gè)人發(fā)條上緊一直沒停,昨兒到家沒多少功夫就趴...
    小殺小殺閱讀 380評(píng)論 2 5

友情鏈接更多精彩內(nèi)容