
打開今日頭條,我們看到的是滿屏的新聞資訊。從內(nèi)容上看,今日頭條很像其他新聞客戶端;從功能上看,今日頭條又特別像互聯(lián)網(wǎng)媒體。但在今日頭條CEO張一鳴眼中,今日頭條卻是一款個(gè)性化推薦引擎產(chǎn)品。
百度是專注信息搜索的大引擎,今日頭條是專注信息推薦的垂直引擎。從這個(gè)角度講,今日頭條跟百度十分相似。曾經(jīng)百度新聞也是靠機(jī)器算法來(lái)篩選新聞,但后來(lái)被今日頭條甩出幾條街。
個(gè)性化推薦算法
今日頭條由張一鳴于2012年3月創(chuàng)建,在不到四年的時(shí)間里便輕松超過包括百度新聞在內(nèi)的其他新聞客戶端,一躍成為互聯(lián)網(wǎng)媒體的后起之秀。今天頭條的成功崛起,主要得益于背后的個(gè)性化推薦算法。
在張一鳴看來(lái),算法是今日頭條的核心。
今日頭條沒有任何采編人員,本身不生產(chǎn)任何內(nèi)容,完全靠機(jī)器算法來(lái)運(yùn)轉(zhuǎn)。今日頭條搭建的算法模型會(huì)記錄注冊(cè)用戶的每一次閱讀行為,并基于此計(jì)算用戶的喜好,推送用戶可能感興趣的內(nèi)容。
當(dāng)用戶使用微博、QQ等社交賬號(hào)登陸今日頭條時(shí),它也能在5秒鐘內(nèi)通過算法解讀使用者的興趣DNA,用戶每次動(dòng)作后,10秒更新用戶模型,越用越懂用戶,從而進(jìn)行精準(zhǔn)的閱讀內(nèi)容推薦。
正是由于這套算法,使得今日頭條在短短兩年多的時(shí)間內(nèi)便擁有了2.2億用戶,每天有超過2000萬(wàn)用戶在今日頭條上閱讀自己感興趣的文章。
基于用戶投票和標(biāo)簽實(shí)現(xiàn)個(gè)性化推薦
基于精心設(shè)計(jì)的機(jī)器學(xué)習(xí)引擎和大數(shù)據(jù)處理架構(gòu),今日頭條能實(shí)現(xiàn)特定用戶的個(gè)性化推薦。據(jù)官方描述,今日頭條可以在0.1秒內(nèi)計(jì)算出推薦結(jié)果,3秒完成文章提取、挖掘、消重、分類,5秒計(jì)算出新用戶興趣分配,10秒內(nèi)更新用戶模型。
算法聽起來(lái)很厲害,但基本原理很簡(jiǎn)單。其核心理念就是投票,每個(gè)用戶一票,喜歡哪一篇文章就把票投給這篇文章,經(jīng)過統(tǒng)計(jì),最后得到結(jié)果很可能是在這個(gè)人群下最好的文章,并把這篇文章推薦給同人群用戶。實(shí)際上個(gè)性化推薦并不是機(jī)器給用戶推薦,而是用戶之間在互相推薦,看起來(lái)似乎很簡(jiǎn)單,但實(shí)際上這需要基于海量的用戶行為數(shù)據(jù)挖掘與分析。
具體而言,今日頭條會(huì)給每位用戶打上各種標(biāo)簽,比如科技、小米、足球、NBA等。當(dāng)文章包含標(biāo)簽關(guān)鍵詞時(shí),系統(tǒng)會(huì)自動(dòng)推薦給具有這些標(biāo)簽的用戶,即實(shí)現(xiàn)所謂的個(gè)性化推薦。個(gè)性化推薦其實(shí)就是不斷匹配標(biāo)簽的過程,只是實(shí)現(xiàn)過程比較復(fù)雜而已。
真正關(guān)心的內(nèi)容上不了頭條
雖然今日頭條的個(gè)性化推薦算法實(shí)現(xiàn)了海量用戶的精準(zhǔn)送達(dá),但因流量至上帶來(lái)的低俗化也飽受社會(huì)質(zhì)疑。
在今日頭條網(wǎng)站,排在首頁(yè)的內(nèi)容很大一部分是娛樂八卦和負(fù)面的社會(huì)新聞。該類內(nèi)容吸引讀者,流量大,可以理解,但這并不代表用戶真正關(guān)心的就是這些內(nèi)容。
人性中天然存在獵奇、惰性等特點(diǎn),給算法提供了可乘之機(jī)。只根據(jù)數(shù)據(jù)勘測(cè)某條資訊閱讀量、轉(zhuǎn)發(fā)量高,就粗暴地推薦給用戶,或根據(jù)用戶過往點(diǎn)擊行為,猜測(cè)喜歡看因一時(shí)好奇而點(diǎn)擊的低俗內(nèi)容,就不斷給用戶推薦類似內(nèi)容,與其說(shuō)算法跌入人性陷阱,不如說(shuō)算法利用人性弱點(diǎn)將用戶局限在信息的繭房里。
有時(shí)候,很多用戶閱讀娛樂八卦只是為了短暫的放松,并不代表用戶真正關(guān)心的內(nèi)容是娛樂八卦。有時(shí)候偶爾點(diǎn)擊一些低俗內(nèi)容,也只是一種好奇心理在作怪。單純根據(jù)用戶點(diǎn)擊來(lái)判斷用戶的興趣,其實(shí)是非常片面的,也是不合理的。正是在這種算法下,越來(lái)越多的娛樂八卦甚至低俗內(nèi)容充斥其中,許多高質(zhì)量?jī)?nèi)容則逐漸被邊緣化,最終造成媒體劣幣驅(qū)逐良幣、用戶被低俗內(nèi)容吞噬等后果。
人民日?qǐng)?bào)也曾經(jīng)發(fā)文怒懟今日頭條,直言新聞莫被算法"綁架"。
搭上所謂算法的“便車”,一些原本信息量豐富的新聞客戶端推薦的內(nèi)容越來(lái)越單一,一些原本客觀公正的內(nèi)容生產(chǎn)者變得越來(lái)越偏激,一些新聞媒體原本宏大的格局變得越來(lái)越狹小。
算法不是萬(wàn)能的
任何一種算法都有本身的局限性,今日頭條更不例外。很多時(shí)候,你沒點(diǎn)擊過的內(nèi)容可能才是你真正感興趣的內(nèi)容,但這些內(nèi)容在今日頭條上根本找不到。在沒有選擇的情況下,你只能點(diǎn)擊娛樂八卦等內(nèi)容。所以,算法也要及時(shí)做出改進(jìn),適當(dāng)推薦用戶沒點(diǎn)擊過的內(nèi)容。
此外,算法推薦和人工干預(yù)相結(jié)合也是大勢(shì)所趨。最重要的新聞不一定是點(diǎn)擊率最高的新聞,時(shí)政、財(cái)經(jīng)等嚴(yán)肅新聞需要人工進(jìn)行強(qiáng)干預(yù),以修正機(jī)器的錯(cuò)覺。在這方面,今日頭條可以學(xué)學(xué)一點(diǎn)資訊和天天快報(bào)。
成也算法,敗也算法。算法給今日頭條帶來(lái)了巨大的流量和收益,但也給今日頭條帶來(lái)了飽受質(zhì)疑的負(fù)面影響。如何抵住流量誘惑,真正贏得用戶口碑才是今日頭條目前需要真正考慮的問題。