2021 年 1 月 5 日,簡書發(fā)布了 6.0 版本。
下面是該版本的更新日志:
6.0 版本全新上線,帶給你更好的體驗
首頁可以按分類看文章了,點擊首頁右側排序按鈕,還能自定義分類哦
你是否想要更加與眾不同?個性化的頭像框功能滿足你
修復了 Bug,增加了很多貼心小功能等你來發(fā)現(xiàn)
體驗了一圈,所謂的個性化頭像框沒找到,首頁的內(nèi)容分發(fā)變化還是比較大的。

新版本的首頁頂部增加了一個文章分類的篩選。
同時,在更新后第一次進入簡書時,可以選擇參與篩選的文章種類。

可選擇的類型還是比較豐富的,常見的大類都涵蓋在里面了。
不過這里點名批評一下設計師,下面按鈕的透明度太高了......
文章是如何被分類的?
經(jīng)過實測,我選擇的幾個大類中都只能看到一兩個月前的文章,并沒有 2021 年這幾天的文章。
隨機挑選幾篇文章進行比較,有些文章沒有被收入任何專題,但還顯示在了其中一個分類,可以排除根據(jù)專題所屬種類進行文章分類的可能。
那篩選者呢?簡書官方肯定不現(xiàn)實,沒有用那么多員工幫忙無償篩選文章。
而被篩選的文章大多有都一定閱讀量,而且都是簡書較活躍的用戶。
所以,篩選者應該是社區(qū)的核心用戶。
難道是“簡書社區(qū)守護者聯(lián)盟”?
選了幾篇文章,這些文章的作者均不是社區(qū)守護者聯(lián)盟的參與者,文章也沒有被收入推薦專題。
而在簡書最注重質(zhì)量的“文學”分類下,這種情況依舊存在。
這些文章不是人工篩選的?
簡書擁有大量的文章數(shù)據(jù),基于這些數(shù)據(jù)訓練一個模型對文章類別進行評判似乎是可行的。
只要是算法,必定有疏漏。在詩詞散文分類看了幾十篇文章后,我終于發(fā)現(xiàn)了要找的東西:

這篇文章并不應該屬于這個分類,它屬于生活隨筆,而且文章中也沒有散文內(nèi)容。
應該是算法的疏漏,審核員看到題目后面有序號,再配合幾張插圖,很容易就能判斷出這是生活隨筆。
那我們就可以確定,文章就是機器算法分類的。
這樣,文章時效性的問題就可以解釋了:服務器資源有限,為了進行測試,只選取了一部分 2020 年的文章進行算法分類,后期會逐漸補全新文章。
打開簡書的埋點分析功能后,果然看到了相關的信息。

那么我們就可以大膽猜測,后面會根據(jù)不同分類被點擊的頻率進行優(yōu)化,優(yōu)先更新展示頻率高的內(nèi)容。
人工分析不好嗎?
來到簡書兩年以上的簡友們都知道,之前的簡書首頁都是人工篩選的。作者寫完文章后,第一件事就是投稿到首頁推薦專題,審核后文章就會登上首頁。
后來,簡書取消了這一設定,改為使用算法自動推薦。
直到現(xiàn)在,首頁推薦太過娛樂化還是飽受詬病的一個問題。
原因無非有以下幾點:第一,用戶量日漸增長,審核難度增大,而且會占用大量服務器資源,成本過高。
第二,最新發(fā)布的文章不能及時登上首頁,文章時效性不強,熱點信息不能迅速獲知。
第三,其它內(nèi)容平臺都采用了算法分發(fā),簡書作為主流創(chuàng)作平臺中第一個引入?yún)^(qū)塊鏈體系的,也應該緊跟潮流擁抱算法分發(fā)。
現(xiàn)在看來,第二個原因可能不完全正確:簡書的定位是一個優(yōu)質(zhì)創(chuàng)作社區(qū),創(chuàng)始人希望用戶閱讀到有深度的內(nèi)容而不是沉浸在無意義的熱點話題中。
簡書取消首頁人工篩選后,陸續(xù)也涌現(xiàn)出了許多所謂的“美文專題”,但不得不說,自從簡書幣改后,這些美文專題也轉(zhuǎn)向了權重助力,因為只有這樣,才能借排行榜展示的機會進行宣傳,這也是這些專題要求在推文之前修改文章標題的原因。
我相信簡書官方做出這個決定時也是猶豫的,但在我看來,這個決定比較正確,畢竟它節(jié)省了大量的人力資源,正是這間接節(jié)省下來的成本,才讓簡書不斷完善基礎功能,最終在國內(nèi)創(chuàng)作平臺中排到這個位置。
算法訓練集從哪里來?
對算法略有了解的小伙伴們都知道,每個算法都有一個訓練集。
簡單解釋一下,程序通過這個訓練集自動學習不同種類文章的特點,進而實現(xiàn)后續(xù)分類的自動化,分析維度可能有很多,比如詞頻、文章字數(shù)、分段頻率等等。
這個訓練集中的數(shù)據(jù)時需要人工標注的,也就是需要人工給它們打上不同分類的標簽,以此還誕生了一個職業(yè),叫做“AI 數(shù)據(jù)標注師”,專門負責對訓練集的數(shù)據(jù)進行人工分類。
那簡書的訓練集從哪里來?不可能讓所有員工都去標注數(shù)據(jù),考慮到簡書現(xiàn)在的資本情況,也不可能趁著大學生畢業(yè)請大量廉價勞動力來完成這項任務。
而簡書在社區(qū)建設方面一直時比較克制的,選擇部分用戶協(xié)助進行標注也不可能。
但我們忽略了一個重要的信息:簡書其實已經(jīng)有人工標注的訓練集了,就是官方的各類專題。
首頁的每個分類基本都和幾個官方專題對應,比如產(chǎn)品對應產(chǎn)品專題,互聯(lián)網(wǎng)對應 IT·互聯(lián)網(wǎng)專題。
這些專題經(jīng)過大量的人工篩選,其中的文章有一定質(zhì)量,利用這些文章進行算法訓練,進而實現(xiàn)文章篩選,是完全可行的。
由于機器算法的特殊性,偶爾出現(xiàn)被錯誤分類的文章并不影響整體結果。
算法如何優(yōu)化?
算法已經(jīng)訓練好了,但從日常使用中明顯可以看出,有時還是會出現(xiàn)分類錯誤的問題,而且概率已經(jīng)大到了影響用戶體驗的程度,錯誤率大概在 2% 左右。
一般情況下,算法的優(yōu)化方案有以下幾種:
由工作人員進行人工優(yōu)化,特別消耗人力
繼續(xù)喂訓練集,特別消耗算力
由用戶進行反饋
考慮到簡書的團隊規(guī)模和資金情況,可以預測,未來的新版本將會加入文章分類反饋功能,在用戶將文章閱讀完畢后,彈出提示詢問用戶該文章分類是否準確,或者通過用戶停留時間進行判斷。
當然,第一種方案也要適時使用,既然簡書社區(qū)守護者聯(lián)盟是官方的,也許可以給它們文章分類的權限,通過激勵讓這些用戶參與篩選,可以更好地考慮到真實用戶的感受,還可以做類似知乎眾裁的容錯體系,同一篇文章推送給多個用戶判斷,少數(shù)服從多數(shù)。
至于第二種方案,服務器是按時間計費的,訓練算法不會有額外的開銷,可能會選擇在低訪問量時段,比如凌晨進行算法優(yōu)化,可以完美利用算力,但我們并不知道凌晨是否有其它重要任務(例如審核算法優(yōu)化或者增量備份),所以無法預測算法優(yōu)化的具體時間。
未來的內(nèi)容分發(fā)是什么樣的?
在前文中,我們已經(jīng)證明了純?nèi)斯さ膬?nèi)容分類在現(xiàn)有的新媒體平臺上是不可行的,而純算法分類又非常依賴于數(shù)據(jù)規(guī)模,簡書新用戶的首頁會比較雜亂,而知乎的新用戶在閱讀幾篇文章后就可以獲得相對符合用戶閱讀調(diào)性的內(nèi)容。
當然,我們不能斷定說知乎的算法一定更加完善,知乎作為國內(nèi)使用者較多的內(nèi)容平臺,其背后是一個商業(yè)矩陣,它們共享一個用戶標簽體系。簡單來說,不是知乎更牛,是知乎背后有更多產(chǎn)品一同合作。
未來的內(nèi)容分發(fā)一定是人工與算法結合的,難點在于把握兩者之間的比例。
偏專業(yè)的內(nèi)容平臺可能需要更多的人工分類,而偏時效性的平臺則需要更完善的算法快速分類新內(nèi)容并呈現(xiàn)給用戶。
無論采用哪種分類方式,內(nèi)容為王必定是現(xiàn)階段新媒體平臺的生存法則。
希望簡書能進一步針對現(xiàn)有生態(tài)開發(fā)新功能,簡書最大的王牌就是直觀的區(qū)塊鏈體系和強內(nèi)聚的生態(tài)體系,我們期待它能成為一股清流,照亮淺內(nèi)容泛濫的互聯(lián)網(wǎng)世界。