2021 年 1 月 5 日，簡書發(fā)布了 6.0 版本。

下面是該版本的更新日志：

6.0 版本全新上線，帶給你更好的體驗
首頁可以按分類看文章了，點擊首頁右側排序按鈕，還能自定義分類哦
你是否想要更加與眾不同？個性化的頭像框功能滿足你
修復了 Bug，增加了很多貼心小功能等你來發(fā)現(xiàn)

體驗了一圈，所謂的個性化頭像框沒找到，首頁的內(nèi)容分發(fā)變化還是比較大的。

首頁對比

新版本的首頁頂部增加了一個文章分類的篩選。

同時，在更新后第一次進入簡書時，可以選擇參與篩選的文章種類。

image

可選擇的類型還是比較豐富的，常見的大類都涵蓋在里面了。

不過這里點名批評一下設計師，下面按鈕的透明度太高了......

文章是如何被分類的？

經(jīng)過實測，我選擇的幾個大類中都只能看到一兩個月前的文章，并沒有 2021 年這幾天的文章。

隨機挑選幾篇文章進行比較，有些文章沒有被收入任何專題，但還顯示在了其中一個分類，可以排除根據(jù)專題所屬種類進行文章分類的可能。

那篩選者呢？簡書官方肯定不現(xiàn)實，沒有用那么多員工幫忙無償篩選文章。

而被篩選的文章大多有都一定閱讀量，而且都是簡書較活躍的用戶。

所以，篩選者應該是社區(qū)的核心用戶。

難道是“簡書社區(qū)守護者聯(lián)盟”？

選了幾篇文章，這些文章的作者均不是社區(qū)守護者聯(lián)盟的參與者，文章也沒有被收入推薦專題。

而在簡書最注重質(zhì)量的“文學”分類下，這種情況依舊存在。

這些文章不是人工篩選的？

簡書擁有大量的文章數(shù)據(jù)，基于這些數(shù)據(jù)訓練一個模型對文章類別進行評判似乎是可行的。

只要是算法，必定有疏漏。在詩詞散文分類看了幾十篇文章后，我終于發(fā)現(xiàn)了要找的東西：

image

這篇文章并不應該屬于這個分類，它屬于生活隨筆，而且文章中也沒有散文內(nèi)容。

應該是算法的疏漏，審核員看到題目后面有序號，再配合幾張插圖，很容易就能判斷出這是生活隨筆。

那我們就可以確定，文章就是機器算法分類的。

這樣，文章時效性的問題就可以解釋了：服務器資源有限，為了進行測試，只選取了一部分 2020 年的文章進行算法分類，后期會逐漸補全新文章。

打開簡書的埋點分析功能后，果然看到了相關的信息。

埋點信息

那么我們就可以大膽猜測，后面會根據(jù)不同分類被點擊的頻率進行優(yōu)化，優(yōu)先更新展示頻率高的內(nèi)容。

人工分析不好嗎？

來到簡書兩年以上的簡友們都知道，之前的簡書首頁都是人工篩選的。作者寫完文章后，第一件事就是投稿到首頁推薦專題，審核后文章就會登上首頁。

后來，簡書取消了這一設定，改為使用算法自動推薦。

直到現(xiàn)在，首頁推薦太過娛樂化還是飽受詬病的一個問題。

原因無非有以下幾點：第一，用戶量日漸增長，審核難度增大，而且會占用大量服務器資源，成本過高。

第二，最新發(fā)布的文章不能及時登上首頁，文章時效性不強，熱點信息不能迅速獲知。

第三，其它內(nèi)容平臺都采用了算法分發(fā)，簡書作為主流創(chuàng)作平臺中第一個引入?yún)^(qū)塊鏈體系的，也應該緊跟潮流擁抱算法分發(fā)。

現(xiàn)在看來，第二個原因可能不完全正確：簡書的定位是一個優(yōu)質(zhì)創(chuàng)作社區(qū)，創(chuàng)始人希望用戶閱讀到有深度的內(nèi)容而不是沉浸在無意義的熱點話題中。

簡書取消首頁人工篩選后，陸續(xù)也涌現(xiàn)出了許多所謂的“美文專題”，但不得不說，自從簡書幣改后，這些美文專題也轉(zhuǎn)向了權重助力，因為只有這樣，才能借排行榜展示的機會進行宣傳，這也是這些專題要求在推文之前修改文章標題的原因。

我相信簡書官方做出這個決定時也是猶豫的，但在我看來，這個決定比較正確，畢竟它節(jié)省了大量的人力資源，正是這間接節(jié)省下來的成本，才讓簡書不斷完善基礎功能，最終在國內(nèi)創(chuàng)作平臺中排到這個位置。

算法訓練集從哪里來？

對算法略有了解的小伙伴們都知道，每個算法都有一個訓練集。

簡單解釋一下，程序通過這個訓練集自動學習不同種類文章的特點，進而實現(xiàn)后續(xù)分類的自動化，分析維度可能有很多，比如詞頻、文章字數(shù)、分段頻率等等。

這個訓練集中的數(shù)據(jù)時需要人工標注的，也就是需要人工給它們打上不同分類的標簽，以此還誕生了一個職業(yè)，叫做“AI 數(shù)據(jù)標注師”，專門負責對訓練集的數(shù)據(jù)進行人工分類。

那簡書的訓練集從哪里來？不可能讓所有員工都去標注數(shù)據(jù)，考慮到簡書現(xiàn)在的資本情況，也不可能趁著大學生畢業(yè)請大量廉價勞動力來完成這項任務。

而簡書在社區(qū)建設方面一直時比較克制的，選擇部分用戶協(xié)助進行標注也不可能。

但我們忽略了一個重要的信息：簡書其實已經(jīng)有人工標注的訓練集了，就是官方的各類專題。

首頁的每個分類基本都和幾個官方專題對應，比如產(chǎn)品對應產(chǎn)品專題，互聯(lián)網(wǎng)對應 IT·互聯(lián)網(wǎng)專題。

這些專題經(jīng)過大量的人工篩選，其中的文章有一定質(zhì)量，利用這些文章進行算法訓練，進而實現(xiàn)文章篩選，是完全可行的。

由于機器算法的特殊性，偶爾出現(xiàn)被錯誤分類的文章并不影響整體結果。

算法如何優(yōu)化？

算法已經(jīng)訓練好了，但從日常使用中明顯可以看出，有時還是會出現(xiàn)分類錯誤的問題，而且概率已經(jīng)大到了影響用戶體驗的程度，錯誤率大概在 2% 左右。

一般情況下，算法的優(yōu)化方案有以下幾種：

由工作人員進行人工優(yōu)化，特別消耗人力
繼續(xù)喂訓練集，特別消耗算力
由用戶進行反饋

考慮到簡書的團隊規(guī)模和資金情況，可以預測，未來的新版本將會加入文章分類反饋功能，在用戶將文章閱讀完畢后，彈出提示詢問用戶該文章分類是否準確，或者通過用戶停留時間進行判斷。

當然，第一種方案也要適時使用，既然簡書社區(qū)守護者聯(lián)盟是官方的，也許可以給它們文章分類的權限，通過激勵讓這些用戶參與篩選，可以更好地考慮到真實用戶的感受，還可以做類似知乎眾裁的容錯體系，同一篇文章推送給多個用戶判斷，少數(shù)服從多數(shù)。

至于第二種方案，服務器是按時間計費的，訓練算法不會有額外的開銷，可能會選擇在低訪問量時段，比如凌晨進行算法優(yōu)化，可以完美利用算力，但我們并不知道凌晨是否有其它重要任務（例如審核算法優(yōu)化或者增量備份），所以無法預測算法優(yōu)化的具體時間。

未來的內(nèi)容分發(fā)是什么樣的？

在前文中，我們已經(jīng)證明了純?nèi)斯さ膬?nèi)容分類在現(xiàn)有的新媒體平臺上是不可行的，而純算法分類又非常依賴于數(shù)據(jù)規(guī)模，簡書新用戶的首頁會比較雜亂，而知乎的新用戶在閱讀幾篇文章后就可以獲得相對符合用戶閱讀調(diào)性的內(nèi)容。

當然，我們不能斷定說知乎的算法一定更加完善，知乎作為國內(nèi)使用者較多的內(nèi)容平臺，其背后是一個商業(yè)矩陣，它們共享一個用戶標簽體系。簡單來說，不是知乎更牛，是知乎背后有更多產(chǎn)品一同合作。

未來的內(nèi)容分發(fā)一定是人工與算法結合的，難點在于把握兩者之間的比例。

偏專業(yè)的內(nèi)容平臺可能需要更多的人工分類，而偏時效性的平臺則需要更完善的算法快速分類新內(nèi)容并呈現(xiàn)給用戶。

無論采用哪種分類方式，內(nèi)容為王必定是現(xiàn)階段新媒體平臺的生存法則。

希望簡書能進一步針對現(xiàn)有生態(tài)開發(fā)新功能，簡書最大的王牌就是直觀的區(qū)塊鏈體系和強內(nèi)聚的生態(tài)體系，我們期待它能成為一股清流，照亮淺內(nèi)容泛濫的互聯(lián)網(wǎng)世界。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

從簡書6.0版本，看未來的內(nèi)容分發(fā)方式

從簡書6.0版本，看未來的內(nèi)容分發(fā)方式

文章是如何被分類的？

人工分析不好嗎？

算法訓練集從哪里來？

算法如何優(yōu)化？

未來的內(nèi)容分發(fā)是什么樣的？

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

從簡書6.0版本，看未來的內(nèi)容分發(fā)方式

文章是如何被分類的？

人工分析不好嗎？

算法訓練集從哪里來？

算法如何優(yōu)化？

未來的內(nèi)容分發(fā)是什么樣的？

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

文章是如何被分類的？

算法如何優(yōu)化？

未來的內(nèi)容分發(fā)是什么樣的？