搜索算法之內(nèi)容質(zhì)量評(píng)估:如何對(duì)作者和文章進(jìn)行質(zhì)量評(píng)價(jià)

對(duì)于搜索引擎而言,用戶算法的核心價(jià)值是用戶體驗(yàn),包括搜索內(nèi)容的相關(guān)性、內(nèi)容質(zhì)量及時(shí)效性等,其中內(nèi)容質(zhì)量是前置步驟,既可以用于優(yōu)質(zhì)內(nèi)容源篩選,又可以作為搜索召回結(jié)果排序因素,是決定高質(zhì)量搜索結(jié)果前提。


內(nèi)容質(zhì)量主要有兩個(gè)維度。第一,EAT 分?jǐn)?shù),主要取決于文檔的來源和作者。EAT是專業(yè)性(expertise)、權(quán)威性(authoritativeness)、可信賴(trustworthiness)三個(gè)詞的首字母縮寫;第二,文字和圖片質(zhì)量,包括文本質(zhì)量和圖片質(zhì)量(參考:https://toutiao.io/posts/izme1z1/preview,https://cloud.tencent.com/developer/news/490036)等。

爬蟲采集到了作者編號(hào)(account_id),作者昵稱(master_name),作者領(lǐng)域(master_property),文章編號(hào)(pid),文章內(nèi)容(doc),文章類目(category),文章發(fā)布時(shí)間(publish_time),瀏覽量(view_num),收藏量(collect_num),一共12w行。通過 作者編號(hào)(account_id),作者昵稱(master_name),作者領(lǐng)域(master_property),通過作者發(fā)文時(shí)間等字段,及計(jì)算作者創(chuàng)作年齡(span_date)匯總為author.csv數(shù)據(jù),通過編號(hào)(account_id),作者昵稱(master_name)文章編號(hào)(pid),文章內(nèi)容(doc),文章類目(category),文章發(fā)布時(shí)間(publish_time),瀏覽量(view_num),收藏量(collect_num)匯總為works.csv數(shù)據(jù)。

作者權(quán)重及排序

我們希望通過對(duì)作者進(jìn)行打分,獲得‘’大師、專家‘’列表,用于在文章權(quán)威性評(píng)價(jià)指標(biāo)。由于是初始階段我們無法獲得大師名單列表,甚至作者名單都不全,因此需要先對(duì)爬蟲數(shù)據(jù)結(jié)構(gòu)有一定了解。

我們根據(jù)auther.csv數(shù)據(jù),將作者排序因素分類為作者影響力水平(eindex)、作者領(lǐng)域?qū)I(yè)度(pindex)、作者流行性度(h index)等,其中:

(1)作者影響力水平評(píng)價(jià):以作者作品瀏覽量和收藏?cái)?shù)的H Index加權(quán)和作為影響力排序指標(biāo);

(2)作者領(lǐng)域?qū)I(yè)度評(píng)價(jià):分別計(jì)算作者行業(yè)作品瀏覽率與行業(yè)平均瀏覽率占比和作者行業(yè)作品收藏率與行業(yè)平均收藏率占比,然后求兩項(xiàng)加權(quán)和作為評(píng)判作者在行業(yè)領(lǐng)域內(nèi)的專業(yè)度;

(3)作者流行性度:以作者月平均產(chǎn)出作品數(shù)、月平均作品瀏覽量、月平均作品收藏量、月平均主頁訪問量、月平平粉絲數(shù)加權(quán)和作為作者流行度評(píng)價(jià)指標(biāo)。

通過對(duì)多個(gè)因子進(jìn)行組合和篩選,可以看到部分因子和作者權(quán)重有較好的一致性。


作者權(quán)重score分布及分級(jí):


作品權(quán)重及排序

我們根據(jù)works.csv數(shù)據(jù),選取以作品認(rèn)可度(avalue)、作品影響力(ivalue)、作品流行度(hvalue)、作品內(nèi)容分?jǐn)?shù)(cvalue)等為指標(biāo)進(jìn)行排序,其中:

(1)作品認(rèn)可度:作品評(píng)分 * 認(rèn)可率,作品評(píng)分通過瀏覽量、收藏量進(jìn)行均值計(jì)算,認(rèn)可度通過瀏覽量、收藏量做權(quán)重占比分布計(jì)算;

(2)作品影響力:以月評(píng)價(jià)文章瀏覽量、收藏量為特征項(xiàng),分別計(jì)算與行業(yè)同類別文章月平均值比率的加權(quán)和作為排序指標(biāo);

(3)作品流行度:以文章瀏覽量、收藏量和發(fā)布時(shí)間為特征項(xiàng)計(jì)算文章熱度值,作為文章受歡迎的評(píng)判指標(biāo);

(4)作品內(nèi)容分:作者權(quán)重 + 文、圖質(zhì)量分?jǐn)?shù) + 懲罰分?jǐn)?shù);

因子篩選組合:


作品分級(jí):


通過以上處理,我們可以初步拿到作者和作品的打分結(jié)果和排序結(jié)果,并作為初步把關(guān)的標(biāo)準(zhǔn)之一。

#paperclub

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容