對(duì)于搜索引擎而言,用戶算法的核心價(jià)值是用戶體驗(yàn),包括搜索內(nèi)容的相關(guān)性、內(nèi)容質(zhì)量及時(shí)效性等,其中內(nèi)容質(zhì)量是前置步驟,既可以用于優(yōu)質(zhì)內(nèi)容源篩選,又可以作為搜索召回結(jié)果排序因素,是決定高質(zhì)量搜索結(jié)果前提。

內(nèi)容質(zhì)量主要有兩個(gè)維度。第一,EAT 分?jǐn)?shù),主要取決于文檔的來源和作者。EAT是專業(yè)性(expertise)、權(quán)威性(authoritativeness)、可信賴(trustworthiness)三個(gè)詞的首字母縮寫;第二,文字和圖片質(zhì)量,包括文本質(zhì)量和圖片質(zhì)量(參考:https://toutiao.io/posts/izme1z1/preview,https://cloud.tencent.com/developer/news/490036)等。
爬蟲采集到了作者編號(hào)(account_id),作者昵稱(master_name),作者領(lǐng)域(master_property),文章編號(hào)(pid),文章內(nèi)容(doc),文章類目(category),文章發(fā)布時(shí)間(publish_time),瀏覽量(view_num),收藏量(collect_num),一共12w行。通過 作者編號(hào)(account_id),作者昵稱(master_name),作者領(lǐng)域(master_property),通過作者發(fā)文時(shí)間等字段,及計(jì)算作者創(chuàng)作年齡(span_date)匯總為author.csv數(shù)據(jù),通過編號(hào)(account_id),作者昵稱(master_name)文章編號(hào)(pid),文章內(nèi)容(doc),文章類目(category),文章發(fā)布時(shí)間(publish_time),瀏覽量(view_num),收藏量(collect_num)匯總為works.csv數(shù)據(jù)。
作者權(quán)重及排序
我們希望通過對(duì)作者進(jìn)行打分,獲得‘’大師、專家‘’列表,用于在文章權(quán)威性評(píng)價(jià)指標(biāo)。由于是初始階段我們無法獲得大師名單列表,甚至作者名單都不全,因此需要先對(duì)爬蟲數(shù)據(jù)結(jié)構(gòu)有一定了解。
我們根據(jù)auther.csv數(shù)據(jù),將作者排序因素分類為作者影響力水平(eindex)、作者領(lǐng)域?qū)I(yè)度(pindex)、作者流行性度(h index)等,其中:
(1)作者影響力水平評(píng)價(jià):以作者作品瀏覽量和收藏?cái)?shù)的H Index加權(quán)和作為影響力排序指標(biāo);
(2)作者領(lǐng)域?qū)I(yè)度評(píng)價(jià):分別計(jì)算作者行業(yè)作品瀏覽率與行業(yè)平均瀏覽率占比和作者行業(yè)作品收藏率與行業(yè)平均收藏率占比,然后求兩項(xiàng)加權(quán)和作為評(píng)判作者在行業(yè)領(lǐng)域內(nèi)的專業(yè)度;
(3)作者流行性度:以作者月平均產(chǎn)出作品數(shù)、月平均作品瀏覽量、月平均作品收藏量、月平均主頁訪問量、月平平粉絲數(shù)加權(quán)和作為作者流行度評(píng)價(jià)指標(biāo)。
通過對(duì)多個(gè)因子進(jìn)行組合和篩選,可以看到部分因子和作者權(quán)重有較好的一致性。

作者權(quán)重score分布及分級(jí):


作品權(quán)重及排序
我們根據(jù)works.csv數(shù)據(jù),選取以作品認(rèn)可度(avalue)、作品影響力(ivalue)、作品流行度(hvalue)、作品內(nèi)容分?jǐn)?shù)(cvalue)等為指標(biāo)進(jìn)行排序,其中:
(1)作品認(rèn)可度:作品評(píng)分 * 認(rèn)可率,作品評(píng)分通過瀏覽量、收藏量進(jìn)行均值計(jì)算,認(rèn)可度通過瀏覽量、收藏量做權(quán)重占比分布計(jì)算;
(2)作品影響力:以月評(píng)價(jià)文章瀏覽量、收藏量為特征項(xiàng),分別計(jì)算與行業(yè)同類別文章月平均值比率的加權(quán)和作為排序指標(biāo);
(3)作品流行度:以文章瀏覽量、收藏量和發(fā)布時(shí)間為特征項(xiàng)計(jì)算文章熱度值,作為文章受歡迎的評(píng)判指標(biāo);
(4)作品內(nèi)容分:作者權(quán)重 + 文、圖質(zhì)量分?jǐn)?shù) + 懲罰分?jǐn)?shù);
因子篩選組合:

作品分級(jí):

通過以上處理,我們可以初步拿到作者和作品的打分結(jié)果和排序結(jié)果,并作為初步把關(guān)的標(biāo)準(zhǔn)之一。
#paperclub