簡書連載數(shù)據(jù)統(tǒng)計改進版

對簡書連載作者月度統(tǒng)計數(shù)據(jù)獲取,生成排行榜的改進。

1、Scrapy爬蟲爬取作者的文章信息(閱讀量,喜歡數(shù),評論數(shù),打賞數(shù)),抓取源:作者主頁(latest_articles)有分頁,保存為csv格式。(每個作者抓取不超過90條數(shù)據(jù))
2、按發(fā)表時間排序,刪除一個月外的數(shù)據(jù)。
3、Excel函數(shù)提取連載作品名稱(列名:文集),F(xiàn)IND, LEFT函數(shù)嵌套。查找標(biāo)注章節(jié)的括號(全角,半角)
4、按文集、標(biāo)題進行排序后篩選后,刪除非連載文章(同時校正文集名的提?。?br> 5、按文集、作者進行排序
6、進行分類匯總,按文集,對閱讀量,喜歡數(shù),評論數(shù),打賞數(shù)數(shù)據(jù)進行匯總
7、用VBA宏,復(fù)制作者,文集(作者主頁)鏈接信息
8、復(fù)制分類匯總數(shù)據(jù)到新的sheet頁(復(fù)制時選擇可見單元格)
9、按單項(閱讀量,喜歡數(shù),評論數(shù),打賞數(shù))進行排序,排序后取TOP25數(shù)據(jù)復(fù)制粘貼到csv文件
10、python讀取csv文件,生成排行榜(markdown格式)
  格式: 作品名(鏈接),作者:作者名, 數(shù)據(jù)

效率瓶頸:
1)提取連載文集名稱,Excel函數(shù)多級嵌套判斷不好用,連載文章不同作者使用了()() 【】::等不同符號標(biāo)明章節(jié)。
 可考慮一個Python函數(shù)來實現(xiàn)。
2)分類匯總后,使用了VBA復(fù)制其他需要列的信息。復(fù)制單行多列數(shù)據(jù)。
 沒有使用vlookup原因:匯總列匹配問題,可處理一下后用跨sheet的vlookup

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容