對簡書連載作者月度統(tǒng)計數(shù)據(jù)獲取,生成排行榜的改進。
1、Scrapy爬蟲爬取作者的文章信息(閱讀量,喜歡數(shù),評論數(shù),打賞數(shù)),抓取源:作者主頁(latest_articles)有分頁,保存為csv格式。(每個作者抓取不超過90條數(shù)據(jù))
2、按發(fā)表時間排序,刪除一個月外的數(shù)據(jù)。
3、Excel函數(shù)提取連載作品名稱(列名:文集),F(xiàn)IND, LEFT函數(shù)嵌套。查找標(biāo)注章節(jié)的括號(全角,半角)
4、按文集、標(biāo)題進行排序后篩選后,刪除非連載文章(同時校正文集名的提?。?br>
5、按文集、作者進行排序
6、進行分類匯總,按文集,對閱讀量,喜歡數(shù),評論數(shù),打賞數(shù)數(shù)據(jù)進行匯總
7、用VBA宏,復(fù)制作者,文集(作者主頁)鏈接信息
8、復(fù)制分類匯總數(shù)據(jù)到新的sheet頁(復(fù)制時選擇可見單元格)
9、按單項(閱讀量,喜歡數(shù),評論數(shù),打賞數(shù))進行排序,排序后取TOP25數(shù)據(jù)復(fù)制粘貼到csv文件
10、python讀取csv文件,生成排行榜(markdown格式)
格式: 作品名(鏈接),作者:作者名, 數(shù)據(jù)
效率瓶頸:
1)提取連載文集名稱,Excel函數(shù)多級嵌套判斷不好用,連載文章不同作者使用了()() 【】::等不同符號標(biāo)明章節(jié)。
可考慮一個Python函數(shù)來實現(xiàn)。
2)分類匯總后,使用了VBA復(fù)制其他需要列的信息。復(fù)制單行多列數(shù)據(jù)。
沒有使用vlookup原因:匯總列匹配問題,可處理一下后用跨sheet的vlookup