2021-05-17文獻爬取教程

1.Github上下載WOS_Crawler

https://github.com/tomleung1996/wos_crawler

2.WOS_Crawler使用

#先將main.py文件第33行的crawl_by_gui()取消注釋,執(zhí)行程序啟動圖形界面
python main.py
#報錯1:ModuleNotFoundError: No module named 'qt5reactor'
解決方法:pip install qt5reactor
#報錯2:ModuleNotFoundError: No module named 'scrapy'
解決方法:pip install scrapy
#報錯2:ModuleNotFoundError: No module named 'bibtexparser'
解決方法:pip install bibtexparser
#啟動圖形化界面
python main.py
#填寫爬取內容
這里以爬取2000-2020年Genome Biology上發(fā)表的有關基因組變異相關主題文獻為例,填寫完檢索式和保存路徑后直接爬取即可。
圖一:填寫檢索式

圖二:爬取過程

3.提取DOI

cat 1-122.txt | grep ^DI * | awk '{print $2}' > DOI.txt

4.根據DOI批量下載文獻

https://github.com/bibcure/scihub2pdf

# scihub2pdf安裝
pip3 install scihub2pdf
# download.py文件中domain_scihub修改為"https://scihubtw.tw/"
# PhantomJS安裝(mac)
brew install phantomjs
# 測試
scihub2pdf doi:10.1186/s13059-020-02125-w
# 批量從SCI-HUB上下載(根據DOI)
scihub2pdf -i DOI.txt --txt
rm *.png
圖三:測試
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容