爬蟲(chóng)學(xué)習(xí)(4)——專利下載實(shí)戰(zhàn)

1、美國(guó)專利局專利批量下載

美國(guó)專利及商標(biāo)局這個(gè)網(wǎng)站 https://www.uspto.gov/
搜索頁(yè)面:http://patft.uspto.gov/netahtml/PTO/index.html

image.png

這里的關(guān)鍵是如何通過(guò)一次次的跳轉(zhuǎn)獲得pdf的下載鏈接,整個(gè)流程是這樣的:
1、先根據(jù)關(guān)鍵字搜索獲得相關(guān)專利名稱,根據(jù)專利名稱可以獲得檢索號(hào)
2、從檢索號(hào)可以找到對(duì)應(yīng)的單頁(yè)預(yù)覽pdf鏈接
3、從單頁(yè)pdf網(wǎng)頁(yè)可以獲得完整pdf的鏈接
美國(guó)專利局里1.pdf為單頁(yè)的預(yù)覽,0.pdf為完整版本的pdf文件

過(guò)程的實(shí)現(xiàn)可以參閱參考資料【1】
原作者代碼的問(wèn)題在于沒(méi)有進(jìn)行headers的設(shè)置,導(dǎo)致無(wú)法獲取跳轉(zhuǎn)數(shù)據(jù)

一個(gè)可以跑通的代碼可見(jiàn)git地址:
美國(guó)專利局下載

附:
國(guó)內(nèi)外論文、專利下載網(wǎng)站資源收集(不斷更新中):
http://www.itdecent.cn/p/cec9576a72b2

參考資料
【1】https://blog.csdn.net/u010256153/article/details/53082008 批量下載指定公司專利信息
【2】http://www.itdecent.cn/p/0136fd926b41 爬蟲(chóng)學(xué)習(xí)之瀏覽器偽裝技術(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容