1、安裝requests-html
pip install requests-html
2、代碼塊
# 引入requests-html
import requests_html
# 獲取頁(yè)面
html= requests_html.HTMLSession().get('https://www.baidu.com')
# 獲取頁(yè)面全部的鏈接
url= html.html.absolute_links
# 遍歷頁(yè)面全部鏈接
for Url in url:
# 判斷url是不是一個(gè)鏈接
if('https://' in Urlor 'http://' in Url):
# 獲取當(dāng)前鏈接頁(yè)面
url= requests_html.HTMLSession().get(Url)
if(url.ok):
# 頁(yè)面可訪問(wèn)就跳過(guò)
continue
else:
# 頁(yè)面不能訪問(wèn)就把錯(cuò)誤url打印出來(lái)
print("不能訪問(wèn)\t"+Url)
else:
print('不是鏈接'+Url)
注:(最好設(shè)置代理或者連上自己的熱點(diǎn))部分網(wǎng)頁(yè)https://beian.miit.gov.cn校驗(yàn)不通過(guò),換成自己的熱點(diǎn)就能校驗(yàn)通過(guò)。