一.Chrome的開發(fā)者工具
1.1界面介紹
- 打開快捷鍵Fn+F12
- Elements: 從瀏覽器的角度查看渲染的HTML、CSS、DOM對(duì)象
- Network: 頁面向服務(wù)器請(qǐng)求了哪些資源、資源大小以及加載資源的相關(guān)信息,HTTP的請(qǐng)求與返回內(nèi)容。
- 點(diǎn)擊name 可以出現(xiàn)【headers】
- 提取URL和最后的【user-agent】
- 如圖所示:
- 圖片
- sources: 源代碼面板 調(diào)試JAVAscript
- console:控制臺(tái)面板:顯示各種警告與錯(cuò)誤信息,可實(shí)現(xiàn)shell在頁面上與javascript的交互
- performance:使用可以記錄和查看網(wǎng)址生命周期內(nèi)發(fā)生各種事件來提高頁面運(yùn)行時(shí)的性能。
- memory:同上還有更多信息,如跟蹤內(nèi)存泄漏
- application:檢查加載的所有資源
- security:安全面板,處理證書問題
from lxml import etree
import requests
from lxml.html import fromstring,tostring
url='https://www.python.org/box/supernav-python-about/'
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"}
z1=requests.get(url,headers=headers)
z1.status_code
#http狀態(tài)碼為200(這就是headers的作用)
http://www.itdecent.cn/p/3c00d57d0244
?
10.補(bǔ)充
補(bǔ)充: 在錄入url的時(shí)候,若是出現(xiàn)URL編碼異常需要解碼,例如:http://www.bgpc.gov.cn/defaults/news/news/page/2%2Ftid%2F3
在線解碼工具地址:http://tool.chinaz.com/Tools/urlencode.aspx
異步頻道錄入:http://www.gdgpo.gov.cn/queryMoreInfoList.do
1.2.作業(yè)
爬取網(wǎng)站:搜狗 源代碼html內(nèi)容,提交: python代碼,爬取html內(nèi)容。
import urllib.request
response=urllib.request.urlopen("https://www.sogo.com")
print(response.read().decode("utf-8"))