爬蟲學(xué)習(xí)1

一.Chrome的開發(fā)者工具

1.1界面介紹

  1. 打開快捷鍵Fn+F12
  2. Elements: 從瀏覽器的角度查看渲染的HTML、CSS、DOM對(duì)象
  3. Network: 頁面向服務(wù)器請(qǐng)求了哪些資源、資源大小以及加載資源的相關(guān)信息,HTTP的請(qǐng)求與返回內(nèi)容。
    1. 點(diǎn)擊name 可以出現(xiàn)【headers】
    2. 提取URL和最后的【user-agent】
    3. 如圖所示:
    4. 圖片
  4. sources: 源代碼面板 調(diào)試JAVAscript
  5. console:控制臺(tái)面板:顯示各種警告與錯(cuò)誤信息,可實(shí)現(xiàn)shell在頁面上與javascript的交互
  6. performance:使用可以記錄和查看網(wǎng)址生命周期內(nèi)發(fā)生各種事件來提高頁面運(yùn)行時(shí)的性能。
  7. memory:同上還有更多信息,如跟蹤內(nèi)存泄漏
  8. application:檢查加載的所有資源
  9. security:安全面板,處理證書問題
from lxml import etree
import requests
from lxml.html import fromstring,tostring
url='https://www.python.org/box/supernav-python-about/'
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"}
z1=requests.get(url,headers=headers)
z1.status_code
#http狀態(tài)碼為200(這就是headers的作用)
http://www.itdecent.cn/p/3c00d57d0244
?

10.補(bǔ)充
補(bǔ)充: 在錄入url的時(shí)候,若是出現(xiàn)URL編碼異常需要解碼,例如:http://www.bgpc.gov.cn/defaults/news/news/page/2%2Ftid%2F3

在線解碼工具地址:http://tool.chinaz.com/Tools/urlencode.aspx

異步頻道錄入:http://www.gdgpo.gov.cn/queryMoreInfoList.do

1.2.作業(yè)

爬取網(wǎng)站:搜狗 源代碼html內(nèi)容,提交: python代碼,爬取html內(nèi)容。

import urllib.request
response=urllib.request.urlopen("https://www.sogo.com")
print(response.read().decode("utf-8"))
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容