Python ?C7-5——網(wǎng)頁下載翻墻效果

? ? ? ? 感覺今天的代碼可以實(shí)現(xiàn)爬蟲的功能,解析一個(gè)網(wǎng)址并下載網(wǎng)址。


? ? 完整代碼如上;

1、導(dǎo)入urllib、re模塊;從HTMLParser模塊導(dǎo)入類;

2、利用urlretrieve()提取網(wǎng)址的信息,并存儲(chǔ)在文件中;

3、以只讀方式打開文件,讀取文件所有行內(nèi)容打印相關(guān)信息。

第一面的打印內(nèi)容,包括了網(wǎng)址,gif圖地址,時(shí)間信息;

標(biāo)準(zhǔn)時(shí)間前一天的時(shí)間信息和對(duì)應(yīng)的網(wǎng)址信息;

.

.

.還有很多這樣的信息。

一直到最后的網(wǎng)址信息。還有11好的信息,不知道是什么操作機(jī)制。

查閱相關(guān)資料后:

1、urllib模塊是接受url請(qǐng)求的模塊;也就是可以實(shí)現(xiàn)和互聯(lián)網(wǎng)通信的功能;urlretrieve方法將url定位到的html文件下載到指定文件中;如果不指定filename,則會(huì)存為臨時(shí)文件;

2、re模塊是為高級(jí)字符串處理提供正則表達(dá)式的工具;re.sub()用于替換字符串中的匹配項(xiàng),代碼中是把文件中讀取的內(nèi)容匹配項(xiàng)(正則表達(dá)式)替換為''表示的空字符;

3、HTMLParser模塊是Python自帶的對(duì)html文件進(jìn)行解析的模塊,可以分析其中的標(biāo)簽、數(shù)據(jù)等;

4、join函數(shù)是將字符串、列表、元組中的元素按照指定分隔符連接成新的字符串;代碼中的是把讀取的文件內(nèi)容用""表示的空字符連接起來。

被解析的網(wǎng)址是張這樣的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,680評(píng)論 19 139
  • 《裕語言》速成開發(fā)手冊(cè)3.0 官方用戶交流:iApp開發(fā)交流(1) 239547050iApp開發(fā)交流(2) 10...
    葉染柒丶閱讀 28,783評(píng)論 5 20
  • 有一天,我正在努力碼字發(fā)推送的時(shí)候,突然收到了春風(fēng)小姐的微信消息。 “嘿,我們工作室拍的第一部電影過段時(shí)間要上線了...
    賤賤小姐閱讀 421評(píng)論 1 5
  • 今天講一則笑話,關(guān)于愛情。 或許不是愛情,是被愛。被接受的才叫愛,一廂情愿的付出追逐,是愛慕。因?yàn)閻勰?,去了解一個(gè)...
    桃花太紅李太白呀閱讀 1,550評(píng)論 8 5

友情鏈接更多精彩內(nèi)容