? ? ? ? 感覺今天的代碼可以實(shí)現(xiàn)爬蟲的功能,解析一個(gè)網(wǎng)址并下載網(wǎng)址。


? ? 完整代碼如上;
1、導(dǎo)入urllib、re模塊;從HTMLParser模塊導(dǎo)入類;
2、利用urlretrieve()提取網(wǎng)址的信息,并存儲(chǔ)在文件中;
3、以只讀方式打開文件,讀取文件所有行內(nèi)容打印相關(guān)信息。

第一面的打印內(nèi)容,包括了網(wǎng)址,gif圖地址,時(shí)間信息;

標(biāo)準(zhǔn)時(shí)間前一天的時(shí)間信息和對(duì)應(yīng)的網(wǎng)址信息;

.
.
.還有很多這樣的信息。

一直到最后的網(wǎng)址信息。還有11好的信息,不知道是什么操作機(jī)制。
查閱相關(guān)資料后:
1、urllib模塊是接受url請(qǐng)求的模塊;也就是可以實(shí)現(xiàn)和互聯(lián)網(wǎng)通信的功能;urlretrieve方法將url定位到的html文件下載到指定文件中;如果不指定filename,則會(huì)存為臨時(shí)文件;
2、re模塊是為高級(jí)字符串處理提供正則表達(dá)式的工具;re.sub()用于替換字符串中的匹配項(xiàng),代碼中是把文件中讀取的內(nèi)容匹配項(xiàng)(正則表達(dá)式)替換為''表示的空字符;
3、HTMLParser模塊是Python自帶的對(duì)html文件進(jìn)行解析的模塊,可以分析其中的標(biāo)簽、數(shù)據(jù)等;
4、join函數(shù)是將字符串、列表、元組中的元素按照指定分隔符連接成新的字符串;代碼中的是把讀取的文件內(nèi)容用""表示的空字符連接起來。

被解析的網(wǎng)址是張這樣的。