2-002 REQUEST 獲取 貼吧 關(guān)鍵字 JAVA 封裝成類 面向?qū)ο蟮男问?2020-04-27

#JAVA 封裝成類 面向?qū)ο蟮男问?/p>

import?requests

#?https://tieba.baidu.com/f?ie=utf-8&kw=JAVA

class?TiebaSpider(object):

????def?__init__(self,tieba_name):

????????self.tieba_name=tieba_name

????????self.url='https://tieba.baidu.com/f?kw=java&ie=utf-8&pn={}'


????def?get_url_list(self):

????????"""構(gòu)造URL列表"""

????????url_list=[]

????????for?i?in?range(5):

????????????url_list.append(self.url.format(i*50))

????????return?url_list

????def?parse_url(self,url):

????????"""發(fā)送請求?獲取響應(yīng)"""

????????response=requests.get(url)

????????return?response.text

????def?save_html(self,page_num,tb_html):

????????"""保存頁面"""

????????file_path='jave_html/{}-第{}頁.html'.format(self.tieba_name,page_num)

????????#jave-第1頁

????????with?open(file_path,'w',encoding='utf-8')?as?f:

????????????f.write(tb_html)


????def?run(self):

????????#實現(xiàn)主要業(yè)務(wù)邏輯

????????#1.構(gòu)造URL列表

????????tieba_url_list=self.get_url_list()

????????for?tburl?in?tieba_url_list:

????????????print(tburl)

????????????tb_html=self.parse_url(tburl)

????????????#保存頁面

????????????page_num=tieba_url_list.index(tburl)+1

????????????self.save_html(page_num,tb_html)

if?__name__?==?"__main__":

????tb_spider=TiebaSpider('jave')

????tb_spider.run()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容