request+bs4爬取糗事百科數(shù)據(jù)

import requests
from bs4 import BeautifulSoup
import json
import time

i = 0
data = {}
def save_file(content):
    file = open('qsbk.txt','a')
    file.writelines(content)
    file.close()

while True:
    url = 'https://www.qiushibaike.com/8hr/page/'+str(i)+'/?s=4986156'

    data['dicAccept-Encoding'] = 'gzip, deflate'
    data['Referer'] = 'https://www.qiushibaike.com/'
    data['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
    data['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/602.3.12 (KHTML, like Gecko) Version/10.0.2 Safari/602.3.12'
    data['Accept-Language'] = 'zh-cn'

    respose = requests.get(url,data)
    soup = BeautifulSoup(respose.text,'html5lib')

    results = soup.find_all('div',class_='content')

    for result in results:
        span = result.select('span')
        print(span[0].text +'\n'+'\n')
        save_file(span[0].text +'\n')
    i += 1;
    time.sleep(4)

在這里我讓其4秒自動執(zhí)行下一頁數(shù)據(jù)的抓取,并進(jìn)行保存,最終的結(jié)果就像這樣。(當(dāng)然,不應(yīng)該這么做的)


WechatIMG85.jpeg
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容