小爬蟲

注:本人菜鳥一枚,自學(xué)python,記錄學(xué)習(xí)過程中所學(xué)所思,希望自己有所收獲

__author__ = 'juehuan'
import requests
import json
import time


class cldata():
    def __init__(self):
        self.url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
        self.header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
        self.cookie = {
            'Cookie': 'JSESSIONID=02EF275A008A3ADEE700B04B543AE18E; JSESSIONID=A7FC968A8F43B9DA2EABBA61D72602CC'}
        self.f = open('食品.txt', 'w', encoding='utf-8')
        self.f.write('企業(yè)名稱 | 許可證編號 | 發(fā)證機(jī)關(guān) | 有效期至 | 發(fā)證日期\n')

    def get_cfda(self, page):
        self.data = {
            'on': True,
            'page': page,
            'pageSize': 15,
            'productName': '',
            'conditionType': 1,
            'applyname': '',
            'applysn': ''
        }
        self.html = requests.post(self.url, data=self.data, headers=self.header, cookies=self.cookie)
        datas = self.html.json()
        for i in datas['list']:
            self.write_cfda(i)

    def write_cfda(self, company):
        try:
            self.f.write('%s | %s | %s | %s | %s\n' % (
                company['EPS_NAME'], company['EPS_NAME'], company['QF_MANAGER_NAME'],
                company['XK_DATE'], company['XC_DATE']))
        except:
            print('寫入錯誤')

    def close(self):
        self.f.close()


if __name__ == '__main__':
    start_time = time.time()
    cfda = cldata()
    for i in range(1, 271):
        cfda.get_cfda(i)
    cfda.close()
    end_time = time.time()
    print('total time :', end_time - start_time)

總結(jié):涉及面向?qū)ο螅╯elf)、爬蟲requests的post方式、列表等知識點(diǎn);

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容