python簡單應用!用爬蟲來采集天貓所有優(yōu)惠券信息,寫入本地文件

今天給大家分享一個小網站的數據采集,并寫到excel里面!

分析網站

目標網站是“小咪購”,這里有天貓所有的含有購物券的商品信息,我們今天就來抓它吧!

隨便找一段文字,然后點擊右鍵查看網頁源代碼,看看是否存在該文字,如果存在,那么這個網頁就是靜態(tài)網站了!很幸運,這個網站居然是靜態(tài)的。

那就簡單了,不需要去分析ajax加載數據或者找json包了,直接獲取網頁源代碼==>>匹配相關內容==>>保存數據即可!

工具和庫

Windows+python3.6

import random

import time

import requests

from lxml import etree

import xlwt

用這幾個庫就可以搞定了!注意xlwt和xlrd這2個庫都是操作excel的,一個是保存數據,一個是讀取數據,不要搞混了。

開始寫代碼

首先寫一個函數,將所有的爬蟲工作寫到函數里,如下圖

這個網站需要寫上headers,不寫是抓不到數據的!新建一個列表,將爬到的相關數據寫入列表,它的形式大概是這樣的:【【產品信息A1,2,3……】,【產品信息B1,2,3……】……】,這么寫列表是因為我們最后要將他們寫如excel表格,那么列表中的每一個元素(還是列表形式)都是一行數據,方便寫入!

注意第33行,列表構成的時候,用+連接會將所有列表中的元素放入一個列表,比如:【1,2,3】+【4,5】=【1,2,3,4,5】,而用append()函數則會將后面的內容作為一個元素加入列表中,比如:[1,2,3].append([4,5])=[1,2,3,[4,5]]

下來就是寫入excel了,首先是新建excel表格,并寫入第一行數據

后面的數據,依次按格式寫入并最后用wb.save(路徑)的方式保存即可!完整代碼及效果如下

由于網站更新的很快(官方說是10分鐘。。。),所以也沒有抓取那么多,所有的頁面有大約600多頁,一頁100條信息,也就是說一共有6萬多條商品信息,如果不用多線程的話會很慢!

代碼在上傳的過程中會有壓縮,如果實在看不清楚的話,大家可以私信我獲取源碼!

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 關于Mongodb的全面總結 MongoDB的內部構造《MongoDB The Definitive Guide》...
    中v中閱讀 32,273評論 2 89
  • ¥開啟¥ 【iAPP實現進入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個線程,因...
    小菜c閱讀 7,295評論 0 17
  • 你是天上的云為我遮擋烈日的火焰 你是夏日的涼風給我?guī)黻囮嚽鍥?你是冬天的火爐讓我不在寒冷 你是春天里的陽光給我希...
    冬日的戀愛閱讀 142評論 0 0
  • 自從y小姐搬到新家之后,幾個星期沒下雨的天空突然不斷下起雨來,讓y小姐本來由于搬家而愉悅的心變地煩躁不安,心臟就像...
    你那里幾點了wzq閱讀 323評論 0 2
  • 文/清荷沐陽 對你的思念如臨大海 我佇立在海的這邊 遙望對岸 看驚濤亂舞 我淚眼迷離 我拿起樹枝 試圖在細沙里勾畫...
    清荷沐陽閱讀 393評論 13 12

友情鏈接更多精彩內容