爬蟲抓取|刻意練習,讓技術熟爛于心(1)

爬蟲是一個技能型的知識,不是說掌握了一次就能學好,而是需要學懂原理,在不同的網站上有不一樣的設置和應用。

今天就來3個練習題,每道題練習5遍,確保熟練掌握。

1,抓取下面這個頁面文章所有的標題

https://www.zhihu.com/people/huangyoucan/answers

2,抓取《貓總在路上》這個公眾號所有的歷史文章標題

3,抓取豆瓣Top250所有電影的標題

https://movie.douban.com/top250

任務一答疑——

為什么只能抓第一頁的內容?

抓取后會發(fā)現所有的回答有7頁,但是按照之前學會的selector設置,只能抓取第一頁,怎么辦呢?

我們需要觀察第一頁和后面頁碼的命名規(guī)則,以知乎回答頁面為例,

第一頁:https://www.zhihu.com/people/huangyoucan/answers?page=1

第二頁:https://www.zhihu.com/people/huangyoucan/answers?page=2

這種命名是很規(guī)則的,那么我們可以在下圖的地方將URL進行修改,讓爬蟲抓取所有7頁的數據。

在這個鏈接后面改成page=[1-7]變成

https://www.zhihu.com/people/huangyoucan/answers?page=[1-7]

就可以抓取1-7頁所有的標題了。

如果網速不好的,建議在delay這里設置長一點,給一點時間緩沖,避免爬蟲漏抓,500代表0.5秒。

為了避免前面的設置出問題,可以先抓第一頁看是否正確,再設置多頁抓取。

好啦,今天我們又掌握了一個爬蟲新技能——

如何多頁面抓取,趕緊去試試看你是否掌握了吧!

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容