爬蟲是一個技能型的知識,不是說掌握了一次就能學好,而是需要學懂原理,在不同的網站上有不一樣的設置和應用。
今天就來3個練習題,每道題練習5遍,確保熟練掌握。
1,抓取下面這個頁面文章所有的標題
https://www.zhihu.com/people/huangyoucan/answers
2,抓取《貓總在路上》這個公眾號所有的歷史文章標題
3,抓取豆瓣Top250所有電影的標題
https://movie.douban.com/top250
任務一答疑——
為什么只能抓第一頁的內容?
抓取后會發(fā)現所有的回答有7頁,但是按照之前學會的selector設置,只能抓取第一頁,怎么辦呢?
我們需要觀察第一頁和后面頁碼的命名規(guī)則,以知乎回答頁面為例,
第一頁:https://www.zhihu.com/people/huangyoucan/answers?page=1
第二頁:https://www.zhihu.com/people/huangyoucan/answers?page=2
這種命名是很規(guī)則的,那么我們可以在下圖的地方將URL進行修改,讓爬蟲抓取所有7頁的數據。


在這個鏈接后面改成page=[1-7]變成
https://www.zhihu.com/people/huangyoucan/answers?page=[1-7]
就可以抓取1-7頁所有的標題了。
如果網速不好的,建議在delay這里設置長一點,給一點時間緩沖,避免爬蟲漏抓,500代表0.5秒。

為了避免前面的設置出問題,可以先抓第一頁看是否正確,再設置多頁抓取。
好啦,今天我們又掌握了一個爬蟲新技能——
如何多頁面抓取,趕緊去試試看你是否掌握了吧!