十五、 動態(tài)網(wǎng)頁爬蟲方案介紹
1、學會動態(tài)網(wǎng)頁爬蟲。
2、學會selenium庫使用。
什么是動態(tài)網(wǎng)頁爬蟲
1、動態(tài)網(wǎng)頁,是網(wǎng)站在不重新加載的情況下,通過ajax技術動態(tài)更新網(wǎng)站中的局部數(shù)據(jù)。比如拉勾網(wǎng)的職位頁面,在換頁的過程中,url是沒有發(fā)生改變的,但是職位數(shù)據(jù)動態(tài)的更改了。
2、AJAX(Asynchronouse
JavaScipt And XML)異步JavaScipt和XML。前端與服務器進行少量數(shù)據(jù)交換,Ajax可以使網(wǎng)頁實現(xiàn)異步更新。這意味著可以在不重新加載整個網(wǎng)頁的情況下,對網(wǎng)頁的某部分進行更新。傳統(tǒng)的網(wǎng)頁(不使用Ajax)如果需要更新內(nèi)容,必須重載整個網(wǎng)頁頁面。因為傳統(tǒng)的在傳輸數(shù)據(jù)格式方面,使用的是XML語法。因此叫做AJAX,其實現(xiàn)在數(shù)據(jù)交互基本上都是使用JSON。使用AJAX加載的數(shù)據(jù),即使使用了JS,將數(shù)據(jù)渲染到了瀏覽器中,在右鍵->查看網(wǎng)頁源代碼還是不能看到通過ajax加載的數(shù)據(jù),只能看到使用這個url加載的html代碼。
動態(tài)網(wǎng)頁爬蟲的解決方案
1、直接分析ajax調(diào)用的接口。然后通過代碼請求這個接口。
2、使用Selenium+chromedriver模擬瀏覽器行為獲取數(shù)據(jù)。

上一篇文章 第五章 爬蟲進階(十四) 2020-01-31 地址:
http://www.itdecent.cn/p/a84cfd1ec83b
下一篇文章 第五章 爬蟲進階(十六) 2020-02-02 地址:
?http://www.itdecent.cn/p/58d34df906f6
以上資料內(nèi)容來源網(wǎng)絡,僅供學習交流,侵刪請私信我,謝謝。