第五章 爬蟲進階(十五) 2020-02-01

十五、 動態(tài)網(wǎng)頁爬蟲方案介紹


1、學會動態(tài)網(wǎng)頁爬蟲。

2、學會selenium庫使用。


什么是動態(tài)網(wǎng)頁爬蟲


1、動態(tài)網(wǎng)頁,是網(wǎng)站在不重新加載的情況下,通過ajax技術動態(tài)更新網(wǎng)站中的局部數(shù)據(jù)。比如拉勾網(wǎng)的職位頁面,在換頁的過程中,url是沒有發(fā)生改變的,但是職位數(shù)據(jù)動態(tài)的更改了。

2、AJAX(Asynchronouse

JavaScipt And XML)異步JavaScipt和XML。前端與服務器進行少量數(shù)據(jù)交換,Ajax可以使網(wǎng)頁實現(xiàn)異步更新。這意味著可以在不重新加載整個網(wǎng)頁的情況下,對網(wǎng)頁的某部分進行更新。傳統(tǒng)的網(wǎng)頁(不使用Ajax)如果需要更新內(nèi)容,必須重載整個網(wǎng)頁頁面。因為傳統(tǒng)的在傳輸數(shù)據(jù)格式方面,使用的是XML語法。因此叫做AJAX,其實現(xiàn)在數(shù)據(jù)交互基本上都是使用JSON。使用AJAX加載的數(shù)據(jù),即使使用了JS,將數(shù)據(jù)渲染到了瀏覽器中,在右鍵->查看網(wǎng)頁源代碼還是不能看到通過ajax加載的數(shù)據(jù),只能看到使用這個url加載的html代碼。


動態(tài)網(wǎng)頁爬蟲的解決方案


1、直接分析ajax調(diào)用的接口。然后通過代碼請求這個接口。

2、使用Selenium+chromedriver模擬瀏覽器行為獲取數(shù)據(jù)。


兩種方案的優(yōu)缺點


上一篇文章 第五章 爬蟲進階(十四) 2020-01-31 地址:

http://www.itdecent.cn/p/a84cfd1ec83b

下一篇文章 第五章 爬蟲進階(十六) 2020-02-02 地址:

?http://www.itdecent.cn/p/58d34df906f6



以上資料內(nèi)容來源網(wǎng)絡,僅供學習交流,侵刪請私信我,謝謝。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容