我就不信有滿分飄過的學霸!
請聽題:
下拉查看答案
▼
正確答案 B
最大的爬蟲就是搜索引擎。Google作為世界上最大的搜索引擎,其爬蟲流量也遙遙領(lǐng)先于其他各類搜索引擎爬蟲,占所有爬蟲流量的3.87%
下拉查看答案
▼
正確答案 C
企業(yè)工商注冊信息不是個人數(shù)據(jù),數(shù)據(jù)來源都是國家公示網(wǎng)站,所公示內(nèi)容是依法公開的內(nèi)容。
對于敏感的個人信息,比如爬取社保、身份證號、淘寶交易記錄,是違法的。
下拉查看答案
▼
正確答案 A
數(shù)據(jù)來自淺黑科技:關(guān)于爬蟲,這里有一份《中國焦慮圖鑒》
下拉查看答案
▼
正確答案 C
使用打碼平臺是最快解決問題的方法
下拉查看答案
▼
正確答案 B
經(jīng)過分析,發(fā)現(xiàn)迷之字符規(guī)律的出現(xiàn)在 span 標簽內(nèi),所以就把 span 標簽的內(nèi)容干掉好了。
下拉查看答案
▼
正確答案 C
美團這里用到的是 background 拼湊。數(shù)字其實是圖片,根據(jù)不同的background偏移,顯示出不同的字符。
既然人眼可以看出數(shù)字是多少,那么程序也可以識別??梢杂?tesseract-ocr 進行圖片識別。
下拉查看答案
▼
正確答案 B
這里去哪兒的策略是先用四個i標簽渲染,再用兩個b標簽去絕對定位偏移量,覆蓋故意展示錯誤的i標簽,最后在視覺上形成正確的價格。
找到規(guī)律,根據(jù)元素偏移量去計算正確的數(shù)字和位數(shù),替換掉錯誤的價格即可。
下拉查看答案
▼
正確答案 AC
使用?Selenium + chromedriver 或者抓 API 接口都可以,這里不推薦?PhantomJS 是因為框架不再維護了。但可能一些老的教程還在用。
下拉查看答案
▼
正確答案 AB
抓包 mitmproxy 或者 APK 反編譯都可以。Requests 肯定是請求不到的了。
10. 簡答題:這張圖還可以再往下補充的進攻和防守輪回是什么?
下拉查看答案
▼
參考答案
其實可以補充的有很多了,真實世界比這張圖復雜很多,在這里提供兩個思路:
一輪:
反爬的防守:識別出來selenium爬蟲,進行數(shù)據(jù)投毒,給假數(shù)據(jù)。
爬取的進攻:Android模擬器,模擬正常用戶,或者再換一個http client
又一輪:
爬取的進攻:模擬正常用戶行為,點擊其他功能或者頁面
反爬的防守:爬取的限速限流
考試結(jié)束~
麻瓜們考的怎么樣?
每道題10分,滿分100分,你能得多少分呢?
如果需要補課的話,可以看下Python 商業(yè)爬蟲學徒計劃,皓禹老師和侯爵老師一起手把手帶你從0基礎(chǔ)到掌握 Python 商業(yè)爬蟲。
課程不僅教你寫爬蟲,還帶著你寫出一個易用可插拔、工程化的商業(yè)爬蟲框架。
線下面授課程在舒適的辦公空間進行授課,同時也提供了在線直播的方式,會錄制人像和代碼屏幕這兩個機位,并且有在線舉手答疑和遠程代碼review,盡可能的讓參加在線直播的同學獲得親臨現(xiàn)場一樣的體驗。
課程相關(guān)資料都會分享給學徒們,可以永久觀看與使用。
如果想咨詢更多信息,請加西西姐微信 794498950,備注學徒計劃
也可查看課程詳情:http://hdxu.cn/X2EhL