網(wǎng)站反爬策略VS爬蟲反反爬策略

1.header 檢驗(yàn),最簡(jiǎn)單的反爬機(jī)制,就是檢查 HTTP 請(qǐng)求的 Headers 信息,包括 User-Agent,、 Referer、Cookies 等。
解決辦法:模仿瀏覽器,請(qǐng)求的時(shí)候帶上Headers 信息,包括 User-Agent,、 Referer、Cookies 等
2.一段時(shí)間內(nèi)的請(qǐng)求次數(shù)限制,限制 IP 的請(qǐng)求數(shù)量
解決辦法:限制IP訪問(wèn)頻率,對(duì)性能有要求的可以使用代理IP池,具體數(shù)量根據(jù)業(yè)務(wù)需求來(lái)計(jì)算。
3.同一IP或同一用戶頻發(fā)請(qǐng)求后彈出驗(yàn)證碼
解決辦法:要么使用代理,準(zhǔn)備多個(gè)用戶避免出現(xiàn)驗(yàn)證碼,要么就破解驗(yàn)證么或者使用第三方打碼平臺(tái)(較為復(fù)雜的驗(yàn)證碼可能無(wú)解只能想辦法避開(kāi))
4.數(shù)據(jù)不直接渲染,前端異步加載數(shù)據(jù)
解決辦法:一般JS都是請(qǐng)求某個(gè)鏈接得到數(shù)據(jù),所以需要我們?nèi)?duì)應(yīng)JS代碼里面分析具體請(qǐng)求了哪個(gè)鏈接,然后采用同樣的方式,用程序模擬請(qǐng)求。
5.通過(guò) js 的加密庫(kù)生成動(dòng)態(tài)的 token,同時(shí)加密庫(kù)再進(jìn)行混淆
解決辦法:一般加密都在某個(gè)JS里面,所以只能分析JS,在我們的程序里面進(jìn)行加密了。用

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容