不知道大家有沒有遇到過這樣一個小問題:第一次打開頁面抓包分析相關(guān)地址是正常的,后面刷新或者再打開的時候,狀態(tài)碼就變成了304,這樣再去采集的時候就不會采集到數(shù)據(jù)了。
可以通過一個地址來看一下:

小例子
如果你已經(jīng)遇到過次問題的話,馬上就可以想到問題所在了:就是用Cache-Control控制的緩存:
Cache-Control是控制緩存的開關(guān),用于標(biāo)識請求或訪問中是否開啟了緩存,使用了哪種緩存方式。
我們模擬請求頭,在請求發(fā)出時,一般的網(wǎng)站大都設(shè)置Cache-Control為no-cache,也有一些為了處理相同的請求,服務(wù)器不會再一次發(fā)送資源,所以將Cache-Control設(shè)置為max-age=0也就是上圖小例子中的值。只要將它的設(shè)置改為no-cache或者干脆不寫這個值,這樣就不會發(fā)生采集錯誤的問題了。
所以,我們在采集程序中模擬請求頭的時候,header里面的內(nèi)容還是要去分析看一下,搞明白每個字段的意思。