爬蟲的原理其實很簡單,就是模擬訪問一個網頁,在網頁中尋找你需要的信息并進行保存
- 今天的目標是某報名網站,因為我報了某個崗位,想知道競爭的人有多少,所以觀察網站后發(fā)現,他們的報名簡歷直接存儲,修改url就可以訪問其他人的頁面,這就代表我可以通過爬蟲,從幾萬份簡歷中篩選出和我同一個崗位的對手
- 因為對JS比較熟悉,所以選用了node來進行爬取
- 用到的庫有
superagent,async
superagent可以理解為服務端的ajax,async用來控制并發(fā)數,以免請求過多,導致禁止訪問 - 首先需要一個數組,經過手動比對,今年的簡歷從30000左右開始,48000停止,所以
let urls = []
for(let i = 30000;i<47715;i++){
urls.push('http://xxxxxxxxxxxxx/'+i)
}
- 然后通過
async來控制并發(fā)數
async.mapLimit(urls,20,function(url,callback){
superagent.get(url).set(header).end(function(err,res){
if(res){check(res.text,url)}
callback(null)
})
})
function check(res,url){
if('這里寫自己的匹配內容,如崗位匹配'){
console.log(url)
}