一個簡單的node爬蟲

爬蟲的原理其實很簡單,就是模擬訪問一個網頁,在網頁中尋找你需要的信息并進行保存

  • 今天的目標是某報名網站,因為我報了某個崗位,想知道競爭的人有多少,所以觀察網站后發(fā)現,他們的報名簡歷直接存儲,修改url就可以訪問其他人的頁面,這就代表我可以通過爬蟲,從幾萬份簡歷中篩選出和我同一個崗位的對手
  • 因為對JS比較熟悉,所以選用了node來進行爬取
  • 用到的庫有superagentasync
    superagent可以理解為服務端的ajax,async用來控制并發(fā)數,以免請求過多,導致禁止訪問
  • 首先需要一個數組,經過手動比對,今年的簡歷從30000左右開始,48000停止,所以
let urls = []
for(let i = 30000;i<47715;i++){
  urls.push('http://xxxxxxxxxxxxx/'+i)
}
  • 然后通過async來控制并發(fā)數
async.mapLimit(urls,20,function(url,callback){
  superagent.get(url).set(header).end(function(err,res){
    if(res){check(res.text,url)}
    callback(null)
  })
  })
  function check(res,url){
    if('這里寫自己的匹配內容,如崗位匹配'){
      console.log(url)
    }
  

這樣一個簡單的爬蟲就做好了,通過這個爬蟲我了解到和我同崗位的有10個人,并不多,加油咯~

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容