node如何實現(xiàn)一個簡單的爬蟲

歡迎關注我的微信公眾號 "前端攻城",我不定期會更新一些內容。

我就直接上代碼了:)

var http = require('http');
var cheerio = require('cheerio');

var url = "http://www.baidu.com"; //初始url
function fetchPage(x) { //封裝了一層函數(shù)
    startRequest(x);
}

function startRequest(x) {
    //采用http模塊向服務器發(fā)起一次get請求      
    http.get(x, function (res) {
        var html = ''; //用來存儲請求網(wǎng)頁的整個html內容
        var titles = [];
        res.setEncoding('utf-8'); //防止中文亂碼
        //監(jiān)聽data事件,每次取一塊數(shù)據(jù)
        res.on('data', function (chunk) {
            html += chunk;
        });
        //監(jiān)聽end事件,如果整個網(wǎng)頁內容的html都獲取完畢,就執(zhí)行回調函數(shù)
        res.on('end', function () {
            // console.log(html)
            var $ = cheerio.load(html, {decodeEntities: false}); 
            //采用cheerio模塊解析    html
            var aa = "";
           aa += $('title').html().trim();
            console.log(aa);
        });
    }).on('error', function (err) {
        console.log(err);
    });
}

fetchPage(url); //主程序開始運行

我只是簡單使用了 http 模塊,以及一個第三方的 cheerio 模塊(node 中的jquery)用來解析html。如果你需要一個更復雜的爬蟲,可以自己引入一些第三方模塊,實現(xiàn)模擬點擊、下載圖片等功能。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容