java爬蟲(chóng)進(jìn)階篇(半小時(shí)知乎兩萬(wàn)推薦問(wèn)題)

上一篇寫(xiě)了一個(gè)簡(jiǎn)單的新浪新聞爬蟲(chóng)作為上手主要是用jsoup包來(lái)對(duì)url頁(yè)面進(jìn)行抓取到本地,并在本地進(jìn)行數(shù)據(jù)的解析提取。這里就不重復(fù)敘述jsoup的用法了,百度一下基本一大片。看了網(wǎng)上大神們都有對(duì)知乎進(jìn)行爬取,今天我也拿它來(lái)試試手。寫(xiě)這篇文章的目的主要是想將自己在爬取中遇到的一些坑,以及怎么解決的做一下記錄。也算是一次加深理解的過(guò)程。

爬取的目標(biāo)頁(yè)面
2017-12-31_172919.png

目標(biāo)是爬取問(wèn)題推薦頁(yè)面的所有問(wèn)題。但是隨后我就發(fā)現(xiàn)一個(gè)問(wèn)題,第一次我是通過(guò)抓取這個(gè)https://www.zhihu.com/explore/recommendations鏈接來(lái)獲取問(wèn)題列表,但是當(dāng)代碼敲完測(cè)試的時(shí)候發(fā)現(xiàn)數(shù)據(jù)只有20條。。。這顯然不是我所期望的,看了一遍代碼 發(fā)現(xiàn)代碼是沒(méi)有毛病,那么問(wèn)題出在哪里?排查了一片以及debug模式。最終發(fā)現(xiàn)是頁(yè)面的問(wèn)題。因?yàn)槲液雎粤艘粋€(gè)重要的地方。頁(yè)面是動(dòng)態(tài)加載的,而且每次只加載20條。

頁(yè)面加載.png

問(wèn)題就出在這個(gè)地方,這里其實(shí)還包含了一個(gè)地址(https://www.zhihu.com/node/ExploreRecommendListV2)。通過(guò)抓包可以發(fā)現(xiàn)(google的F12真的好用,推薦多去看看)
ajax請(qǐng)求頭.png

請(qǐng)求參數(shù).png

返回json結(jié)果.png

知道問(wèn)題出在哪里其實(shí)就已經(jīng)完成了一半了。說(shuō)一下接下來(lái)我的思路:

  • 因?yàn)橛谜?qǐng)求的參數(shù)可以看出其實(shí)這就是一個(gè)類似于一個(gè)分頁(yè)信息一樣。那么我只要在java代碼中每次模仿頁(yè)面的請(qǐng)求給知乎發(fā)送ajax請(qǐng)求,然后解析返回的json結(jié)果是不是就可以獲取其中的問(wèn)題信息了。
  • 上面其實(shí)就已經(jīng)有兩個(gè)需求需要解決。
    1. 在java代碼中模仿ajax發(fā)送請(qǐng)求。采用的是Httpclient。
    2. 解析返回的json,Gson jar包可以完美解決。

封裝了httpclient post請(qǐng)求

  public class HttpClientUtil {
    /**
     * 
    * @Title: doPost
    * @Description: 模仿提交post請(qǐng)求
    * @param @param url
    * @param @param map 請(qǐng)求的參數(shù) 采用map集合封裝參數(shù)
    * @param @param charset 編碼格式
    * @param @return    參數(shù)
    * @return String 返回類型
    * @author  liangchu
    * @date 2017-12-31 下午7:09:14 
    * @throws
     */
    public static String doPost(String url,Map<String,Object> map,String charset){  
        HttpClient httpClient = null;  
        HttpPost httpPost = null;  
        String result = null;  
        try{  
            httpClient = new SSLClient();  
            httpPost = new HttpPost(url);  
            //設(shè)置參數(shù)  
            List<NameValuePair> list = new ArrayList<NameValuePair>();  
            Iterator iterator = map.entrySet().iterator();  
            while(iterator.hasNext()){  
                Entry<String,Object> elem = (Entry<String, Object>) iterator.next();  
                list.add(new BasicNameValuePair(elem.getKey(),(String) elem.getValue()));  
            }  
            if(list.size() > 0){  
                UrlEncodedFormEntity entity = new UrlEncodedFormEntity(list,charset);  
                httpPost.setEntity(entity);  
            }  
            HttpResponse response = httpClient.execute(httpPost);  
            if(response != null){  
                HttpEntity resEntity = response.getEntity();  
                if(resEntity != null){  
                    result = EntityUtils.toString(resEntity,charset);  
                }  
            }  
        }catch(Exception ex){  
            ex.printStackTrace();  
        }  
        return result;  
    }  
}

根據(jù)url鏈接地址獲取對(duì)應(yīng)的信息列表

/**
     * 
    * @Title: spiderZH2
    * @Description: 這里是采用httpclient包發(fā)送請(qǐng)求 獲取需要加載的列表
    * @param @param url    參數(shù)url地址 offset 根據(jù)offset顯示問(wèn)題信息列表 
    * @return void 返回類型
    * @author  liangchu
    * @date 2017-12-31 下午2:11:23 
    * @throws
     */
    public static void spiderZH2(String url,int offset){
        try {
            //String curl ="https://www.zhihu.com/node/ExploreRecommendListV2";
             Map<String,Object> createMap = new HashMap<String,Object>();
             String charset = "utf-8";
             // method 提交的參數(shù)             
             createMap.put("method", "next");
             Map<String,Object> map = new HashMap<String, Object>();
             // 分頁(yè)顯示的數(shù)據(jù)
             map.put("limit", 20);
             map.put("offset", offset);
             createMap.put("method", "next");
             Gson gson = new Gson();
             String mapStr = gson.toJson(map);
             // 請(qǐng)求的參數(shù)
             createMap.put("params", mapStr);
             // 根據(jù)httpclient模仿post請(qǐng)求
             String httpOrgCreateTestRtn = HttpClientUtil.doPost(url,createMap,charset); 
             Map maps = gson.fromJson(httpOrgCreateTestRtn, Map.class);
            String html = maps.get("msg").toString();
             Document doc = Jsoup.parse(html);
             Elements elements = 
                     doc.select("div[class=zm-item]").select("h2").
                     select("a[class=question_link]");
            File file = new File("F:/replite/zhifuwenda.txt");
            // 遍歷每個(gè)問(wèn)題節(jié)點(diǎn)
            for (Element question : elements) {
                // 獲取連接地址
                String qUrl = question.attr("href");
                // 這里需要判斷urlhttp格式
                if(!qUrl.contains("https://")){
                    qUrl = "https://www.zhihu.com"+qUrl;
                }
                Document document2=Jsoup.connect(qUrl)
                        .userAgent("Mozilla/5.0 "
                                + "(iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) "
                                + "AppleWebKit/533.17.9"
                                + " (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5")
                        .get();             
                // 問(wèn)題標(biāo)題             
                Elements title = document2.select("#root").select("div").select("main").
                select("div").select("div:nth-child(10)").select("div.QuestionHeader").
                select("div.QuestionHeader-content").select("div.QuestionHeader-main").
                select("h1");
                // 回答問(wèn)題的內(nèi)容
                Elements content = document2.select("#root").select("div").select("main").
                        select("div").select("div.Question-main").select("div.Question-mainColumn").
                        select("div.Card.AnswerCard").select("div").select("div").
                        select("div.RichContent.RichContent--unescapable").
                        select("div.RichContent-inner");                
                if (!file.getParentFile().exists()) {//判斷路徑是否存在,如果不存在,則創(chuàng)建上一級(jí)目錄文件夾
                    file.getParentFile().mkdirs();
                }
                FileWriter fileWriter=new FileWriter(file, true); 
                fileWriter.write("=============鏈接:"+qUrl+"\r\n");
                fileWriter.write("=============標(biāo)題:"+title.get(0).text()+"\r\n");
                fileWriter.write("=============回答:"+content.get(0).text()+"\r\n");
                fileWriter.close();
            }
            
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

調(diào)用

public static void main(String [] args){
        // 這里采用循環(huán)的方式去除列表
        String url = "https://www.zhihu.com/node/ExploreRecommendListV2";
        for(int i=1;i<1000;i++){
        spiderZH2(url,59+i*20);
        }
    }

數(shù)據(jù)采集截圖

2017-12-31_191857.png

改進(jìn)的地方還有很多,比如說(shuō)可以采用多線程采集,應(yīng)該效率會(huì)比較高,在實(shí)際的應(yīng)用應(yīng)該是采集的數(shù)據(jù)可以存入redis中,然后在由redis insert進(jìn)數(shù)據(jù)庫(kù)。要改進(jìn)的地方還有很多,時(shí)間的問(wèn)題也就沒(méi)有去考慮的。這也算是上一個(gè)版本一個(gè)小小的提升吧。O(∩_∩)O

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 隨著互聯(lián)網(wǎng)+時(shí)代的來(lái)臨,越來(lái)越多的互聯(lián)網(wǎng)企業(yè)層出不窮,涉及游戲、視頻、新聞、社交、電商、房產(chǎn)、旅游等眾多行業(yè)。如今...
    JackChen1024閱讀 10,811評(píng)論 2 49
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 178,937評(píng)論 25 709
  • 自從在朋友@gyg 的幫助下,注冊(cè)了steemit賬號(hào),并于2017年9月24日發(fā)出了第一篇文章,說(shuō)是文章,其實(shí)就...
    胡義華閱讀 825評(píng)論 4 3
  • 看到這條線了嗎,看樣了,你很快會(huì)擁有一場(chǎng)轟轟烈烈的愛(ài)情! ...
    晨若若曦閱讀 4,931評(píng)論 7 7
  • 他叫笨南北, 你叫小東西。 他是小沙彌, 你是小伶俐。 他很喜歡你,輕輕嘆息。 像夏蟲(chóng)語(yǔ)冰, 心碎自欺。 像風(fēng)吹大...
    忘蘇閱讀 402評(píng)論 5 7

友情鏈接更多精彩內(nèi)容