Python抓取數(shù)據(jù)具體流程
之前看了一段有關(guān)爬蟲(chóng)的網(wǎng)課深有啟發(fā),于是自己也嘗試著如如何過(guò)去爬蟲(chóng)百科“python”詞條等相關(guān)頁(yè)面的整個(gè)過(guò)程記錄下來(lái),方便后期其他人一起來(lái)學(xué)習(xí)。
抓取策略
確定目標(biāo):重要的是先確定需要抓取的網(wǎng)站具體的那些部分,下面實(shí)例是抓取百科python詞條頁(yè)面以及python有關(guān)頁(yè)面的簡(jiǎn)介和標(biāo)題。
分析目標(biāo):分析要抓取的url的格式,限定抓取范圍。分析要抓取的數(shù)據(jù)的格式,本實(shí)例中就要分析標(biāo)題和簡(jiǎn)介這兩個(gè)數(shù)據(jù)所在的標(biāo)簽的格式。分析要抓取的頁(yè)面編碼的格式,在網(wǎng)頁(yè)解析器部分,要指定網(wǎng)頁(yè)編碼,然后才能進(jìn)行正確的解析。
編寫(xiě)代碼:在網(wǎng)頁(yè)解析器部分,要使用到分析目標(biāo)得到的結(jié)果。
執(zhí)行爬蟲(chóng):進(jìn)行數(shù)據(jù)抓取。





