一般來講對我們而言,需要抓取的是某個網(wǎng)站或者某個應(yīng)用的內(nèi)容,提取有用的價值。內(nèi)容一般分為兩部分,非結(jié)構(gòu)化的數(shù)據(jù) 和 結(jié)構(gòu)化的數(shù)據(jù)。
- 非結(jié)構(gòu)化數(shù)據(jù):先有數(shù)據(jù),再有結(jié)構(gòu),
- 結(jié)構(gòu)化數(shù)據(jù):先有結(jié)構(gòu)、再有數(shù)據(jù)
- 不同類型的數(shù)據(jù),我們需要采用不同的方式來處理。
非結(jié)構(gòu)化的數(shù)據(jù)處理
文本、電話號碼、郵箱地址
- 正則表達式
HTML 文件
- 正則表達式
- XPath
- CSS選擇器
結(jié)構(gòu)化的數(shù)據(jù)處理
JSON 文件
- JSON Path
- 轉(zhuǎn)化成Python類型進行操作(json類)
XML 文件
- 轉(zhuǎn)化成Python類型(xmltodict)
- XPath
- CSS選擇器
- 正則表達式