re模塊的高級用法
search:
search 方法用于查找字符串的任何位置,它也是一次匹配,只要找到了一個(gè)匹配的結(jié)果就返回,而不是查找所有匹配的結(jié)果,它的一般使用形式如下:
當(dāng)匹配成功時(shí),返回一個(gè) Match 對象,如果沒有匹配上,則返回 None。
需求:匹配出文章閱讀的次數(shù)
#coding=utf-8
import re
ret = re.search(r"\d+", "閱讀次數(shù)為 9999")
ret.group()
運(yùn)行結(jié)果:
'9999'
findall
上面的 match 和 search 方法都是一次匹配,只要找到了一個(gè)匹配的結(jié)果就返回。然而,在大多數(shù)時(shí)候,我們需要搜索整個(gè)字符串,獲得所有匹配的結(jié)果。
- findall 方法的使用形式如下:
findall 以列表形式返回全部能匹配的子串,如果沒有匹配,則返回一個(gè)空列表。
需求:統(tǒng)計(jì)出python、c、c++相應(yīng)文章閱讀的次數(shù)
#coding=utf-8
import re
ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)
運(yùn)行結(jié)果:
['9999', '7890', '12345']
sub
sub 方法用于替換。它的使用形式如下:
需求:將匹配到的閱讀次數(shù)加1
方法1:
#coding=utf-8
import re
ret = re.sub(r"\d+", '998', "python = 997")
print(ret)
運(yùn)行結(jié)果:
python = 998
方法2:
#coding=utf-8
import re
def add(temp):
strNum = temp.group()
num = int(strNum) + 1
return str(num)
ret = re.sub(r"\d+", add, "python = 997")
print(ret)
ret = re.sub(r"\d+", add, "python = 99")
print(ret)
運(yùn)行結(jié)果:
python = 998
python = 100
split
根據(jù)匹配進(jìn)行切割字符串,并返回一個(gè)列表
需求:切割字符串“info:xiaoZhang 33 shandong”
#coding=utf-8
import re
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)
運(yùn)行結(jié)果:
['info', 'xiaoZhang', '33', 'shandong']
finditer
finditer方法的行為跟 findall 的行為類似,也是搜索整個(gè)字符串,獲得所有匹配的結(jié)果。但它返回一個(gè)順序訪問每一個(gè)匹配結(jié)果(Match 對象)的迭代
import re
ret = re.finditer('ha',baseStr)
print(type(ret))
print(ret)
for item in ret:
print(type(item))
print(item.group())
結(jié)果: <class 'callable_iterator'> <callable_iterator object at 0x7fb06cc15828> <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha
xpath
XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷。
- XML 指可擴(kuò)展標(biāo)記語言(EXtensible Markup Language)
- XML 是一種標(biāo)記語言,很類似 HTML
- XML 的設(shè)計(jì)宗旨是傳輸數(shù)據(jù),而非顯示數(shù)據(jù)
- XML 的標(biāo)簽需要我們自行定義。
- XML 被設(shè)計(jì)為具有自我描述性。
- XML 是 W3C 的推薦標(biāo)準(zhǔn)
具體使用請見[多線程]