1.正則表達(dá)式語法
正則表達(dá)式是用來匹配或者描述字符串的工具
用途:
a.判斷輸入的字符串是否是郵箱/手機(jī)號(hào)碼。是否是IP地址
b.提取滿足條件的字符串
c.字符串替換
python中通過re模塊中相應(yīng)的方法來支持正則表達(dá)式的匹配、查找和替換功能
代碼示例
from re import fullmatch
"""
fullmatch(正則表達(dá)式字符串,字符串) --> 判斷正則表達(dá)式和字符串是否完全匹配
正則表達(dá)式:就是一個(gè)字符串,字符串中是正則表達(dá)式語法。r'正則表達(dá)式'
正則表達(dá)式中包含兩個(gè)部分,一個(gè)是正則表達(dá)式對(duì)應(yīng)的字符,二是普通字符
"""
# 1\. .(點(diǎn)):匹配任意字符
"""
一個(gè).只匹配一個(gè)任意字符
"""
# 匹配一個(gè)字符串,第一個(gè)是'a',第二個(gè)字符是是任意字符,最后一個(gè)字符是b
re_str = r'a.b'
result = fullmatch(re_str, 'a&b')
print(result)
# 匹配一個(gè)長度是4,第一個(gè)字符和最后一個(gè)字符分別是a,中間是兩個(gè)任意字符傳
re_str = r'a..b'
result = fullmatch(re_str, 'a&%b')
print(result)
# 2.\w:匹配字母數(shù)字下劃線
"""
一個(gè)\w匹配字符串
"""
# 匹配一個(gè)第一個(gè)字符是數(shù)字字母或者下劃線,后面三個(gè)字符是任意字符的字符串
re_str = r'\w...'
print(fullmatch(re_str, '_jss'))
print(fullmatch(re_str, '5jss'))
# 3.\s:匹配任意空白字符
"""
空白字符:空格、制表符、回車、等,都是如空白字符
一個(gè)\s匹配一個(gè)空白字符
"""
re_str = r'a\sb'
result = fullmatch(re_str, 'a\nb')
print(result)
# 4.\d:匹配數(shù)字字符
re_str = r'\d\d\d'
re_str = fullmatch(re_str, '185')
print(result)
# 5.\b:檢測邊界
"""
一個(gè)\b不會(huì)去匹配一個(gè)字符,而是是單純的檢測\b出現(xiàn)的位置是否是單詞邊界
單詞邊界:字符串開始和結(jié)尾、空格、換行、標(biāo)點(diǎn)符號(hào)等,可以將兩個(gè)單詞隔開的字符都是
"""
re_str = r'\babc'
result = fullmatch(re_str, 'abc')
print(result)
# 匹配 一個(gè)字符串前三位是abc,第四位是空白字符,后面是aaa,并且要求c是單詞邊界
re_str = r'abc\b.aaa'
result = fullmatch(re_str, 'abc,aaa')
print(result)
# 6.^:檢測是否是字符串開頭
re_str = r'^\d\d\d' # 判斷一個(gè)字符串是否是三個(gè)數(shù)字開頭
result = fullmatch(re_str, '123')
print(result)
# 7.$:檢測是否是字符串結(jié)尾
re_str = r'abc$'
result = fullmatch(re_str, 'abc')
print(result)
# 8.\W:匹配非字母、數(shù)字、下劃線
re_str = '\Wabc'
result = fullmatch(re_str, '#abc')
print(result)
# 9.\S:匹配非空白字符
re_str = r'\S...'
result = fullmatch(re_str, 'wsda')
print(result)
# 10.\D:匹配非數(shù)字字符
re_str = r'\D\w\w\w'
result = fullmatch(re_str, 's_ad')
print(result)
# 11.\B:檢測是否不是單詞邊界
re_str = r'adfc\Bsd'
result = fullmatch(re_str, 'adfcsd')
print(result)
# 12.[]:匹配中括號(hào)中出現(xiàn)的任意一個(gè)字符
"""
一個(gè)中括號(hào)匹配一個(gè)字符
[字符集] ---> 匹配一個(gè)字符,這字符是字符集中的任意一個(gè)字符
例如:[abc],[\d+]
[字符1-字符2] ---> 匹配一個(gè)字符,這個(gè) 字符是編碼Unicode編碼值在字符1到字符2中的任意字符
例如:[1-9] --> 數(shù)字1到9 [a-z] --> 小寫字母 [A-Z] --> 大寫字母
[\u0031-\u0039] --> 數(shù)字1-9(可以寫編碼值)
[\u4E00-\u9fa5] --> 匹配所有中文
注意:-在中括號(hào)中,如果放在兩個(gè)字符之間表示范圍
"""
re_str = r'asd[sd]d'
result = fullmatch(re_str, 'asddd')
print(result)
re_str = r'[1-4]\d\d\d'
result = fullmatch(re_str, '4635')
print(result)
re_str = r'[\u4E00-\u9fa5][\u4E00-\u9fa5][\u4E00-\u9fa5]'
result = fullmatch(re_str, '很深刻')
print(result)
re_str = r'[19-]'
result = fullmatch(re_str, '-')
print(result)
# 匹配一個(gè)字符,是字母、數(shù)字、下劃線 、空白
re_str = r'[\w\s]'
result = fullmatch(re_str, '_')
print(result)
# 13.[^字符集]:匹配一個(gè)不在字符集中的任意字符
"""
注意:^必須放在中括號(hào)中的最前面才有效
"""
# 匹配一個(gè)四位的字符串,第一位不是abc中的任意一個(gè),后面兩位是任意字符
re_str = r'[^abc]..'
re_str = r'[^1-9]..'
result = fullmatch(re_str, '9as')
print(result)
運(yùn)行結(jié)果
<_sre.SRE_Match object; span=(0, 3), match='a&b'>
<_sre.SRE_Match object; span=(0, 4), match='a&%b'>
<_sre.SRE_Match object; span=(0, 4), match='_jss'>
<_sre.SRE_Match object; span=(0, 4), match='5jss'>
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 7), match='abc,aaa'>
<_sre.SRE_Match object; span=(0, 3), match='123'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 4), match='#abc'>
<_sre.SRE_Match object; span=(0, 4), match='wsda'>
<_sre.SRE_Match object; span=(0, 4), match='s_ad'>
<_sre.SRE_Match object; span=(0, 6), match='adfcsd'>
<_sre.SRE_Match object; span=(0, 5), match='asddd'>
<_sre.SRE_Match object; span=(0, 4), match='4635'>
<_sre.SRE_Match object; span=(0, 3), match='很深刻'>
<_sre.SRE_Match object; span=(0, 1), match='-'>
<_sre.SRE_Match object; span=(0, 1), match='_'>
None
2.正則表達(dá)式次數(shù)相關(guān)符號(hào)
代碼示例
from re import fullmatch
import re
# 1.*(匹配0次或者多次)
"""
字符* --> 字符出現(xiàn)0次或者多次
"""
# 匹配0位或者多位的數(shù)字字符串
re_str = r'\d*'
print(fullmatch(re_str, '9656'))
print(fullmatch(re_str, '965s6'))
# 用一個(gè)正則表達(dá)式來檢測一個(gè)標(biāo)識(shí)符是否符合要求:數(shù)字字母下劃線組成,數(shù)字不開頭(位數(shù)至少1位)
re_str = r'[a-zA-Z_]\w*'
print(fullmatch(re_str, 'aSAD65_'))
# 2.+(匹配一次或者多次)
# abc前面有一個(gè)或者多個(gè)數(shù)字的字符串
re_str = r'\d+abc'
print(fullmatch(re_str, '4abc'))
# 3.?(0次或者一次)
re_str = r'.+?123'
print(fullmatch(re_str, 'a123'))
print(re.findall(re_str, 'a123asda456123158123'))
print('-------------------------------------')
# 練習(xí):寫一個(gè)正則表達(dá)式,匹配所有的整數(shù)(123,-2334,+9...(可匹配),012,-023..不能匹配 )
re_str = r'[-+]?[1-9]\d*'
print(fullmatch(re_str, '456'))
print(fullmatch(re_str, '+056'))
# 4.{}(指定次數(shù))
"""
{N} --> 匹配N次
{M,N} --> 匹配M到N次
{M,} --> 至少匹配M次
{,N} --> 最多匹配N次
"""
re_str = r'\d{3}'
print(fullmatch(re_str, '123'))
re_str = r'\d{3,}'
print(fullmatch(re_str, '1234'))
re_str = r'\d{,2}'
print(fullmatch(re_str, '12'))
re_str = r'\w{6,16}'
print(fullmatch(re_str, '12_ad54'))
# 判斷密碼是否符合要求:密碼是由數(shù)字和字母組成并且6-16位
re_str = r'[\da-zA-Z]{6,16}'
print(fullmatch(re_str, '12ad5465asd'))
"""
幾種常用的非貪婪匹配模型:
*? 重復(fù)任意次,但盡可能少重復(fù)
+? 重復(fù)1次或更多次,但盡可能少重復(fù)
?? 重復(fù)0次或1次,但盡可能少重復(fù)
{n,m}? 重復(fù)n到m次,但盡可能少重復(fù)
{n,}? 重復(fù)n次以上,但盡可能少重復(fù)
"""
運(yùn)行結(jié)果
<_sre.SRE_Match object; span=(0, 4), match='9656'>
None
<_sre.SRE_Match object; span=(0, 7), match='aSAD65_'>
<_sre.SRE_Match object; span=(0, 4), match='4abc'>
<_sre.SRE_Match object; span=(0, 4), match='a123'>
['a123', 'asda456123', '158123']
-------------------------------------
<_sre.SRE_Match object; span=(0, 3), match='456'>
None
<_sre.SRE_Match object; span=(0, 3), match='123'>
<_sre.SRE_Match object; span=(0, 4), match='1234'>
<_sre.SRE_Match object; span=(0, 2), match='12'>
<_sre.SRE_Match object; span=(0, 7), match='12_ad54'>
<_sre.SRE_Match object; span=(0, 11), match='12ad5465asd'>
3.分支和分組
1.|分支
條件1|條件2 --> 先用條件1去匹配,如果匹配成功就匹配成功。如果條件1匹配失敗,
用條件2去匹配。
注意:如果條件1匹配成功不會(huì)在匹配條件2
代碼示例
re_str = r'[a-z]{3}|[A-Z]{3}'
print(re.fullmatch(re_str, 'abc'))
re_str = r'abc|d|aaa'
print(re.fullmatch(re_str, 'aaa'))
# 'abc' + W/H/Y
re_str = r'abc(W|H|Y)'
print(re.fullmatch(re_str, 'abcH'))
代碼示例
re_str = r'[a-z]{3}|[A-Z]{3}'
print(re.fullmatch(re_str, 'abc'))
re_str = r'abc|d|aaa'
print(re.fullmatch(re_str, 'aaa'))
# 'abc' + W/H/Y
re_str = r'abc(W|H|Y)'
print(re.fullmatch(re_str, 'abcH'))
運(yùn)行結(jié)果
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 3), match='aaa'>
<_sre.SRE_Match object; span=(0, 4), match='abcH'>
2.()分組
a.組合(將括號(hào)中的內(nèi)容作為一個(gè)整體進(jìn)行操作)
b.捕獲 --> 使用帶括號(hào)的正則表達(dá)式匹配成功后,只獲取括號(hào)中的內(nèi)容
c.重復(fù) --> 在正則表達(dá)式張可以通過\數(shù)字來重復(fù)前面()中匹配到的結(jié)果.數(shù)字代表前面第幾個(gè)括號(hào)
代碼示例
# a.組合
# 匹配一個(gè)字符串,以數(shù)字字母的組合出現(xiàn)3次
re_str = r'(\d[a-zA-Z]){3}'
print(re.fullmatch(re_str, '2h3j4k'))
re_str = r'(\d{3})abc'
print(re.fullmatch(re_str, '773abc'))
# b.捕獲
# 找出字符串中符合表達(dá)式的字符串并返回一個(gè)列表
print(re.findall(re_str, 'euhasdkf55sfads546abc5dgs45s5_54'))
# c.重復(fù)
re_str = r'([a-z]{3})-(\d{2})\1\2' # \1將前面括號(hào)里面的內(nèi)容重復(fù)一遍 \2將前面第二個(gè)括號(hào)里面的內(nèi)容重復(fù)一遍...
print(re.fullmatch(re_str, 'hsn-78hsn78'))
運(yùn)行結(jié)果
<_sre.SRE_Match object; span=(0, 6), match='2h3j4k'>
<_sre.SRE_Match object; span=(0, 6), match='773abc'>
['546']
<_sre.SRE_Match object; span=(0, 11), match='hsn-78hsn78'>
3.轉(zhuǎn)義符號(hào)
正則表達(dá)式中可以通過在特殊的符號(hào)前加\,來讓特殊的符號(hào)沒有意義
. --> 任意字符 \. --> 字符.
+ --> 匹配一次或者多次 \+ --> 字符+
* ^ $等有特殊的功能
注意:在中括號(hào)中有特殊功能的符號(hào),只代表符號(hào)本身
\不管在哪兒都需要轉(zhuǎn)義
-在[]外面沒有特殊功能
()需要轉(zhuǎn)義
代碼示例
re_str = r'\d{2}\.\d{2}'
print(re.fullmatch(re_str, '12.32'))
re_str = r'\d\+\d'
print(re.fullmatch(re_str, '4+5'))
re_str = r'[\\]'
print(re.fullmatch(re_str, '\\'))
re_str = r'\(\\'
print(re.fullmatch(re_str, '(\\'))
re_str = r'(\d{3})\1([a-z])\1'
print(re.fullmatch(re_str, '456456j456'))
運(yùn)行結(jié)果
<_sre.SRE_Match object; span=(0, 5), match='12.32'>
<_sre.SRE_Match object; span=(0, 3), match='4+5'>
<_sre.SRE_Match object; span=(0, 1), match='\\'>
<_sre.SRE_Match object; span=(0, 2), match='(\\'>
<_sre.SRE_Match object; span=(0, 10), match='456456j456'>
4.re模塊中的函數(shù)
代碼示例
import re
"""
1.compile
compile(正則表達(dá)式字符串) --> 將正則表達(dá)式字符串轉(zhuǎn)換成正則表達(dá)式對(duì)象
"""
re_object = re.compile(r'\d+')
print(re_object)
print(re_object.fullmatch('4656'))
# 2.fullmatch和match
"""
fullmatch(正則表達(dá)式字符串, 需要匹配的字符串) --> 用正則表達(dá)式去完全匹配字符串(匹配整個(gè)字符串)
返回匹配對(duì)象
match(正則表達(dá)式字符串, 字符串)
--> 匹配字符串開頭,返回匹配對(duì)象或者None
"""
result = re.fullmatch(r'\d([a-zA-Z]+)', '2hjsd')
print(result, type(result))
# a.span(group=0) --> 獲取匹配成功的開始下標(biāo)和結(jié)束下標(biāo)(開區(qū)間)
print(result.span(1))
print(result.start(1)) # 獲取匹配到的結(jié)果開始下標(biāo)
print(result.end(1)) # 獲取匹配到的結(jié)果結(jié)束下標(biāo)
# b.group(下標(biāo)=0) --> 獲取匹配結(jié)果
"""
group()/group(0) --> 獲取正則表達(dá)式完全匹配的結(jié)果
group(index>0) --> 獲取正則表達(dá)式中第index個(gè)分組匹配到的結(jié)果
"""
print(result.group())
print(result.group(1))
# c.string --> 獲取被匹配的原字符串
print(result.string)
# match
result = re.match(r'\d([a-zA-Z]+)123', '2hjsd123ABC')
print('======', result)
# 3.search
"""
search(正則表達(dá)式,字符串) --> 查找字符串中滿足正則表達(dá)式的第一個(gè)字符串.返回值是匹配對(duì)象或者None
"""
result = re.search(r'(\d)[a-zA-Z]+', 'dffs6fd8fs')
print(result.group(0))
print(result.group(1))
print(result.string)
# 練習(xí):使用search匹配出一個(gè)字符串中所有的數(shù)字字符串
# 'abc34hjha8923hjhasd98as59k' --> 匹配出34, 8923 , 98, 59
re_str = r'\d+'
str1 = 'abc34hjha8923hjhasd98as59k'
result = re.search(re_str, str1)
print('========')
while result:
print(result)
print(result.string)
str1 = str1[result.end():]
result = re.search(re_str, str1)
# 4.findall()
"""
findall(正則表達(dá)式, 字符串) --> 獲取字符串中滿足正則表達(dá)式的所有的字串,返回一個(gè)列表
注意:如果正則表達(dá)式中有分組,取值的時(shí)候只取分組中匹配到的結(jié)果
如果有多個(gè)分組,將會(huì)每個(gè)分組匹配到的結(jié)果作為一個(gè)元組的元素返回
"""
re_str = r'(\d+)k([a-z]+)'
str1 = 'abc34hjha8923khjhasd98as59k'
result = re.findall(re_str, str1)
print(result)
# 5.finditer
"""
finditer(正則表達(dá)式, 字符串) --> 獲取所有滿足正則條件的子串,返回值是迭代器,迭代器中的元素是匹配對(duì)象
"""
re_str = r'\d+'
str1 = 'abc34hjha8923khjhasd98as59k'
result = re.finditer(re_str, str1)
for item in result:
print(item)
# result = str1.split('h')
# print(result)
# 6.split
"""
split(正則表達(dá)式, 字符串) --> 將字符串按照滿足條件的字串進(jìn)行分隔
"""
str1 = 'ahs1sssa8j-jkad892alkd55+jkad2'
re_str = r'[-+]'
result = re.split(re_str, str1)
print(result)
# 7.sub
"""
sub(正則表達(dá)式, repl, 字符串) --> 將字符串中滿足正則表達(dá)式條件的字串替換成repl
返回替換后的字符串
"""
result = re.sub(r'\d+', '*', str1)
print(result)
result = re.sub(r'傻叉|逼|fuck|媽的|智\s*障', '*', '智 障')
print(result)
運(yùn)行結(jié)果
re.compile('\\d+')
<_sre.SRE_Match object; span=(0, 4), match='4656'>
<_sre.SRE_Match object; span=(0, 5), match='2hjsd'> <class '_sre.SRE_Match'>
(1, 5)
1
5
2hjsd
hjsd
2hjsd
====== <_sre.SRE_Match object; span=(0, 8), match='2hjsd123'>
6fd
6
dffs6fd8fs
========
<_sre.SRE_Match object; span=(3, 5), match='34'>
abc34hjha8923hjhasd98as59k
<_sre.SRE_Match object; span=(4, 8), match='8923'>
hjha8923hjhasd98as59k
<_sre.SRE_Match object; span=(6, 8), match='98'>
hjhasd98as59k
<_sre.SRE_Match object; span=(2, 4), match='59'>
as59k
[('8923', 'hjhasd')]
<_sre.SRE_Match object; span=(3, 5), match='34'>
<_sre.SRE_Match object; span=(9, 13), match='8923'>
<_sre.SRE_Match object; span=(20, 22), match='98'>
<_sre.SRE_Match object; span=(24, 26), match='59'>
['ahs1sssa8j', 'jkad892alkd55', 'jkad2']
ahs*sssa*j-jkad*alkd*+jkad*
*