10.23 - 正則表達(dá)式

1.正則表達(dá)式語法

正則表達(dá)式是用來匹配或者描述字符串的工具

用途:
a.判斷輸入的字符串是否是郵箱/手機(jī)號(hào)碼。是否是IP地址
b.提取滿足條件的字符串
c.字符串替換

python中通過re模塊中相應(yīng)的方法來支持正則表達(dá)式的匹配、查找和替換功能

代碼示例

from re import fullmatch
"""
fullmatch(正則表達(dá)式字符串,字符串) --> 判斷正則表達(dá)式和字符串是否完全匹配
正則表達(dá)式:就是一個(gè)字符串,字符串中是正則表達(dá)式語法。r'正則表達(dá)式'
正則表達(dá)式中包含兩個(gè)部分,一個(gè)是正則表達(dá)式對(duì)應(yīng)的字符,二是普通字符
"""

# 1\. .(點(diǎn)):匹配任意字符
"""
一個(gè).只匹配一個(gè)任意字符
"""
# 匹配一個(gè)字符串,第一個(gè)是'a',第二個(gè)字符是是任意字符,最后一個(gè)字符是b
re_str = r'a.b'
result = fullmatch(re_str, 'a&b')
print(result)

# 匹配一個(gè)長度是4,第一個(gè)字符和最后一個(gè)字符分別是a,中間是兩個(gè)任意字符傳

re_str = r'a..b'
result = fullmatch(re_str, 'a&%b')
print(result)

# 2.\w:匹配字母數(shù)字下劃線
"""
一個(gè)\w匹配字符串
"""
# 匹配一個(gè)第一個(gè)字符是數(shù)字字母或者下劃線,后面三個(gè)字符是任意字符的字符串
re_str = r'\w...'
print(fullmatch(re_str, '_jss'))
print(fullmatch(re_str, '5jss'))

# 3.\s:匹配任意空白字符
"""
空白字符:空格、制表符、回車、等,都是如空白字符
一個(gè)\s匹配一個(gè)空白字符
"""
re_str = r'a\sb'
result = fullmatch(re_str, 'a\nb')
print(result)

# 4.\d:匹配數(shù)字字符
re_str = r'\d\d\d'
re_str = fullmatch(re_str, '185')
print(result)

# 5.\b:檢測邊界
"""
一個(gè)\b不會(huì)去匹配一個(gè)字符,而是是單純的檢測\b出現(xiàn)的位置是否是單詞邊界 
單詞邊界:字符串開始和結(jié)尾、空格、換行、標(biāo)點(diǎn)符號(hào)等,可以將兩個(gè)單詞隔開的字符都是
"""
re_str = r'\babc'
result = fullmatch(re_str, 'abc')
print(result)
# 匹配 一個(gè)字符串前三位是abc,第四位是空白字符,后面是aaa,并且要求c是單詞邊界
re_str = r'abc\b.aaa'
result = fullmatch(re_str, 'abc,aaa')
print(result)

# 6.^:檢測是否是字符串開頭
re_str = r'^\d\d\d'  # 判斷一個(gè)字符串是否是三個(gè)數(shù)字開頭
result = fullmatch(re_str, '123')
print(result)

# 7.$:檢測是否是字符串結(jié)尾
re_str = r'abc$'
result = fullmatch(re_str, 'abc')
print(result)

# 8.\W:匹配非字母、數(shù)字、下劃線
re_str = '\Wabc'
result = fullmatch(re_str, '#abc')
print(result)

# 9.\S:匹配非空白字符
re_str = r'\S...'
result = fullmatch(re_str, 'wsda')
print(result)

# 10.\D:匹配非數(shù)字字符
re_str = r'\D\w\w\w'
result = fullmatch(re_str, 's_ad')
print(result)

# 11.\B:檢測是否不是單詞邊界
re_str = r'adfc\Bsd'
result = fullmatch(re_str, 'adfcsd')
print(result)

# 12.[]:匹配中括號(hào)中出現(xiàn)的任意一個(gè)字符
"""
一個(gè)中括號(hào)匹配一個(gè)字符
[字符集] ---> 匹配一個(gè)字符,這字符是字符集中的任意一個(gè)字符
例如:[abc],[\d+]
[字符1-字符2] ---> 匹配一個(gè)字符,這個(gè) 字符是編碼Unicode編碼值在字符1到字符2中的任意字符
例如:[1-9] --> 數(shù)字1到9  [a-z] --> 小寫字母 [A-Z] --> 大寫字母
[\u0031-\u0039] --> 數(shù)字1-9(可以寫編碼值)
[\u4E00-\u9fa5] --> 匹配所有中文

注意:-在中括號(hào)中,如果放在兩個(gè)字符之間表示范圍
"""
re_str = r'asd[sd]d'
result = fullmatch(re_str, 'asddd')
print(result)

re_str = r'[1-4]\d\d\d'
result = fullmatch(re_str, '4635')
print(result)

re_str = r'[\u4E00-\u9fa5][\u4E00-\u9fa5][\u4E00-\u9fa5]'
result = fullmatch(re_str, '很深刻')
print(result)

re_str = r'[19-]'
result = fullmatch(re_str, '-')
print(result)

# 匹配一個(gè)字符,是字母、數(shù)字、下劃線 、空白
re_str = r'[\w\s]'
result = fullmatch(re_str, '_')
print(result)

# 13.[^字符集]:匹配一個(gè)不在字符集中的任意字符
"""
注意:^必須放在中括號(hào)中的最前面才有效
"""
# 匹配一個(gè)四位的字符串,第一位不是abc中的任意一個(gè),后面兩位是任意字符
re_str = r'[^abc]..'
re_str = r'[^1-9]..'
result = fullmatch(re_str, '9as')
print(result)

運(yùn)行結(jié)果

<_sre.SRE_Match object; span=(0, 3), match='a&b'>
<_sre.SRE_Match object; span=(0, 4), match='a&%b'>
<_sre.SRE_Match object; span=(0, 4), match='_jss'>
<_sre.SRE_Match object; span=(0, 4), match='5jss'>
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 7), match='abc,aaa'>
<_sre.SRE_Match object; span=(0, 3), match='123'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 4), match='#abc'>
<_sre.SRE_Match object; span=(0, 4), match='wsda'>
<_sre.SRE_Match object; span=(0, 4), match='s_ad'>
<_sre.SRE_Match object; span=(0, 6), match='adfcsd'>
<_sre.SRE_Match object; span=(0, 5), match='asddd'>
<_sre.SRE_Match object; span=(0, 4), match='4635'>
<_sre.SRE_Match object; span=(0, 3), match='很深刻'>
<_sre.SRE_Match object; span=(0, 1), match='-'>
<_sre.SRE_Match object; span=(0, 1), match='_'>
None

2.正則表達(dá)式次數(shù)相關(guān)符號(hào)

代碼示例

from re import fullmatch
import re

# 1.*(匹配0次或者多次)
"""
字符* --> 字符出現(xiàn)0次或者多次
"""
# 匹配0位或者多位的數(shù)字字符串
re_str = r'\d*'
print(fullmatch(re_str, '9656'))
print(fullmatch(re_str, '965s6'))

# 用一個(gè)正則表達(dá)式來檢測一個(gè)標(biāo)識(shí)符是否符合要求:數(shù)字字母下劃線組成,數(shù)字不開頭(位數(shù)至少1位)
re_str = r'[a-zA-Z_]\w*'
print(fullmatch(re_str, 'aSAD65_'))

# 2.+(匹配一次或者多次)
# abc前面有一個(gè)或者多個(gè)數(shù)字的字符串
re_str = r'\d+abc'
print(fullmatch(re_str, '4abc'))

# 3.?(0次或者一次)

re_str = r'.+?123'
print(fullmatch(re_str, 'a123'))
print(re.findall(re_str, 'a123asda456123158123'))
print('-------------------------------------')

# 練習(xí):寫一個(gè)正則表達(dá)式,匹配所有的整數(shù)(123,-2334,+9...(可匹配),012,-023..不能匹配 )
re_str = r'[-+]?[1-9]\d*'
print(fullmatch(re_str, '456'))
print(fullmatch(re_str, '+056'))

# 4.{}(指定次數(shù))
"""
{N} --> 匹配N次
{M,N} --> 匹配M到N次
{M,} --> 至少匹配M次
{,N} --> 最多匹配N次
"""
re_str = r'\d{3}'
print(fullmatch(re_str, '123'))
re_str = r'\d{3,}'
print(fullmatch(re_str, '1234'))
re_str = r'\d{,2}'
print(fullmatch(re_str, '12'))
re_str = r'\w{6,16}'
print(fullmatch(re_str, '12_ad54'))

# 判斷密碼是否符合要求:密碼是由數(shù)字和字母組成并且6-16位
re_str = r'[\da-zA-Z]{6,16}'
print(fullmatch(re_str, '12ad5465asd'))
"""
幾種常用的非貪婪匹配模型:
*? 重復(fù)任意次,但盡可能少重復(fù)  
+? 重復(fù)1次或更多次,但盡可能少重復(fù)  
?? 重復(fù)0次或1次,但盡可能少重復(fù)  
{n,m}? 重復(fù)n到m次,但盡可能少重復(fù)  
{n,}? 重復(fù)n次以上,但盡可能少重復(fù)  
"""

運(yùn)行結(jié)果

<_sre.SRE_Match object; span=(0, 4), match='9656'>
None
<_sre.SRE_Match object; span=(0, 7), match='aSAD65_'>
<_sre.SRE_Match object; span=(0, 4), match='4abc'>
<_sre.SRE_Match object; span=(0, 4), match='a123'>
['a123', 'asda456123', '158123']
-------------------------------------
<_sre.SRE_Match object; span=(0, 3), match='456'>
None
<_sre.SRE_Match object; span=(0, 3), match='123'>
<_sre.SRE_Match object; span=(0, 4), match='1234'>
<_sre.SRE_Match object; span=(0, 2), match='12'>
<_sre.SRE_Match object; span=(0, 7), match='12_ad54'>
<_sre.SRE_Match object; span=(0, 11), match='12ad5465asd'>

3.分支和分組

1.|分支

條件1|條件2 --> 先用條件1去匹配,如果匹配成功就匹配成功。如果條件1匹配失敗,
用條件2去匹配。

注意:如果條件1匹配成功不會(huì)在匹配條件2

代碼示例

re_str = r'[a-z]{3}|[A-Z]{3}'
print(re.fullmatch(re_str, 'abc'))

re_str = r'abc|d|aaa'
print(re.fullmatch(re_str, 'aaa'))

# 'abc' + W/H/Y
re_str = r'abc(W|H|Y)'
print(re.fullmatch(re_str, 'abcH'))

代碼示例

re_str = r'[a-z]{3}|[A-Z]{3}'
print(re.fullmatch(re_str, 'abc'))

re_str = r'abc|d|aaa'
print(re.fullmatch(re_str, 'aaa'))

# 'abc' + W/H/Y
re_str = r'abc(W|H|Y)'
print(re.fullmatch(re_str, 'abcH'))

運(yùn)行結(jié)果

<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 3), match='aaa'>
<_sre.SRE_Match object; span=(0, 4), match='abcH'>

2.()分組

a.組合(將括號(hào)中的內(nèi)容作為一個(gè)整體進(jìn)行操作)
b.捕獲 --> 使用帶括號(hào)的正則表達(dá)式匹配成功后,只獲取括號(hào)中的內(nèi)容
c.重復(fù) --> 在正則表達(dá)式張可以通過\數(shù)字來重復(fù)前面()中匹配到的結(jié)果.數(shù)字代表前面第幾個(gè)括號(hào)

代碼示例

# a.組合
# 匹配一個(gè)字符串,以數(shù)字字母的組合出現(xiàn)3次
re_str = r'(\d[a-zA-Z]){3}'
print(re.fullmatch(re_str, '2h3j4k'))

re_str = r'(\d{3})abc'
print(re.fullmatch(re_str, '773abc'))

# b.捕獲
# 找出字符串中符合表達(dá)式的字符串并返回一個(gè)列表
print(re.findall(re_str, 'euhasdkf55sfads546abc5dgs45s5_54'))

# c.重復(fù)
re_str = r'([a-z]{3})-(\d{2})\1\2'  # \1將前面括號(hào)里面的內(nèi)容重復(fù)一遍 \2將前面第二個(gè)括號(hào)里面的內(nèi)容重復(fù)一遍...
print(re.fullmatch(re_str, 'hsn-78hsn78'))

運(yùn)行結(jié)果

<_sre.SRE_Match object; span=(0, 6), match='2h3j4k'>
<_sre.SRE_Match object; span=(0, 6), match='773abc'>
['546']
<_sre.SRE_Match object; span=(0, 11), match='hsn-78hsn78'>

3.轉(zhuǎn)義符號(hào)

正則表達(dá)式中可以通過在特殊的符號(hào)前加\,來讓特殊的符號(hào)沒有意義
. --> 任意字符 \. --> 字符.
+ --> 匹配一次或者多次 \+ --> 字符+
 * ^ $等有特殊的功能

 注意:在中括號(hào)中有特殊功能的符號(hào),只代表符號(hào)本身
      \不管在哪兒都需要轉(zhuǎn)義
      -在[]外面沒有特殊功能
      ()需要轉(zhuǎn)義

代碼示例

re_str = r'\d{2}\.\d{2}'
print(re.fullmatch(re_str, '12.32'))

re_str = r'\d\+\d'
print(re.fullmatch(re_str, '4+5'))

re_str = r'[\\]'
print(re.fullmatch(re_str, '\\'))

re_str = r'\(\\'
print(re.fullmatch(re_str, '(\\'))

re_str = r'(\d{3})\1([a-z])\1'
print(re.fullmatch(re_str, '456456j456'))

運(yùn)行結(jié)果

<_sre.SRE_Match object; span=(0, 5), match='12.32'>
<_sre.SRE_Match object; span=(0, 3), match='4+5'>
<_sre.SRE_Match object; span=(0, 1), match='\\'>
<_sre.SRE_Match object; span=(0, 2), match='(\\'>
<_sre.SRE_Match object; span=(0, 10), match='456456j456'>

4.re模塊中的函數(shù)

代碼示例

import re

"""
1.compile
compile(正則表達(dá)式字符串) --> 將正則表達(dá)式字符串轉(zhuǎn)換成正則表達(dá)式對(duì)象
"""
re_object = re.compile(r'\d+')
print(re_object)

print(re_object.fullmatch('4656'))

# 2.fullmatch和match
"""
fullmatch(正則表達(dá)式字符串, 需要匹配的字符串) --> 用正則表達(dá)式去完全匹配字符串(匹配整個(gè)字符串)
返回匹配對(duì)象

match(正則表達(dá)式字符串, 字符串)
--> 匹配字符串開頭,返回匹配對(duì)象或者None
"""
result = re.fullmatch(r'\d([a-zA-Z]+)', '2hjsd')
print(result, type(result))
# a.span(group=0) --> 獲取匹配成功的開始下標(biāo)和結(jié)束下標(biāo)(開區(qū)間)
print(result.span(1))
print(result.start(1))  # 獲取匹配到的結(jié)果開始下標(biāo)
print(result.end(1))   # 獲取匹配到的結(jié)果結(jié)束下標(biāo)
# b.group(下標(biāo)=0) --> 獲取匹配結(jié)果
"""
group()/group(0) --> 獲取正則表達(dá)式完全匹配的結(jié)果
group(index>0) --> 獲取正則表達(dá)式中第index個(gè)分組匹配到的結(jié)果
"""
print(result.group())
print(result.group(1))

# c.string --> 獲取被匹配的原字符串
print(result.string)

# match
result = re.match(r'\d([a-zA-Z]+)123', '2hjsd123ABC')
print('======', result)

# 3.search
"""
search(正則表達(dá)式,字符串) --> 查找字符串中滿足正則表達(dá)式的第一個(gè)字符串.返回值是匹配對(duì)象或者None
"""
result = re.search(r'(\d)[a-zA-Z]+', 'dffs6fd8fs')
print(result.group(0))
print(result.group(1))
print(result.string)

# 練習(xí):使用search匹配出一個(gè)字符串中所有的數(shù)字字符串
# 'abc34hjha8923hjhasd98as59k' --> 匹配出34, 8923 , 98, 59
re_str = r'\d+'
str1 = 'abc34hjha8923hjhasd98as59k'
result = re.search(re_str, str1)
print('========')
while result:
    print(result)
    print(result.string)
    str1 = str1[result.end():]
    result = re.search(re_str, str1)

# 4.findall()
"""
findall(正則表達(dá)式, 字符串) --> 獲取字符串中滿足正則表達(dá)式的所有的字串,返回一個(gè)列表
注意:如果正則表達(dá)式中有分組,取值的時(shí)候只取分組中匹配到的結(jié)果
如果有多個(gè)分組,將會(huì)每個(gè)分組匹配到的結(jié)果作為一個(gè)元組的元素返回
"""
re_str = r'(\d+)k([a-z]+)'
str1 = 'abc34hjha8923khjhasd98as59k'
result = re.findall(re_str, str1)
print(result)

# 5.finditer
"""
finditer(正則表達(dá)式, 字符串) --> 獲取所有滿足正則條件的子串,返回值是迭代器,迭代器中的元素是匹配對(duì)象
"""
re_str = r'\d+'
str1 = 'abc34hjha8923khjhasd98as59k'
result = re.finditer(re_str, str1)
for item in result:
    print(item)

# result = str1.split('h')
# print(result)

# 6.split
"""
split(正則表達(dá)式, 字符串) --> 將字符串按照滿足條件的字串進(jìn)行分隔
"""
str1 = 'ahs1sssa8j-jkad892alkd55+jkad2'
re_str = r'[-+]'
result = re.split(re_str, str1)
print(result)

# 7.sub
"""
sub(正則表達(dá)式, repl, 字符串) --> 將字符串中滿足正則表達(dá)式條件的字串替換成repl
返回替換后的字符串
"""
result = re.sub(r'\d+', '*', str1)
print(result)

result = re.sub(r'傻叉|逼|fuck|媽的|智\s*障', '*', '智  障')
print(result)

運(yùn)行結(jié)果

re.compile('\\d+')
<_sre.SRE_Match object; span=(0, 4), match='4656'>
<_sre.SRE_Match object; span=(0, 5), match='2hjsd'> <class '_sre.SRE_Match'>
(1, 5)
1
5
2hjsd
hjsd
2hjsd
====== <_sre.SRE_Match object; span=(0, 8), match='2hjsd123'>
6fd
6
dffs6fd8fs
========
<_sre.SRE_Match object; span=(3, 5), match='34'>
abc34hjha8923hjhasd98as59k
<_sre.SRE_Match object; span=(4, 8), match='8923'>
hjha8923hjhasd98as59k
<_sre.SRE_Match object; span=(6, 8), match='98'>
hjhasd98as59k
<_sre.SRE_Match object; span=(2, 4), match='59'>
as59k
[('8923', 'hjhasd')]
<_sre.SRE_Match object; span=(3, 5), match='34'>
<_sre.SRE_Match object; span=(9, 13), match='8923'>
<_sre.SRE_Match object; span=(20, 22), match='98'>
<_sre.SRE_Match object; span=(24, 26), match='59'>
['ahs1sssa8j', 'jkad892alkd55', 'jkad2']
ahs*sssa*j-jkad*alkd*+jkad*
*

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、正則表達(dá)式語法 正則表達(dá)式是用匹配或者描述字符串的工具 用處:a. 判斷字符串是否滿足某個(gè)條件---判斷輸入的...
    米某人閱讀 388評(píng)論 0 0
  • 正則表達(dá)式的語法 用處:1.判斷某個(gè)字符串是否符合某個(gè)條件---判斷輸入的字符串是否是郵箱/手機(jī)號(hào)碼,是否是ip地...
    _墨宇_閱讀 283評(píng)論 0 0
  • 正則表達(dá)式是用匹配或者描述字符串的工具。用處:a.判斷字符串是否滿足某個(gè)條件---判斷輸入的字符串是否是郵箱/手機(jī)...
    葉葉阿姨閱讀 161評(píng)論 0 0
  • python的re模塊--細(xì)說正則表達(dá)式 可能是東半球最詳細(xì)最全面的re教程,翻譯自官方文檔,因?yàn)楣俜轿臋n寫的是真...
    立而人閱讀 23,435評(píng)論 4 46
  • P2P理財(cái)端的核心是「投資賺收益」,核心業(yè)務(wù)就是「投資」和「資產(chǎn)管理」。基于銀行存管模式下的P2P平臺(tái),最...
    silvia_ba69閱讀 1,272評(píng)論 0 2

友情鏈接更多精彩內(nèi)容