python正則表達(dá)式

正則表示概念

1.使用單個(gè)字符串來描述匹配一系列符合某個(gè)語法規(guī)則的字符串

2.對字符串操作的一種邏輯模式

3.應(yīng)用場景:處理文本和數(shù)據(jù)

4.正則表達(dá)式過程:依次拿出表達(dá)式和文本中的字符比較。如果每一個(gè)字符都能匹配成功。則匹配成功,否則匹配失效

要使用re模塊

第一個(gè)正則表達(dá)式

pattern->compile -> match

輸入:

import re
str ='imooc study hard'
pattern = re.compile(r'imooc',re.I)(re.I  忽略大小寫)
result = pattern.match(str)
result.group()

結(jié)果

imooc

語法(通用):

匹配單個(gè)字符
字符 匹配
. 匹配任意字符(除了/n)
[...] 匹配字符集
\d / \D 匹配數(shù)字 /非數(shù)字
\s / \S 匹配空白/非空白字符
\w / \W 匹配單詞字符[a-zA-Z0-9]/非單詞字符
匹配多個(gè)字符
字符 匹配
* 匹配前一個(gè)字符0次或者無限次
+ 匹配前一個(gè)字符1次或者無限次
匹配前一個(gè)字符0次或者1次
{m}/{m,n} 匹配前一個(gè)字符m到n次
*/ +? / ?? 匹配模式變?yōu)榉秦澙罚ūM可能少匹配字符)
邊界匹配:
字符 匹配
$ 匹配字符串結(jié)尾
^ 匹配字符串開頭
\A / \Z 指定的字符串必須出現(xiàn)在開頭 /結(jié)尾(對于后面的生效)
| 匹配左右任意一個(gè)表達(dá)式
(ab) 括號中的表達(dá)式作為一個(gè)分組,返回的也是分組,而不是整個(gè)
\<number> 引用編號為num的分組匹配到的字符串(分組為上面的分組)
(?P<name>) 分組起一個(gè)別名
(?P=name) 引用別名為name的分組匹配字符串(與樓上一起用)

對于(ab)的說明:

test1:

str ='12aa23'
pattern= re.compile('[0-9]+aa[0-9]+')
result =re.findall(pattern,str)
print(result)

output

['12aa23']

test2:

str ='12aa23'
pattern= re.compile('([0-9]+)aa([0-9]+)')
result =re.findall(pattern,str)
print(result)

output

[('12', '23')]

re模塊的方法

  1. match(pattern,str,flags=0) 僅從起始部分查找,也就是說第一個(gè)字符匹配不上,那一定返回的是空

  2. search(pattern,str,flags=0) 從str中查找返回對象,

  3. findall(pattern ,str,flags=0) 返回一個(gè)list

  4. sub(pattern ,repl,string,count,flags=0) 將字符串中匹配正則表達(dá)式的部分替換為其他值(subn函數(shù)在sub基礎(chǔ)上還返回替換的次數(shù))

    str = 'daa100dad200'
    result =re.sub(r'\d+','**',str)
    print(str)
    print(result)
    

    output

    'daa100dad200'
    'daa**dad**'
    

    repl可以是一個(gè)函數(shù)

def add1(match):
val = match.group()
num = int(val) + 1
return str(num)
stra = 'daa100dad200'
result = re.sub(r'\d+', add1, stra)
print(result)

output

daa101dad201


?

5. split(pattern,string,maxsplit=0,flags=0)  根據(jù)匹配分割字符串,返回分割字符串組成的列表

str = 'imooc :C C++ JAVA Python' 分開
re.split(r':| ',str)


#### 簡單練習(xí):

```python
import urllib.request
import  re
req =urllib.request.urlopen('https://www.imooc.com/course/list?c=cb')
buf  = req.read()
buf =buf.decode('utf-8')
listurl  = re.findall(r'src=.+\.jpg',buf)
i=0
for url in listurl:
    f =open(r'E:/pythoncode/'+str(i)+'.jpg','ab')
    print(url[7:])
    req = urllib.request.urlopen(r'http://'+url[7:])
    buf  = req.read()
    f.write(buf)
    i+=1

?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容