Python 高級 8正則表達(dá)式

正則表達(dá)式、re模塊、匹配單個字符、匹配多個字符、匹配開頭結(jié)尾、匹配分組、re模塊的高級用法、python貪婪和非貪婪、r的作用

1.正則表達(dá)式的介紹

在實際開發(fā)過程中經(jīng)常會有查找符合某些復(fù)雜規(guī)則的字符串的需要,比如:郵箱、圖片地址、手機(jī)號碼等,這時候想匹配或者查找符合某些規(guī)則的字符串就可以使用正則表達(dá)式了。

<1>正則表達(dá)式概念

正則表達(dá)式(pattern)就是記錄文本規(guī)則的代碼

<2>正則表達(dá)式的樣子

0\d{2}-\d{8} 這個就是一個正則表達(dá)式,表達(dá)的意思是匹配的是座機(jī)號碼

<3>正則表達(dá)式的特點

? 正則表達(dá)式的語法很令人頭疼,可讀性差

? 正則表達(dá)式通用行很強(qiáng),能夠適用于很多編程語言

小結(jié)

正則表達(dá)式是匹配或者查找符合某些規(guī)則的字符串?dāng)?shù)據(jù)

2.re模塊介紹

<1>re模塊的使用過程

在Python中需要通過正則表達(dá)式對字符串進(jìn)行匹配的時候,可以使用一個模塊,名字為re

\ 轉(zhuǎn)義符

? ? # 導(dǎo)入re模塊

? ? import re

? ? # 使用match方法進(jìn)行匹配操作

? ? result = re.match(正則表達(dá)式,要匹配的字符串)

? ? # 如果上一步匹配到數(shù)據(jù)的話,可以使用group方法來提取數(shù)據(jù)

# pattern: 正則表達(dá)式

# str: 匹配的字符串

# 根據(jù)正則表達(dá)式在指定字符串中從頭匹配數(shù)據(jù),如果匹配成功返回一個匹配結(jié)果對象,匹配失敗返回None對象

result.group()

3.匹配單個字符

在上一小節(jié)中,了解到通過re模塊能夠完成使用正則表達(dá)式來匹配字符串

本小節(jié),將要講解正則表達(dá)式的單字符匹配

代碼 功能

. 匹配任意1個字符(除了\n)

[ ] 匹配[ ]中列舉的字符

\d 匹配數(shù)字,即0-9

\D 匹配非數(shù)字,即不是數(shù)字

\s 匹配空白,即 空格,tab鍵

\S 匹配非空白

\w 匹配非特殊字符,即a-z、A-Z、0-9、_、漢字

\W 匹配特殊字符,即非字母、非數(shù)字、非漢字

[^內(nèi)容] 除了^后的內(nèi)容都匹配,可以是一個或者多個內(nèi)容

<1>示例1: .

#coding=utf-8

import re

ret = re.match(".","M")

print(ret.group())

ret = re.match("t.o","too")

print(ret.group())

ret = re.match("t.o","two")

print(ret.group())

運行結(jié)果:

M

too

two

<2>示例2:[]

import re

# 如果hello的首字符小寫,那么正則表達(dá)式需要小寫的h

ret = re.match("h","hello Python")

print(ret.group())

# 如果hello的首字符大寫,那么正則表達(dá)式需要大寫的H

ret = re.match("H","Hello Python")

print(ret.group())

# 大小寫h都可以的情況

ret = re.match("[hH]","hello Python")

print(ret.group())

ret = re.match("[hH]","Hello Python")

print(ret.group())

ret = re.match("[hH]ello Python","Hello Python")

print(ret.group())

# 匹配0到9第一種寫法

ret = re.match("[0123456789]Hello Python","7Hello Python")

print(ret.group())

# 匹配0到9第二種寫法

ret = re.match("[0-9]Hello Python","7Hello Python")

print(ret.group())

ret = re.match("[0-35-9]Hello Python","7Hello Python")

print(ret.group())

# 下面這個正則不能夠匹配到數(shù)字4,因此ret為None

ret = re.match("[0-35-9]Hello Python","4Hello Python")

# print(ret.group())

運行結(jié)果:

h

H

h

H

Hello Python

7Hello Python

7Hello Python

7Hello Python

<3>示例3:\d

import re

# 普通的匹配方式

ret = re.match("嫦娥1號","嫦娥1號發(fā)射成功")

print(ret.group())

ret = re.match("嫦娥2號","嫦娥2號發(fā)射成功")

print(ret.group())

ret = re.match("嫦娥3號","嫦娥3號發(fā)射成功")

print(ret.group())

# 使用\d進(jìn)行匹配

ret = re.match("嫦娥\d號","嫦娥1號發(fā)射成功")

print(ret.group())

ret = re.match("嫦娥\d號","嫦娥2號發(fā)射成功")

print(ret.group())

ret = re.match("嫦娥\d號","嫦娥3號發(fā)射成功")

print(ret.group())

運行結(jié)果:

嫦娥1號

嫦娥2號

嫦娥3號

嫦娥1號

嫦娥2號

嫦娥3號

<4>示例4:\D

import re

match_obj = re.match("\D", "f")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

f

<5>示例5:\s

import re

# 空格屬于空白字符

match_obj = re.match("hello\sworld", "hello world")

if match_obj:

? ? result = match_obj.group()

? ? print(result)

else:

? ? print("匹配失敗")

# \t 屬于空白字符

match_obj = re.match("hello\sworld", "hello\tworld")

if match_obj:

? ? result = match_obj.group()

? ? print(result)

else:

? ? print("匹配失敗")

運行結(jié)果:

hello world

hello world

<6>示例6:\S

import re

match_obj = re.match("hello\Sworld", "hello&world")

if match_obj:

result = match_obj.group()

print(result)

else:

print("匹配失敗")

match_obj = re.match("hello\Sworld", "hello$world")

if match_obj:

result = match_obj.group()

print(result)

else:

print("匹配失敗")

運行結(jié)果:

hello&world?

hello$world

<7>示例7:\w

import re

# 匹配非特殊字符中的一位

match_obj = re.match("\w", "A")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

執(zhí)行結(jié)果:

A

<8>示例8:\W

# 匹配特殊字符中的一位

match_obj = re.match("\W", "&")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

執(zhí)行結(jié)果:

&

4.匹配多個字符

匹配多個字符的相關(guān)格式

代碼 功能

* 匹配前一個字符出現(xiàn)0次或者無限次,即可有可無

+ 匹配前一個字符出現(xiàn)1次或者無限次,即至少有1次

? 匹配前一個字符出現(xiàn)1次或者0次,即要么有1次,要么沒有

{m} 匹配前一個字符出現(xiàn)m次

{m,n} 匹配前一個字符出現(xiàn)從m到n次

<1>示例1:*

需求:匹配出一個字符串第一個字母為大小字符,后面都是小寫字母并且這些小寫字母可 有可無

import re

ret = re.match("[A-Z][a-z]*","M")

print(ret.group())

ret = re.match("[A-Z][a-z]*","MnnM")

print(ret.group())

ret = re.match("[A-Z][a-z]*","Aabcdef")

print(ret.group())

運行結(jié)果:

M

Mnn

Aabcdef

<2>示例2:+

需求:匹配一個字符串,第一個字符是t,最后一個字符串是o,中間至少有一個字符

import re

match_obj = re.match("t.+o", "two")

if match_obj:

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

two

<3>示例3:?

需求:匹配出這樣的數(shù)據(jù),但是https 這個s可能有,也可能是http 這個s沒有

import re

match_obj = re.match("https?", "http")

if match_obj:

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

https

<4>示例4:{m}、{m,n}逗號和n直接不可以有空格

需求:匹配出,8到20位的密碼,可以是大小寫英文字母、數(shù)字、下劃線

import re

ret = re.match("[a-zA-Z0-9_]{6}","12a3g45678")

print(ret.group())

ret = re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")

print(ret.group())

運行結(jié)果:

12a3g4

1ad12f23s34455ff66

5.匹配開頭結(jié)尾

匹配開頭和結(jié)尾的正則表達(dá)式

代碼 功能

^ 匹配字符串開頭

$ 匹配字符串結(jié)尾

<1>示例1:^

需求:匹配以數(shù)字開頭的數(shù)據(jù)

import re

# 匹配以數(shù)字開頭的數(shù)據(jù)

match_obj = re.match("^\d.*", "3hello")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

3hello

<2>示例2:$

需求: 匹配以數(shù)字結(jié)尾的數(shù)據(jù)

import re

# 匹配以數(shù)字結(jié)尾的數(shù)據(jù)

match_obj = re.match(".*\d$", "hello5")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

hello5

<3>示例3:^ 和 $

需求: 匹配以數(shù)字開頭中間內(nèi)容不管以數(shù)字結(jié)尾

match_obj = re.match("^\d.*\d$", "4hello4")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

4hello4

<4>除了指定字符以外都匹配 [^指定字符]

[^指定字符]: 表示除了指定字符都匹配

指定字符可以是一個或者多個

需求: 第一個字符除了aeiou的字符都匹配

import re

match_obj = re.match("[^aeiou]", "h")

if match_obj:

? ? # 獲取匹配結(jié)果

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

執(zhí)行結(jié)果

h

6.匹配分組

匹配分組相關(guān)正則表達(dá)式

代碼 功能

| 匹配左右任意一個表達(dá)式

(ab) 將括號中字符作為一個分組

\num 引用分組num匹配到的字符串

(?P<name>) 分組起別名

(?P=name) 引用別名為name分組匹配到的字符串

<1>示例1:|

需求:在列表中["apple", "banana", "orange", "pear"],匹配apple和pear

import re

# 水果列表

fruit_list = ["apple", "banana", "orange", "pear"]

# 遍歷數(shù)據(jù)

for value in fruit_list:

? ? # |? ? 匹配左右任意一個表達(dá)式

? ? match_obj = re.match("apple|pear", value)

? ? if match_obj:

? ? ? ? print("%s是我想要的" % match_obj.group())

? ? else:

? ? ? ? print("%s不是我要的" % value)

執(zhí)行結(jié)果:

apple是我想要的

banana不是我要的

orange不是我要的

pear是我想要的

<2>示例2:( )

需求:匹配出163、126、qq等郵箱

import re

match_obj = re.match("[a-zA-Z0-9_]{4,20}@(163|126|qq|sina|yahoo)\.com", "hello@163.com")

if match_obj:

# 提示: 默認(rèn)獲取的是第0個分組,正則表達(dá)式匹配的數(shù)據(jù)

? ? print(match_obj.group())

? ? # 獲取第一個分組匹配的數(shù)據(jù)

#提示: 分組是按照從左到右一次排序的,默認(rèn)最左邊的是第一個分組

? ? print(match_obj.group(1))

else:

? ? print("匹配失敗")

執(zhí)行結(jié)果:

hello@163.com

163

需求: 匹配qq:10567這樣的數(shù)據(jù),提取出來qq文字和qq號碼

import re

match_obj = re.match("(qq):([1-9]\d{4,10})", "qq:10567")

if match_obj:

? ? print(match_obj.group())

? ? # 分組:默認(rèn)是1一個分組,多個分組從左到右依次加1

? ? print(match_obj.group(1))

? ? # 提取第二個分組數(shù)據(jù)

? ? print(match_obj.group(2))

else:

? ? print("匹配失敗")

執(zhí)行結(jié)果:

qq

10567

<3>示例3:\num

需求:匹配出<html>hh</html>

match_obj = re.match("<[a-zA-Z1-6]+>.*</[a-zA-Z1-6]+>", "<html>hh</div>")

if match_obj:

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

match_obj = re.match("<([a-zA-Z1-6]+)>.*</\\1>", "<html>hh</html>")

if match_obj:

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

<html>hh</div>

<html>hh</html>

需求:匹配出<html><h1>www.itcast.cn</h1></html>

match_obj = re.match("<([a-zA-Z1-6]+)><([a-zA-Z1-6]+)>.*</\\2></\\1>", "<html><h1>www.itcast.cn</h1></html>")

if match_obj:

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

<html><h1>www.itcast.cn</h1></html>

<4>示例4:(?P<name>) (?P=name)

需求:匹配出<html><h1>www.itcast.cn</h1></html>

match_obj = re.match("<(?P<name1>[a-zA-Z1-6]+)><(?P<name2>[a-zA-Z1-6]+)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>")

if match_obj:

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

<html><h1>www.itcast.cn</h1></html>

小結(jié)

? (分組數(shù)據(jù)):分組數(shù)是從左到右的方式進(jìn)行分配的

7.re模塊的高級用法

目標(biāo)

? 知道使用findall查找多個字符

? 知道使用sub替換數(shù)據(jù)

? 知道使用split根據(jù)多個標(biāo)識符進(jìn)行分割數(shù)據(jù)

<1>search

需求:匹配出水果的個數(shù)

import re

# 根據(jù)正則表達(dá)式查找數(shù)據(jù),提示:只查找一次

# 1.pattern: 正則表達(dá)式

# 2.string: 要匹配的字符串

match_obj = re.search("\d+", "水果有20個 其中蘋果10個")

if match_obj:

? ? # 獲取匹配結(jié)果數(shù)據(jù)

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

運行結(jié)果:

20

<2>findall

需求:匹配出多種水果的個數(shù)

import re

# 根據(jù)正則表達(dá)式查找數(shù)據(jù),提示:可以查找多次,返回一個列表,如果沒找到返回一個空列表

# 1.pattern: 正則表達(dá)式

# 2.string: 要匹配的字符串

result = re.findall("\d+", "蘋果10個 鴨梨5個 總共15個水果")

print(result)

運行結(jié)果:

['10', '5', '15']

<3>sub 將匹配到的數(shù)據(jù)進(jìn)行替換

需求:將匹配到的評論數(shù)改成22

import re

# pattern: 正則表達(dá)式

# repl: 替換后的字符串

# string: 要匹配的字符串

# count=0 替換次數(shù),默認(rèn)全部替換 , count=1根據(jù)指定次數(shù)替換

result = re.sub("\d+", "22", "評論數(shù):10 贊數(shù):20", count=1)

print(result)

運行結(jié)果:

評論數(shù):22 贊數(shù):20

需求:將匹配到的閱讀數(shù)加1

import re

# match_obj:該參數(shù)系統(tǒng)自動傳入

def add(match_obj):

? ? # 獲取匹配結(jié)果的數(shù)據(jù)

? ? value = match_obj.group()

? ? result = int(value) + 1

? ? # 返回值必須是字符串類型

? ? return str(result)

result = re.sub("\d+", add, "閱讀數(shù):10")

print(result)

運行結(jié)果:

閱讀數(shù):11

<4>split 根據(jù)匹配進(jìn)行切割字符串,并返回一個列表

需求:切割字符串"貂蟬,楊玉環(huán):西施,王昭君"

import re

# 1. 正則

# 2. 要匹配的字符串

# maxsplit=1 分割次數(shù)1次, 默認(rèn)maxsplit=0 全部分割

result = re.split(",|:", my_str, maxsplit=1)

print(result)

運行結(jié)果:

['貂蟬', '楊玉環(huán):西施,王昭君']

思考

使用正則表達(dá)式把職位描述信息提取出來不要html標(biāo)簽數(shù)據(jù)

<div>

<p>崗位職責(zé):</p>

<p>完成推薦算法、數(shù)據(jù)統(tǒng)計、接口、后臺等服務(wù)器端相關(guān)工作</p>

<p><br></p>

<p>必備要求:</p>

<p>良好的自我驅(qū)動力和職業(yè)素養(yǎng),工作積極主動、結(jié)果導(dǎo)向</p>

<p>?<br></p>

<p>技術(shù)要求:</p>

<p>1、一年以上 Python 開發(fā)經(jīng)驗,掌握面向?qū)ο蠓治龊驮O(shè)計,了解設(shè)計模式</p>

<p>2、掌握HTTP協(xié)議,熟悉MVC、MVVM等概念以及相關(guān)WEB開發(fā)框架</p>

<p>3、掌握關(guān)系數(shù)據(jù)庫開發(fā)設(shè)計,掌握 SQL,熟練使用 MySQL/PostgreSQL 中的一種<br></p>

<p>4、掌握NoSQL、MQ,熟練使用對應(yīng)技術(shù)解決方案</p>

<p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p>

<p>?<br></p>

<p>加分項:</p>

<p>大數(shù)據(jù),數(shù)理統(tǒng)計,機(jī)器學(xué)習(xí),sklearn,高性能,大并發(fā)。</p>

</div>

參考代碼:

import re

my_str = """<div>

? ? ? ? <p>【職位描述】<br>1、負(fù)責(zé)數(shù)據(jù)后臺服務(wù)的架構(gòu)設(shè)計、開發(fā)、優(yōu)化;<br><br>【任職要求】<br>1、本科以上學(xué)歷,計算機(jī)相關(guān)專業(yè);<br>2、3年以上python開發(fā)經(jīng)驗;<br>3、熟悉Unix、Linux操作系統(tǒng)原理及常用工具;<br>4、熟悉TCP/IP協(xié)議、進(jìn)程間通訊編程,熟悉Unix/Linux下常用架構(gòu)設(shè)計方法;<br>5、熟悉Mysql數(shù)據(jù)庫,熟悉NoSQL存儲,熟悉面向?qū)ο笤O(shè)計;<br>6、具備全面的軟件知識結(jié)構(gòu)認(rèn)知(操作系統(tǒng)、軟件工程、設(shè)計模式、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)安全);<br>7、具備良好的分析解決問題能力,能獨立承擔(dān)任務(wù),有系統(tǒng)進(jìn)度把控能力</p>

? ? ? ? </div>"""

# 根據(jù)正則表達(dá)式替換指定的標(biāo)簽數(shù)據(jù)

result = re.sub(r"</?[a-zA-Z1-6]+>", "", my_str)

# 去除左右空格

print(result.strip())

執(zhí)行結(jié)果:

【職位描述】1、負(fù)責(zé)數(shù)據(jù)后臺服務(wù)的架構(gòu)設(shè)計、開發(fā)、優(yōu)化;【任職要求】1、本科以上學(xué)歷,計算機(jī)相關(guān)專業(yè);2、3年以上python開發(fā)經(jīng)驗;3、熟悉Unix、Linux操作系統(tǒng)原理及常用工具;4、熟悉TCP/IP協(xié)議、進(jìn)程間通訊編程,熟悉Unix/Linux下常用架構(gòu)設(shè)計方法;5、熟悉Mysql數(shù)據(jù)庫,熟悉NoSQL存儲,熟悉面向?qū)ο笤O(shè)計;6、具備全面的軟件知識結(jié)構(gòu)認(rèn)知(操作系統(tǒng)、軟件工程、設(shè)計模式、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)安全);7、具備良好的分析解決問題能力,能獨立承擔(dān)任務(wù),有系統(tǒng)進(jìn)度把控能力

8.python貪婪和非貪婪

目標(biāo)

? 知道貪婪的特點

? 掌握非貪婪的使用

Python里數(shù)量詞默認(rèn)是貪婪的(在少數(shù)語言里也可能是默認(rèn)非貪婪),總是嘗試匹配盡可能多的字符;

非貪婪則相反,總是嘗試匹配盡可能少的字符。

在"*","?","+","{m,n}"后面加上?,使貪婪變成非貪婪。

非貪婪操作符“?”,這個操作符可以用在"*","+","?"的后面,這樣?前面的正則表達(dá)式不能匹配?后面正則表達(dá)式的數(shù)據(jù)

思考

請?zhí)崛《肤~圖片的url地址

字符串為:

<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">

參考代碼

import re

my_str = """<img alt="小淺月o的直播" data-original="https://rpic.douyucdn.cn/live-cover/appCovers/2018/03/25/3544712_20180325111300_big.jpg" src="https://rpic.douyucdn.cn/live-cover/appCovers/2018/03/25/3544712_20180325111300_big.jpg" width="283" height="163" class="JS_listthumb" style="display: block;">"""

# python里面正則表達(dá)式默認(rèn)是貪婪的, 盡量根據(jù)正則表達(dá)式多匹配數(shù)據(jù)

# 設(shè)置成為非貪婪, 非貪婪就是根據(jù)正則表達(dá)式盡量少匹配數(shù)據(jù)

# 非貪婪的樣式: *? +? ??

# 非貪婪的含義:?后面的數(shù)據(jù)不要前面去匹配,讓?后面匹配

match_obj = re.search(r"https?://.*?\.jpg", my_str)

if match_obj:

? ? # 獲取匹配結(jié)果數(shù)據(jù)

? ? print(match_obj.group())

else:

? ? print("匹配失敗")

執(zhí)行代碼:

https://rpic.douyucdn.cn/live-cover/appCovers/2018/03/25/3544712_20180325111300_big.jpg

9.r的作用

目標(biāo)

? 知道r的作用

說明

Python中字符串前面加上 r 表示原生字符串,數(shù)據(jù)里面的反斜杠不需要進(jìn)行轉(zhuǎn)義,針對的只是反斜杠

Python里的原生字符串很好地解決了這個問題,有了原生字符串,你再也不用擔(dān)心是不是漏寫了反斜杠,寫出來的表達(dá)式也更直觀。

建議: 如果使用使用正則表達(dá)式匹配數(shù)據(jù)可以都加上r,要注意r針對的只是反斜杠起作用,不需要對其進(jìn)行轉(zhuǎn)義

>>> ret = re.match(r"c:\\a",mm).group()

>>> print(ret)

c:\a

小結(jié)

? r 表示原生字符串,數(shù)據(jù)里面的反斜杠不需要進(jìn)行轉(zhuǎn)義,針對的只是反斜杠


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容