正則表達(dá)式(正則表達(dá)式必知必會(huì))

什么是正則表達(dá)式

簡(jiǎn)單來(lái)說(shuō),正則表達(dá)式是一些用來(lái)匹配和處理文本的字符串。它主要有兩種使用場(chǎng)景:一種是查找特定的信息(搜索),另一種是查找并編輯特定的信息(替換)。
參考正則表達(dá)式30分鐘入門:(https://deerchao.cn/tutorials/regex/regex.htm)

匹配單個(gè)字符

  1. 匹配特定純文本
    普通字符可作為正則表達(dá)式,匹配該字符本身。
  2. 匹配任意字符
    正則表達(dá)式中,.可以匹配任何一個(gè)單個(gè)的字符,除了換行符外,類似于DOS中的?字符和SQL中的_(下劃線)字符。
  3. 匹配特殊字符
    正則表達(dá)式中,\是一個(gè)元字符(metacharacter),表示這個(gè)字符有特殊含義,而不是字符本身的含義。\后面跟著一個(gè)特殊字符,可對(duì)該特殊字符轉(zhuǎn)義。要匹配一個(gè)特殊字符時(shí),應(yīng)該由\跟著特殊字符去匹配。比如\.表示匹配一個(gè).

匹配一組字符

元字符[]用來(lái)定義一個(gè)字符集合,其含義是必須匹配該集合中的一個(gè)字符。定義一個(gè)字符集合具體做法有兩種:一是把所有的字符都列舉出來(lái),該做法通常用于要列舉的字符較少時(shí),例如[abc];二是利用元字符-以字符區(qū)間的方式給出,例如[0-9]將匹配0-9中的任意一個(gè)。注意在定義一個(gè)字符區(qū)間的時(shí)候,一定要避免讓這個(gè)區(qū)間的尾字符小于它的首字符,如[3-1],這種區(qū)間是無(wú)意義的,而且往往會(huì)讓整個(gè)模式失效。-(連字符)是一個(gè)特殊的元字符,作為元字符它只能用在[]之間。在字符集合外,-只是一個(gè)普通字符,只能匹配-自身,因此-字符不需要轉(zhuǎn)義。
此外,字符集合可以用元字符^來(lái)求非:這將把給定集合里的字符強(qiáng)行排除在匹配操作之外。例如[^a-b]將匹配除了a,b以外的字符。

使用元字符

  1. 對(duì)特殊字符轉(zhuǎn)義
    要匹配特殊字符,必須使用\進(jìn)行轉(zhuǎn)義
    要轉(zhuǎn)義個(gè)字符:
$
()
*
+
.
[]
?
\
^
{}
|
'
"
  1. 匹配空白字符
    元字符大致分為兩種:一種是用來(lái)匹配文本的(比如.),另一種是正則表達(dá)式語(yǔ)法要求的(比如[])。匹配非打印空白字符的元字符如下:
\b  Backspace鍵,匹配一個(gè)單詞的頭尾
\f  換頁(yè)符
\n  換行符
\r  回車符
\t  制表符
\v  垂直制表符

Windows結(jié)束行:\r\n,Unix/Linux結(jié)束行:\n,匹配一個(gè)空白行可以用\r\n\r\n或者\n\n。

  1. 匹配特定的字符類別(字符類)
\d  任何一個(gè)數(shù)字字符(等價(jià)于[0-9])
\D  任何一個(gè)非數(shù)字字符(等價(jià)于[^0-9])
\w  等價(jià)于[a-zA-Z0-9]
\W  等價(jià)于[^a-zA-Z0-9]
\s  任何一個(gè)空白字符(等價(jià)于[\f\n\r\t\v])
\S  任何一個(gè)非空白字符(等價(jià)于[^\f\n\r\t\v])

重復(fù)匹配

  1. 有多少個(gè)匹配
+: 匹配一個(gè)或者多個(gè)字符(字.符集合)。[0-9]+會(huì)匹配一個(gè)或多個(gè)數(shù)字。+是元字符,要匹配+必須轉(zhuǎn)義:\+。
一般來(lái)說(shuō),當(dāng)在字符集合里使用像.、+這樣的元字符的時(shí)候,元字符會(huì)被解釋為普通字符,不需要被轉(zhuǎn)義,但轉(zhuǎn)義了也是可以的。
[\w.]的使用效果和[\w\.]是一樣的。
*: 匹配零個(gè)或者多個(gè)字符(字符集合)。*也是一個(gè)元字符,要匹配*本身必須使用\*
?: 匹配零個(gè)或者一個(gè)字符(字符集合)。\?匹配?本身。[\r]?\n匹配Windows或者Unix/Linux下的換行符。
  1. 匹配的重復(fù)次數(shù)
    在字符或者字符集合后面跟著元字符{和}可以設(shè)置要匹配的重復(fù)次數(shù)。如果要匹配{和}本身,必須使用轉(zhuǎn)義{和}。
[[:xdigit:]]{6}: 匹配336633和FFFFFF等
a{2,4}:匹配2-4個(gè)連續(xù)的a
a{2,}: 匹配至少連續(xù)兩個(gè)a
  1. 防止過(guò)度匹配
    貪婪模式與懶惰模式
*   *?
+   +?
{n, }   {n, }?

位置匹配

  1. 單詞邊界(boundary)
    邊界限定符
    \b用來(lái)匹配單詞的邊界,\b匹配這樣的一個(gè)位置,它位于一個(gè)\w和一個(gè)\W之間。
    \B用來(lái)這樣一個(gè)位置,它前后都是\w,或者前后都不是\w。
    \b匹配且只匹配一個(gè)位置,不匹配任何字符,即不消耗字符。用\bcat\b匹配到的字符串的長(zhǎng)度是3,而不是5。
  2. 字符串邊界
    ^匹配字符串的開(kāi)頭, $匹配字符串的結(jié)尾。注意^只有出現(xiàn)在一個(gè)字符集合里[]并且緊跟在[之后才能發(fā)揮取非的作用。
    分行匹配模式
    啟用分行匹配模式后,^不僅匹配正常的字符串開(kāi)頭,還將匹配行分隔符(分行符)后面的開(kāi)始位置(這個(gè)位置是不可見(jiàn)的);類似的, $不僅匹配正常的字符串結(jié)尾,還將匹配行分隔符(換行符)后面的結(jié)束位置。

使用子表達(dá)式

  1. 子表達(dá)式
    子表達(dá)式是一個(gè)更大的表達(dá)式的一部分,用()括起來(lái),當(dāng)做一個(gè)獨(dú)立元素來(lái)使用。()是元字符,要匹配()自身,必須使用轉(zhuǎn)義序列\(\)。
    |是正則表達(dá)式里面的或操作符,(19|20)\d{2}匹配年份
    匹配IP地址。一個(gè)合法IP地址的各組數(shù)字必須且只能符合以下規(guī)則:
  • 任何一個(gè)1位或者2位數(shù)字(0-99)
  • 任何一個(gè)以1開(kāi)頭的3位數(shù)字(100-199)
  • 任何一個(gè)以2開(kāi)頭、第二位數(shù)字在0-4之間的3位數(shù)字(200-249)
  • 任何一個(gè)以25開(kāi)頭、第3位數(shù)字在0-5之間的3位數(shù)字。(250-255)
    所以可以寫出匹配IP地址的正則表達(dá)式:
(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))

回溯應(yīng)用:前后一致匹配

回溯引用指的是模式的后半部分引用在前半部分中定義的子表達(dá)式?;厮菀弥荒苡脕?lái)引用模式里的子表達(dá)式(用()括起來(lái)的正則表達(dá)式片段)?;厮菀闷ヅ渫ǔ?開(kāi)始計(jì)數(shù)(\1、\2等),第0個(gè)匹配用來(lái)替代整個(gè)表達(dá)式。
比如[ ]+(\w+)[ ]+\1用來(lái)匹配連續(xù)兩個(gè)重復(fù)單詞。

前后查找(只匹配不消費(fèi))

  1. 向前查找(lookahead)
文本
http://www.forta.com/
https://mail.forta.com/
ftp://ftp.forta.com/
正則表達(dá)式
.+(?=:)

只匹配:,不消費(fèi)它,提取協(xié)議。向前查找(和向后查找)匹配本身是有返回結(jié)果的,只是這個(gè)結(jié)果的字節(jié)長(zhǎng)度永遠(yuǎn)是0而已。因此,前后查找操作也被成為零寬度匹配操作(zero-width)。

  1. 向后查找(lookbehind)
    提取價(jià)格
文本
ABC01:  $23.45
HGG42:  $5.31
Total items found: 4
正則表達(dá)式
(?<=\$)[0-9.]+
  1. 前后查找取非
操作符      說(shuō)明
(?=exp)           正向前查找,匹配exp前面的位置
(?!exp)            負(fù)向前查找,匹配后面跟的不是exp的位置
(?<=exp)        正向后查找,匹配exp后面的位置
(?<!exp)         負(fù)向后查找,匹配前面不是exp的位置
文本
I paid $30 for 100 apples, 50 oranges.
正則表達(dá)式
\b(?<!\$)[0-9.]+\b

嵌入條件

在正則表達(dá)式里可以嵌入條件,只有當(dāng)條件得到(或者沒(méi)有得到滿足時(shí)),相應(yīng)的表達(dá)式才會(huì)被執(zhí)行。這種條件可以是一個(gè)回溯引用(含義是檢查回溯引用是否存在),也可以是一個(gè)前后檢查操作。

  1. 回溯引用條件
文本
<! -- Nav bar -->
<TD>
<A HREF="/home"><IMG SRC ="/imges/hom.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/search"><IMG SRC="/images/search.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/help"><IMG SRC="/images/help.gif"></A>
</TD>
正則表達(dá)式
(<[Aa]\s+[^>]+>\s*)?<[Ii][Mm][Gg]\s+[^>]+>(?(1)\s*</[Aa]>)

語(yǔ)法:(?(backreference)true-regex),注意?(1)檢查第一個(gè)回溯引用是否存在,回溯引用編號(hào)不用被轉(zhuǎn)義。
(?(backreference)true-regex|false-regex)

文本
123-456-7890
(123)456-7890
(123)-456-7890
1234567890
123 456 7890
正則表達(dá)式
(\()?\d{3}(?(1)\)|-)\d{3}-\d{4}
  1. 前后查找條件
文本
11111
22222
33333
44444-4444
正則表達(dá)式
\d{5}(?(?=-)-\d{4})
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 什么是正則表達(dá)式 正則表達(dá)式(regular expression)描述了一種字符串匹配的模式(pattern),...
    小貔閱讀 1,796評(píng)論 0 7
  • 正則表達(dá)式必知必會(huì) 匹配單個(gè)字符 匹配純文本 相當(dāng)于文本查找的功能(CMD + F)。但是一般的正則表達(dá)式引擎默認(rèn)...
    三十一_iOS閱讀 1,135評(píng)論 0 1
  • 正則表達(dá)式到底是什么東西?字符是計(jì)算機(jī)軟件處理文字時(shí)最基本的單位,可能是字母,數(shù)字,標(biāo)點(diǎn)符號(hào),空格,換行符,漢字等...
    獅子挽歌閱讀 2,279評(píng)論 0 9
  • 本文譯自 制作正則引擎的作者 Jan Goyvaerts 為工具 RegexBuddy 寫的教程版權(quán)歸原作者所有注...
    極客圈閱讀 3,405評(píng)論 0 25
  • 清風(fēng)徐來(lái)來(lái)無(wú)影 靜水微波波無(wú)痕 曼妙清姿滋味老 綠楊稀處出村西 但使嬰寧還又在 留戀書生情可期 襄陽(yáng)路遠(yuǎn)瓜州客 蓬...
    陶纓子閱讀 576評(píng)論 4 13

友情鏈接更多精彩內(nèi)容