前言
正則表達(dá)式在幾乎所有語言中都可以使用,無論是前端的JavaScript、還是后端的Java、c#。他們都提供相應(yīng)的接口/函數(shù)支持正則表達(dá)式。
但很神奇的是:無論你大學(xué)選擇哪一門計算機(jī)語言,都沒有關(guān)于正則表達(dá)式的課程給你修,在你學(xué)會正則之前,你只能看著那些正則大師們,寫了一串外星文似的字符串,替代了你用一大篇幅的if else代碼來做一些數(shù)據(jù)校驗。
既然喜歡,那就動手學(xué)唄,可當(dāng)你百度出一一堆相關(guān)資料時,你發(fā)現(xiàn)無一不例外的枯燥至極,難以學(xué)習(xí)。
本文旨在用最通俗的語言講述最枯燥的基本知識!
正則基礎(chǔ)知識點:
1.元字符
萬物皆有緣,正則也是如此,元字符是構(gòu)造正則表達(dá)式的一種基本元素。
我們先來記幾個常用的元字符:
| 元字符 | 說明 |
|---|---|
| . | 匹配除換行符以外的任意字符 |
| \w | 匹配字母或數(shù)字或下劃線或漢字 |
| \s | 匹配任意的空白符 |
| \d | 匹配數(shù)字 |
| \b | 匹配單詞的開始或結(jié)束 |
| ^ | 匹配字符串的開始 |
| $ | 匹配字符串的結(jié)束 |
有了元字符之后,我們就可以利用這些元字符來寫一些簡單的正則表達(dá)式了,
比如:
- 匹配有abc開頭的字符串:
1\babc或者^abc
- 匹配8位數(shù)字的QQ號碼:
1^\d\d\d\d\d\d\d\d$
- 匹配1開頭11位數(shù)字的手機(jī)號碼:
1^1\d\d\d\d\d\d\d\d\d\d$
2. 重復(fù)限定符
有了元字符就可以寫不少的正則表達(dá)式了,但細(xì)心的你們可能會發(fā)現(xiàn):別人寫的正則簡潔明了,而不理君寫的正則一堆亂七八糟而且重復(fù)的元字符組成的。正則沒提供辦法處理這些重復(fù)的元字符嗎?
答案是有的!
為了處理這些重復(fù)問題,正則表達(dá)式中一些重復(fù)限定符,把重復(fù)部分用合適的限定符替代,下面我們來看一些限定符:
| 語法 | 說明 |
|---|---|
| * | 重復(fù)零次或更多次 |
| + | 重復(fù)一次或更多次 |
| ? | 重復(fù)零次或一次 |
| {n} | 重復(fù)n次 |
| {n,} | 重復(fù)n次或更多次 |
| {n,m} | 重復(fù)n到m次 |
有了這些限定符之后,我們就可以對之前的正則表達(dá)式進(jìn)行改造了,比如:
- 匹配8位數(shù)字的QQ號碼:
1^\d{8}$
- 匹配1開頭11位數(shù)字的手機(jī)號碼:
1^1\d{10}$
- 匹配銀行卡號是14~18位的數(shù)字:
1^\d{14,18}$
- 匹配以a開頭的,0個或多個b結(jié)尾的字符串
1^ab*$
3. 分組
從上面的例子(4)中看到,限定符是作用在與他左邊最近的一個字符,那么問題來了,如果我想要ab同時被限定那怎么辦呢?
正則表達(dá)式中用小括號()來做分組,也就是括號中的內(nèi)容作為一個整體。
因此當(dāng)我們要匹配多個ab時,我們可以這樣
如:匹配字符串中包含0到多個ab開頭:
1^(ab)*
4. 轉(zhuǎn)義
我們看到正則表達(dá)式用小括號來做分組,那么問題來了:
如果要匹配的字符串中本身就包含小括號,那是不是沖突?應(yīng)該怎么辦?
針對這種情況,正則提供了轉(zhuǎn)義的方式,也就是要把這些元字符、限定符或者關(guān)鍵字轉(zhuǎn)義成普通的字符,做法很簡答,就是在要轉(zhuǎn)義的字符前面加個斜杠,也就是\即可。
如:要匹配以(ab)開頭:
1^(\(ab\))*
5. 條件或
回到我們剛才的手機(jī)號匹配,我們都知道:國內(nèi)號碼都來自三大網(wǎng),它們都有屬于自己的號段,比如聯(lián)通有130/131/132/155/156/185/186/145/176等號段,假如讓我們匹配一個聯(lián)通的號碼,那按照我們目前所學(xué)到的正則,應(yīng)該無從下手的,因為這里包含了一些并列的條件,也就是“或”,那么在正則中是如何表示“或”的呢?
正則用符號 | 來表示或,也叫做分支條件,當(dāng)滿足正則里的分支條件的任何一種條件時,都會當(dāng)成是匹配成功。
那么我們就可以用或條件來處理這個問題
1^(130|131|132|155|156|185|186|145|176)\d{8}$
6. 區(qū)間
看到上面的例子,是不是看到有什么規(guī)律?是不是還有一種想要簡化的沖動?
實際是有的
正則提供一個元字符中括號 [] 來表示區(qū)間條件。
- 限定0到9 可以寫成[0-9]
- 限定A-Z 寫成[A-Z]
- 限定某些數(shù)字 [165]
那上面的正則我們還改成這樣:
1^((13[0-2])|(15[56])|(18[5-6])|145|176)\d{8}$
好了,正則表達(dá)式的基本用法就講到這里了,其實它還有非常多的知識點以及元字符,我們在此只列舉了部分元字符和語法來講,旨在給那些不懂正則或者想學(xué)正則但有看不下去文檔的人做一個快速入門級的教程,看完本教程,即使你不能寫出高大上的正則,至少也能寫一些簡單的正則或者看得懂別人寫的正則了。
正則進(jìn)階知識點:
1. 零寬斷言
無論是零寬還是斷言,聽起來都古古怪怪的,
那先解釋一下這兩個詞。
- 斷言:俗話的斷言就是“我斷定什么什么”,而正則中的斷言,就是說正則可以指明在指定的內(nèi)容的前面或后面會出現(xiàn)滿足指定規(guī)則的內(nèi)容,
意思正則也可以像人類那樣斷定什么什么,比如"ss1aa2bb3",正則可以用斷言找出aa2前面有bb3,也可以找出aa2后面有ss1.
- 零寬:就是沒有寬度,在正則中,斷言只是匹配位置,不占字符,也就是說,匹配結(jié)果里是不會返回斷言本身。
意思是講明白了,那他有什么用呢?
我們來舉個栗子:
假設(shè)我們要用爬蟲抓取csdn里的文章閱讀量。通過查看源代碼可以看到文章閱讀量這個內(nèi)容是這樣的結(jié)構(gòu)
1"<span class="read-count">閱讀數(shù):641</span>"
其中也就‘641’這個是變量,也就是說不同文章不同的值,當(dāng)我們拿到這個字符串時,需要獲得這里邊的‘641’有很多種辦法,但如果正則應(yīng)該怎么匹配呢?
下面先來講幾種類型的斷言:
- 正向先行斷言(正前瞻):
- 語法:(?=pattern)
- 作用:匹配pattern表達(dá)式的前面內(nèi)容,不返回本身。
這樣子說,還是一臉懵逼,好吧,回歸剛才那個栗子,要取到閱讀量,在正則表達(dá)式中就意味著要能匹配到‘</span>’前面的數(shù)字內(nèi)容
按照上所說的正向先行斷言可以匹配表達(dá)式前面的內(nèi)容,那意思就是:(?=</span>) 就可以匹配到前面的內(nèi)容了。
匹配什么內(nèi)容呢?如果要所有內(nèi)容那就是:
String reg=".+(?=</span>)";
String test = "<span class=\"read-count\">閱讀數(shù):641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println("匹配結(jié)果:")
System.out.println(mc.group());
}
//匹配結(jié)果:
//<span class="read-count">閱讀數(shù):641
可是老哥我們要的只是前面的數(shù)字呀,那也簡單咯,匹配數(shù)字 \d,那可以改成:
String reg="\\d+(?=</span>)";
String test = "<span class=\"read-count\">閱讀數(shù):641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配結(jié)果:
//641
大功告成!
- 正向后行斷言(正后顧):
- 語法:(?<=pattern)
- 作用:匹配pattern表達(dá)式的后面的內(nèi)容,不返回本身。
有先行就有后行,先行是匹配前面的內(nèi)容,那后行就是匹配后面的內(nèi)容啦。
上面的栗子,我們也可以用后行斷言來處理.
//(?<=<span class="read-count">閱讀數(shù):)\d+
String reg="(?<=<span class=\"read-count\">閱讀數(shù):)\\d+";
String test = "<span class=\"read-count\">閱讀數(shù):641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配結(jié)果:
//641
就這么簡單。
- 負(fù)向先行斷言(負(fù)前瞻)
- 語法:(?!pattern)
- 作用:匹配非pattern表達(dá)式的前面內(nèi)容,不返回本身。
有正向也有負(fù)向,負(fù)向在這里其實就是非的意思。
舉個栗子:比如有一句 “我愛祖國,我是祖國的花朵”
現(xiàn)在要找到不是'的花朵'前面的祖國
用正則就可以這樣寫:
1祖國(?!的花朵)
- 負(fù)向后行斷言(負(fù)后顧)
- 語法:(?<!pattern)
- 作用:匹配非pattern表達(dá)式的后面內(nèi)容,不返回本身。
2. 捕獲和非捕獲
單純說到捕獲,他的意思是匹配表達(dá)式,但捕獲通常和分組聯(lián)系在一起,也就是“捕獲組”
捕獲組:匹配子表達(dá)式的內(nèi)容,把匹配結(jié)果保存到內(nèi)存中中數(shù)字編號或顯示命名的組里,以深度優(yōu)先進(jìn)行編號,之后可以通過序號或名稱來使用這些匹配結(jié)果。
而根據(jù)命名方式的不同,又可以分為兩種組:
- 數(shù)字編號捕獲組:
語法:(exp)
解釋:從表達(dá)式左側(cè)開始,每出現(xiàn)一個左括號和它對應(yīng)的右括號之間的內(nèi)容為一個分組,在分組中,第0組為整個表達(dá)式,第一組開始為分組。
比如固定電話的:020-85653333
他的正則表達(dá)式為:(0\d{2})-(\d{8})
按照左括號的順序,這個表達(dá)式有如下分組:
| 序號 | 編號 | 分組 | 內(nèi)容 |
|---|---|---|---|
| 0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
| 1 | 1 | (0\d{2}) | 020 |
| 2 | 2 | (\d{8}) | 85653333 |
我們用Java來驗證一下:
String test = "020-85653333";
String reg="(0\\d{2})-(\\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數(shù)有:"+mc.groupCount());
for(int i=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"個分組為:"+mc.group(i));
}
}
輸出結(jié)果:
分組的個數(shù)有:2
第0個分組為:020-856533333
第1個分組為:0204
第2個分組為:85653333
可見,分組個數(shù)是2,但是因為第0個為整個表達(dá)式本身,因此也一起輸出了。
- 命名編號捕獲組:
語法:(?<name>exp)
解釋:分組的命名由表達(dá)式中的name指定
比如區(qū)號也可以這樣寫:(?<quhao>\0\d{2})-(?<haoma>\d{8})
按照左括號的順序,這個表達(dá)式有如下分組:
| 序號 | 名稱 | 分組 | 內(nèi)容 |
|---|---|---|---|
| 0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
| 1 | quhao | (0\d{2}) | 020 |
| 2 | haoma | (\d{8}) | 85653333 |
用代碼來驗證一下:
String test = "020-85653333";
String reg="(?<quhao>0\\d{2})-(?<haoma>\\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數(shù)有:"+mc.groupCount());
System.out.println(mc.group("quhao"));
System.out.println(mc.group("haoma"));
}
輸出結(jié)果:
分組的個數(shù)有:2
分組名稱為:quhao,匹配內(nèi)容為:020
分組名稱為:haoma,匹配內(nèi)容為:85653333
- 非捕獲組:
語法:(?:exp)
解釋:和捕獲組剛好相反,它用來標(biāo)識那些不需要捕獲的分組,說的通俗一點,就是你可以根據(jù)需要去保存你的分組。
比如上面的正則表達(dá)式,程序不需要用到第一個分組,那就可以這樣寫:
1(?:\0\d{2})-(\d{8})
| 序號 | 編號 | 分組 | 內(nèi)容 |
|---|---|---|---|
| 0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
| 1 | 1 | (\d{8}) | 85653333 |
驗證一下:
String test = "020-85653333";
String reg="(?:0\\d{2})-(\\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數(shù)有:"+mc.groupCount());
for(int i=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"個分組為:"+mc.group(i));
}
}
輸出結(jié)果:
分組的個數(shù)有:1
第0個分組為:020-856533333
第1個分組為:85653333
3. 反向引用
上面講到捕獲,我們知道:捕獲會返回一個捕獲組,這個分組是保存在內(nèi)存中,不僅可以在正則表達(dá)式外部通過程序進(jìn)行引用,也可以在正則表達(dá)式內(nèi)部進(jìn)行引用,這種引用方式就是反向引用。
根據(jù)捕獲組的命名規(guī)則,反向引用可分為:
數(shù)字編號組反向引用:\k
<number style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; font-size: inherit; color: inherit; line-height: inherit;">或\number</number>
命名編號組反向引用:\k
<name style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; font-size: inherit; color: inherit; line-height: inherit;">或者'name'</name>
好了 講完了,懂嗎?不懂?。?!
可能連前面講的捕獲有什么用都還不懂吧?
其實只是看完捕獲不懂不會用是很正常的!
因為捕獲組通常是和反向引用一起使用的
上面說到捕獲組是匹配子表達(dá)式的內(nèi)容按序號或者命名保存起來以便使用
注意兩個字眼:“內(nèi)容” 和 “使用”
這里所說的“內(nèi)容”,是匹配結(jié)果,而不是子表達(dá)式本身,強(qiáng)調(diào)這個有什么用?嗯,先記住
那這里所說的“使用”是怎樣使用呢?
因為它的作用主要是用來查找一些重復(fù)的內(nèi)容或者做替換指定字符。
還是舉栗子吧:
比如要查找一串字母"aabbbbgbddesddfiid"里成對的字母
如果按照我們之前學(xué)到的正則,什么區(qū)間啊限定啊斷言啊可能是辦不到的,
現(xiàn)在我們先用程序思維理一下思路:
- 1)匹配到一個字母
- 2)匹配第下一個字母,檢查是否和上一個字母是否一樣
- 3)如果一樣,則匹配成功,否則失敗
這里的思路2中匹配下一個字母時,需要用到上一個字母,那怎么記住上一個字母呢???
這下子捕獲就有用處啦,我們可以利用捕獲把上一個匹配成功的內(nèi)容用來作為本次匹配的條件
好了,有思路就要實踐
首先匹配一個字母:\w
我們需要做成分組才能捕獲,因此寫成這樣:(\w)
那這個表達(dá)式就有一個捕獲組:(\w)
然后我們要用這個捕獲組作為條件,那就可以:(\w)\1
這樣就大功告成了
可能有人不明白了,\1是什么意思呢?
還記得捕獲組有兩種命名方式嗎,一種是是根據(jù)捕獲分組順序命名,一種是自定義命名來作為捕獲組的命名
在默認(rèn)情況下都是以數(shù)字來命名,而且數(shù)字命名的順序是從1開始的
因此要引用第一個捕獲組,根據(jù)反向引用的數(shù)字命名規(guī)則 就需要 \k<1>或者\1
當(dāng)然,通常都是是后者。
我們來測試一下:
String test = "aabbbbgbddesddfiid";
Pattern pattern = Pattern.compile("(\\w)\\1");
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
輸出結(jié)果:
1aa2bb3bb4dd5dd6ii
嗯,這就是我們想要的了。
在舉個替換的例子,假如想要把字符串中abc換成a
String test = "abcbbabcbcgbddesddfiid";
String reg="(a)(b)c";
System.out.println(test.replaceAll(reg, "$1"));
輸出結(jié)果:
1abbabcgbddesddfiid
4. 貪婪和非貪婪
1.貪婪
我們都知道,貪婪就是不滿足,盡可能多的要。
在正則中,貪婪也是差不多的意思:
貪婪匹配:當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時,通常的行為是(在使整個表達(dá)式能得到匹配的前提下)匹配盡可能多的字符,這匹配方式叫做貪婪匹配。
特性:一次性讀入整個字符串進(jìn)行匹配,每當(dāng)不匹配就舍棄最右邊一個字符,繼續(xù)匹配,依次匹配和舍棄(這種匹配-舍棄的方式也叫做回溯),直到匹配成功或者把整個字符串舍棄完為止,因此它是一種最大化的數(shù)據(jù)返回,能多不會少。
前面我們講過重復(fù)限定符,其實這些限定符就是貪婪量詞,比如表達(dá)式:
1\d{3,6}
用來匹配3到6位數(shù)字,在這種情況下,它是一種貪婪模式的匹配,也就是假如字符串里有6個個數(shù)字可以匹配,那它就是全部匹配到。
如
String reg="\\d{3,6}";
String test="61762828 176 2991 871";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結(jié)果:"+m1.group(0));
}
輸出結(jié)果:
文本:61762828 176 2991 44 871
貪婪模式:\d{3,6}
匹配結(jié)果:6176284
匹配結(jié)果:1765
匹配結(jié)果:29916
匹配結(jié)果:871
由結(jié)果可見:本來字符串中的“61762828”這一段,其實只需要出現(xiàn)3個(617)就已經(jīng)匹配成功了的,但是他并不滿足,而是匹配到了最大能匹配的字符,也就是6個。
一個量詞就如此貪婪了,
那有人會問,如果多個貪婪量詞湊在一起,那他們是如何支配自己的匹配權(quán)的呢?
是這樣的,多個貪婪在一起時,如果字符串能滿足他們各自最大程度的匹配時,就互不干擾,但如果不能滿足時,會根據(jù)深度優(yōu)先原則,也就是從左到右的每一個貪婪量詞,優(yōu)先最大數(shù)量的滿足,剩余再分配下一個量詞匹配。
String reg="(\\d{1,2})(\\d{3,4})";
String test="61762828 176 2991 87321";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結(jié)果:"+m1.group(0));
}
輸出結(jié)果:
文本:61762828 176 2991 87321
貪婪模式:(\d{1,2})(\d{3,4})
匹配結(jié)果:617628
匹配結(jié)果:2991
匹配結(jié)果:87321
- “617628” 是前面的\d{1,2}匹配出了61,后面的匹配出了7628
- "2991" 是前面的\d{1,2}匹配出了29 ,后面的匹配出了91
- "87321"是前面的\d{1,2}匹配出了87,后面的匹配出了321
2. 懶惰(非貪婪)
懶惰匹配:當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時,通常的行為是(在使整個表達(dá)式能得到匹配的前提下)匹配盡可能少的字符,這匹配方式叫做懶惰匹配。
特性:從左到右,從字符串的最左邊開始匹配,每次試圖不讀入字符匹配,匹配成功,則完成匹配,否則讀入一個字符再匹配,依此循環(huán)(讀入字符、匹配)直到匹配成功或者把字符串的字符匹配完為止。
懶惰量詞是在貪婪量詞后面加個“?”
| 代碼 | 說明 |
|---|---|
| *? | 重復(fù)任意次,但盡可能少重復(fù) |
| +? | 重復(fù)1次或更多次,但盡可能少重復(fù) |
| ?? | 重復(fù)0次或1次,但盡可能少重復(fù) |
| {n,m}? | 重復(fù)n到m次,但盡可能少重復(fù) |
| {n,}? | 重復(fù)n次以上,但盡可能少重復(fù) |
String reg="(\\d{1,2}?)(\\d{3,4})";
String test="61762828 176 2991 87321";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結(jié)果:"+m1.group(0));
}
輸出結(jié)果:
文本:61762828 176 2991 87321
貪婪模式:(\d{1,2}?)(\d{3,4})
匹配結(jié)果:61762
匹配結(jié)果:2991
匹配結(jié)果:87321
解答:
“61762” 是左邊的懶惰匹配出6,右邊的貪婪匹配出1762
"2991" 是左邊的懶惰匹配出2,右邊的貪婪匹配出991
"87321" 左邊的懶惰匹配出8,右邊的貪婪匹配出7321
5. 反義
前面說到元字符的都是要匹配什么什么,當(dāng)然如果你想反著來,不想匹配某些字符,正則也提供了一些常用的反義元字符:
| 元字符 | 解釋 |
|---|---|
| \W | 匹配任意不是字母,數(shù)字,下劃線,漢字的字符 |
| \S | 匹配任意不是空白符的字符 |
| \D | 匹配任意非數(shù)字的字符 |
| \B | 匹配不是單詞開頭或結(jié)束的位置 |
| [^x] | 匹配除了x以外的任意字符 |
| [^aeiou] | 匹配除了aeiou這幾個字母以外的任意字符 |
轉(zhuǎn)載自公眾號:Java雜記
原文
?=表達(dá)式 匹配表達(dá)式,不返回表達(dá)式,返回表達(dá)式前面的內(nèi)容
?<=表達(dá)式 匹配表達(dá)式,不返回表達(dá)式,返回表達(dá)式后面的內(nèi)容
例如:url123abc777url345ccc666
(?<=url)(\d{3}) 此表達(dá)式的匹配結(jié)果為:123,345
?!表達(dá)式 在不能匹配表達(dá)的情況下匹配,返回表達(dá)式前面的內(nèi)容
?<! 表達(dá)式 在不能匹配表達(dá)的情況下匹配,返回表達(dá)式后面的內(nèi)容
例如:url123abc777url345ccc666
(?<!url)(\d{3}) 此表達(dá)式返回結(jié)果為 777,666
?:表達(dá)式 匹配表達(dá)式,并返回表達(dá)式
例如:url123abc777url345ccc666
(?:url)(\d{3}) 此表達(dá)式將返回 url123,url345