正則表達式小記錄
正則表達式其實就是在執(zhí)行搜索時的格式,從左到右進行匹配。
一般來說,正則表達式是大小寫敏感的。
1. 元字符
正則表達式主要依賴于元字符. 元字符不代表他們本身的字面意思, 他們都有特殊的含義.
| 元字符 | 描述 | |
|---|---|---|
| . | 句號匹配任意單個字符除了換行符. | |
| [ ] | 字符種類. 匹配方括號內(nèi)的任意字符.不關心順序. | |
| [^ ] | 否定的字符種類. 匹配除了方括號里的任意字符 | |
| * | 匹配>=0個重復的在號之前*的字符. | |
| + | 匹配>=1個重復的+號前的字符. | |
| ? | 標記?之前的字符為可選. | |
| {n,m} | 匹配num個大括號之前的字符 (n <= num <= m). | |
| (xyz) | 字符集, 匹配與 xyz 完全相等的字符串. | |
| | | 或運算符,匹配符號前或后的字符. | |
| \ | 轉(zhuǎn)義字符,用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \ | ` |
| ^ | 從開始行開始匹配. | |
| $ | 從末端開始匹配. |
1.1點運算符 .
例如, 表達式.ar匹配一個任意字符后面跟著是a和r的字符串.
1.2字符集
例如, 表達式[Tt]he 匹配 the 和 The.
方括號的句號就表示句號. 表達式 ar[.] 匹配 ar.字符串
例如, 表達式[^c]ar匹配一個后面跟著ar的除了c的任意字符.
1.3重復次數(shù)
. 例如, 表達式 a* 匹配以0或更多個a開頭的字符, 因為有0個這個條件, 其實也就匹配了所有的字符.
表達式[a-z]* 匹配一個行中所有以小寫字母開頭的字符串.
*字符和.字符搭配可以匹配所有的字符.*.
*和表示匹配空格的符號\s連起來用, 如表達式\s*cat\s*匹配0或更多個空格開頭和0或更多個空格結(jié)尾的cat字符串.
例如表達式c.+t 匹配以首字母c開頭以t結(jié)尾,中間跟著任意個字符的字符串.
例如, 表達式 [T]?he 匹配字符串 he 和 The.
1.4{} 號
例如, 表達式 [0-9]{2,3} 匹配最少 2 位最多 3 位 0~9 的數(shù)字.
例如, [0-9]{2,} 匹配至少兩位 0~9 的數(shù)字.
例如, [0-9]{3} 匹配3位數(shù)字
1.5(...) 特征標群
例如, 表達式 (ab)* 匹配連續(xù)出現(xiàn) 0 或更多個 ab.
我們還可以在 () 中用或字符 | 表示或. 例如, (c|g|p)ar 匹配 car 或 gar 或 par.
1.6| 或運算符
例如 (T|t)he|car 匹配 (T|t)he 或 car.
1.7轉(zhuǎn)碼特殊字符
例如 . 是用來匹配除換行符外的所有字符的. 如果想要匹配句子中的 . 則要寫成 \. 以下這個例子 \.?是選擇性匹配.
1.8錨點
例如, 在 abc 中使用表達式 ^a 會得到結(jié)果 a. 但如果使用 ^b 將匹配不到任何結(jié)果. 因為在字符串 abc 中并不是以 b開頭.
例如, ^(T|t)he 匹配以 The 或 the 開頭的字符串.
例如, (at\.)$ 匹配以 at. 結(jié)尾的字符串.
2.簡寫字符集
正則表達式提供一些常用的字符集簡寫. 如下:
| 簡寫 | 描述 |
|---|---|
| . | 除換行符外的所有字符 |
| \w | 匹配所有字母數(shù)字, 等同于 [a-zA-Z0-9_]
|
| \W | 匹配所有非字母數(shù)字, 即符號, 等同于: [^\w]
|
| \d | 匹配數(shù)字: [0-9]
|
| \D | 匹配非數(shù)字: [^\d]
|
| \s | 匹配所有空格字符, 等同于: [\t\n\f\r\p{Z}]
|
| \S | 匹配所有非空格字符: [^\s]
|
| \f | 匹配一個換頁符 |
| \n | 匹配一個換行符 |
| \r | 匹配一個回車符 |
| \t | 匹配一個制表符 |
| \v | 匹配一個垂直制表符 |
| \p | 匹配 CR/LF (等同于 \r\n),用來匹配 DOS 行終止符 |
3.零寬度斷言(前后預查)
先行斷言用于判斷所匹配的格式是否在另一個確定的格式之前, 匹配結(jié)果不包含該確定格式(僅作為約束).
例如, 我們想要獲得所有跟在 $ 符號后的數(shù)字, 我們可以使用正后發(fā)斷言 (?<=\$)[0-9\.]*. 這個表達式匹配 $ 開頭, 之后跟著 0,1,2,3,4,5,6,7,8,9,. 這些字符可以出現(xiàn)大于等于 0 次.
| 符號 | 描述 |
|---|---|
| ?= | 正先行斷言-存在 |
| ?! | 負先行斷言-排除 |
| ?<= | 正后發(fā)斷言-存在 |
| ?<! | 負后發(fā)斷言-排除 |
例如, 表達式 (T|t)he(?=\sfat) 匹配 The 和 the, 在括號中我們又定義了正先行斷言 (?=\sfat) ,即 The 和 the 后面緊跟著 (空格)fat.
表達式 (T|t)he(?!\sfat) 匹配 The 和 the, 且其后不跟著 (空格)fat.
例如, 表達式 (?<=(T|t)he\s)(fat|mat) 匹配 fat 和 mat, 且其前跟著 The 或 the.
例如, 表達式 (?<!(T|t)he\s)(cat) 匹配 cat, 且其前不跟著 The 或 the.
4.標志
標志也叫模式修正符, 因為它可以用來修改表達式的搜索結(jié)果. 這些標志可以任意的組合使用, 它也是整個正則表達式的一部分.
| 標志 | 描述 |
|---|---|
| i | 忽略大小寫. |
| g | 全局搜索.即(不僅僅返回第一個匹配的, 而是返回全部) |
| m |
多行的: 錨點元字符 ^ $ 工作范圍在每行的起始. |
例如, 表達式 /The/gi 表示在全局搜索 The, 在后面的 i 將其條件修改為忽略大小寫, 則變成搜索 the 和 The, g 表示全局搜索.
例如, 表達式 /.(at)/g 表示搜索 任意字符(除了換行) + at, 并返回全部結(jié)果.
例如, 表達式 /at(.)?$/gm 表示小寫字符 a 后跟小寫字符 t , 末尾可選除換行符外任意字符. 根據(jù) m 修飾符, 現(xiàn)在表達式匹配每行的結(jié)尾.
5.貪婪匹配與惰性匹配 (Greedy vs lazy matching)
正則表達式默認采用貪婪匹配模式,在該模式下意味著會匹配盡可能長的子串。我們可以使用 ? 將貪婪匹配模式轉(zhuǎn)化為惰性匹配模式。