內容來源于網絡,本人只是在此稍作整理,如有涉及版權問題,歸小甲魚官方所有。
PS:好久沒更新了,現在繼續(xù)更新,繼續(xù)加油!
0.請寫下這一節(jié)課你學習到的內容:格式不限,回憶并復述是加強記憶的好方式!
- 下表是Python3正則表達式特殊符號及用法。
| 符號 | 含義 |
|---|---|
| . | 表示匹配除了換行符外的任何字符。注:通過設置 re.DOTALL 標志可以使 . 匹配任何字符(包含換行符) |
| | | A | B,表示匹配正則表達式 A 或者 B |
| ^ | (脫字符)匹配輸入字符串的開始位置。如果設置了 re.MULTILINE 標志,^ 也匹配換行符之后的位置 |
| $ | 匹配輸入字符串的結束位置。如果設置了 re.MULTILINE 標志,$ 也匹配換行符之前的位置 |
| \ | 將一個普通字符變成特殊字符,例如 \d 表示匹配所有十進制數字。 解除元字符的特殊功能,例如 . 表示匹配點號本身。引用序號對應的子組所匹配的字符串 |
| [...] | 字符類,匹配所包含的任意一個字符。注:連字符 - 如果出現在字符串中間表示字符范圍描述;如果出現在首位則僅作為普通字符。特殊字符僅有反斜線 \ 保持特殊含義,用于轉義字符。其它特殊字符如 *、+、? 等均作為普通字符匹配。脫字符 ^ 如果出現在首位則表示匹配不包含其中的任意字符;如果 ^ 出現在字符串中間就僅作為普通字符匹配 |
| {M,N} | M 和 N 均為非負整數,其中 M <= N,表示前邊的 RE 匹配 M ~ N 次。注:{M,} 表示至少匹配 M 次;{,N} 等價于 {0,N};{N} 表示需要匹配 N 次 |
| * | 匹配前面的子表達式零次或多次,等價于 {0,} |
| + | 匹配前面的子表達式一次或多次,等價于 {1,} |
| ? | 匹配前面的子表達式零次或一次,等價于 {0,1} |
| *?, +?, ?? | 默認情況下 、+ 和 ? 的匹配模式是貪婪模式(即會盡可能多地匹配符合規(guī)則的字符串);?、+? 和 ?? 表示啟用對應的非貪婪模式。舉個例子:對于字符串 "FishCCC",正則表達式 FishC+ 會匹配整個字符串,而 FishC+? 則匹配 "FishC" |
| {M,N}? | 同上,啟用非貪婪模式,即只匹配 M 次 |
| (...) | 匹配圓括號中的正則表達式,或者指定一個子組的開始和結束位置。注:子組的內容可以在匹配之后被 \數字 再次引用 。舉個例子:(\w+) \1 可以字符串 "FishC FishC.com" 中的 "FishC FishC"(注意有空格) |
| (?...) | (? 開頭的表示為正則表達式的擴展語法(下邊這些是 Python 支持的所有擴展語法) |
| (?aiLmsux) | 1. (? 后可以緊跟著 'a','i','L','m','s','u','x' 中的一個或多個字符,只能在正則表達式的開頭使用。2. 每一個字符對應一種匹配標志:re-A(只匹配 ASCII 字符),re-I(忽略大小寫),re-L(區(qū)域設置),re-M(多行模式), re-S(. 匹配任何符號),re-X(詳細表達式),包含這些字符將會影響整個正則表達式的規(guī)則。3. 當你不想通過 re.compile() 設置正則表達式標志,這種方法就非常有用啦。注意,由于 (?x) 決定正則表達式如何被解析,所以它應該總是被放在最前邊(最多允許前邊有空白符)。如果 (?x) 的前邊是非空白字符,那么 (?x) 就發(fā)揮不了作用了 |
| (?:...) | 非捕獲組,即該子組匹配的字符串無法從后邊獲取 |
| (?P<name>...) | 命名組,通過組的名字(name)即可訪問到子組匹配的字符串 |
| (?P=name) | 反向引用一個命名組,它匹配指定命名組匹配的任何內容 |
| (?#...) | 注釋,括號中的內容將被忽略 |
| (?=...) | 前向肯定斷言。如果當前包含的正則表達式(這里以 ... 表示)在當前位置成功匹配,則代表成功,否則失敗。一旦該部分正則表達式被匹配引擎嘗試過,就不會繼續(xù)進行匹配了;剩下的模式在此斷言開始的地方繼續(xù)嘗試。舉個例子:love(?=FishC) 只匹配后邊緊跟著 "FishC" 的字符串 "love" |
| (?!...) | 前向否定斷言。這跟前向肯定斷言相反(不匹配則表示成功,匹配表示失?。?。舉個例子:FishC(?!.com) 只匹配后邊不是 ".com" 的字符串 "FishC" |
| (?<=...) | 后向肯定斷言。跟前向肯定斷言一樣,只是方向相反。舉個例子:(?<=love)FishC 只匹配前邊緊跟著 "love" 的字符串 "FishC" |
| (?<!...) | 后向否定斷言。跟前向肯定斷言一樣,只是方向相反。舉個例子:(?<!FishC).com 只匹配前邊不是 "FishC" 的字符串 ".com" |
| (?(id/name)yes-pattern|no-pattern) | 1. 如果子組的序號或名字存在的話,則嘗試 yes-pattern 匹配模式;否則嘗試 no-pattern 匹配模式。2. no-pattern 是可選的。舉個例子:(<)?(\w+@\w+(?:.\w+)+)(?(1)>|$) 是一個匹配郵件格式的正則表達式,可以匹配 user@fishc.com 和 'user@fishc.com',但是不會匹配 '<user@fishc.com' 或 'user@fishc.com>' |
| \ | 下邊列舉了由字符 '' 和另一個字符組成的特殊含義。注意,'' + 元字符的組合可以解除元字符的特殊功能 |
| \序號 | 1. 引用序號對應的子組所匹配的字符串,子組的序號從 1 開始計算。2. 如果序號是以 0 開頭,或者 3 個數字的長度。那么不會被用于引用對應的子組,而是用于匹配八進制數字所表示的 ASCII 碼值對應的字符。舉個例子:(.+) \1 會匹配 "FishC FishC" 或 "55 55",但不會匹配 "FishCFishC"(注意,因為子組后邊還有一個空格) |
| \A | 匹配輸入字符串的開始位置 |
| \Z | 匹配輸入字符串的結束位置 |
| \b | 匹配一個單詞邊界,單詞被定義為 Unidcode 的字母數字或下橫線字符。舉個例子:\bFishC\b 會匹配字符串 "love FishC"、FishC." 或 "(FishC)" |
| \B | 匹配非單詞邊界,其實就是與 \b 相反。舉個例子:py\B 會匹配字符串 "python"、"py3" 或 "py2",但不會匹配 "py "、"py." 或 "py!" |
| \d | 1. 對于 Unicode(str 類型)模式:匹配任何一個數字,包括 [0-9] 和其他數字字符;如果開啟了 re.ASCII 標志,就只匹配 [0-9]。2. 對于 8 位(bytes 類型)模式:匹配 [0-9] 中任何一個數字 |
| \D | 匹配任何非 Unicode 的數字,其實就是與 \d 相反;如果開啟了 re.ASCII 標志,則相當于匹配 [^0-9] |
| \s | 1. 對于 Unicode(str 類型)模式:匹配 Unicode 中的空白字符(包括 [ \t\n\r\f\v] 以及其他空白字符);如果開啟了 re.ASCII 標志,就只匹配 [ \t\n\r\f\v]。2. 對于 8 位(bytes 類型)模式:匹配 ASCII 中定義的空白字符,即 [ \t\n\r\f\v] |
| \S | 匹配任何非 Unicode 中的空白字符,其實就是與 \s 相反;如果開啟了 re.ASCII 標志,則相當于匹配 [^ \t\n\r\f\v] |
| \w | 1. 對于 Unicode(str 類型)模式:匹配任何 Unicode 的單詞字符,基本上所有語言的字符都可以匹配,當然也包括數字和下橫線;如果開啟了 re.ASCII 標志,就只匹配 [a-zA-Z0-9_]。2. 對于 8 位(bytes 類型)模式:匹配 ASCII 中定義的字母數字,即 [a-zA-Z0-9_] |
| \W | 匹配任何非 Unicode 的單詞字符,其實就是與 \w 相反;如果開啟了 re.ASCII 標志,則相當于 [^a-zA-Z0-9_] |
| 轉義符號 | 正則表達式還支持大部分 Python 字符串的轉義符號:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\。注:\b 通常用于匹配一個單詞邊界,只有在字符類中才表示“退格”;\u 和 \U 只有在 Unicode 模式下才會被識別;八進制轉義(\數字)是有限制的,如果第一個數字是 0,或者如果有 3 個八進制數字,那么就被認為是八進制數;其他情況則被認為是子組引用;至于字符串,八進制轉義總是最多只能是 3 個數字的長度 |
- 元字符
正則表達式所有的元字符
.????^????$????*????+?????????{}????[]????\ ????|????()