【Regular Expression】正則表達(dá)式基礎(chǔ)

歡迎關(guān)注微信公眾號(hào):全棧工廠

一 正則字符簡(jiǎn)單介紹
1.1 元字符介紹
"^" :^會(huì)匹配行或者字符串的起始位置,有時(shí)還會(huì)匹配整個(gè)文檔的起始位置。
**""** :會(huì)匹配行或字符串的結(jié)尾
"\b" :不會(huì)消耗任何字符只匹配一個(gè)位置,常用于匹配單詞邊界 如 我想從字符串中"This is Regex"匹配單獨(dú)的單詞 "is" 正則就要寫(xiě)成 "\bis\b"
   \b 不會(huì)匹配is 兩邊的字符,但它會(huì)識(shí)別is 兩邊是否為單詞的邊界
"\d": 匹配數(shù)字,
   例如要匹配一個(gè)固定格式的電話(huà)號(hào)碼以0開(kāi)頭前4位后7位,如0737-5686123 正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這里只是為了介紹"\d"字符,實(shí)際上有更好的寫(xiě)法會(huì)在 下面介紹。
"\w":匹配字母,數(shù)字,下劃線(xiàn).
   例如我要匹配"a2345BCD__TTz" 正則:"\w+" 這里的"+"字符為一個(gè)量詞指重復(fù)的次數(shù),稍后會(huì)詳細(xì)介紹。
"\s":匹配空格
   例如字符 "a b c" 正則:"\w\s\w\s\w" 一個(gè)字符后跟一個(gè)空格,如有字符間有多個(gè)空格直接把"\s" 寫(xiě)成 "\s+" 讓空格重復(fù)
".":匹配除了換行符以外的任何字符
   這個(gè)算是"\w"的加強(qiáng)版了"\w"不能匹配 空格 如果把字符串加上空格用"\w"就受限了,看下用 "."是如何匹配字符"a23 4 5 B C D__TTz" 正則:".+"
"[abc]": 字符組 匹配包含括號(hào)內(nèi)元素的字符
這個(gè)比較簡(jiǎn)單了只匹配括號(hào)內(nèi)存在的字符,還可以寫(xiě)成[a-z]匹配a至z的所以字母就等于可以用來(lái)控制只能輸入英文了,

1.2 幾種反義
  寫(xiě)法很簡(jiǎn)單改成大寫(xiě)就行了,意思與原來(lái)的相反,這里就不舉例子了
"\W" 匹配任意不是字母,數(shù)字,下劃線(xiàn) 的字符
"\S" 匹配任意不是空白符的字符
"\D" 匹配任意非數(shù)字的字符
"\B" 匹配不是單詞開(kāi)頭或結(jié)束的位置
"[^abc]" 匹配除了abc以外的任意字符

1.3 量詞
  先解釋關(guān)于量詞所涉及到的重要的三個(gè)概念
貪婪(貪心) 如"*"字符 貪婪量詞會(huì)首先匹配整個(gè)字符串,嘗試匹配時(shí),它會(huì)選定盡可能多的內(nèi)容,如果失敗則回退一個(gè)字符,然后再次嘗試回退的過(guò)程就叫做回溯,它會(huì)每次回退一個(gè)字符,直到找到匹配的內(nèi)容或者沒(méi)有字符可以回退。相比下面兩種貪婪量詞對(duì)資源的消耗是最大的,
懶惰(勉強(qiáng)) 如 "?" 懶惰量詞使用另一種方式匹配,它從目標(biāo)的起始位置開(kāi)始嘗試匹配,每次檢查一個(gè)字符,并尋找它要匹配的內(nèi)容,如此循環(huán)直到字符結(jié)尾處。
占有 如"+" 占有量詞會(huì)覆蓋事個(gè)目標(biāo)字符串,然后嘗試尋找匹配內(nèi)容 ,但它只嘗試一次,不會(huì)回溯,就好比先抓一把石頭,然后從石頭中挑出黃金
""(貪婪)* 重復(fù)零次或更多
    例如"aaaaaaaa" 匹配字符串中所有的a 正則: "a*" 會(huì)出到所有的字符"a"
"+"(懶惰) 重復(fù)一次或更多次
   例如"aaaaaaaa" 匹配字符串中所有的a 正則: "a+" 會(huì)取到字符中所有的a字符, "a+"與"a"不同在于"+"至少是一次而"" 可以是0次,
   稍后會(huì)與"?"字符結(jié)合來(lái)體現(xiàn)這種區(qū)別
"?"(占有) 重復(fù)零次或一次
   例如"aaaaaaaa" 匹配字符串中的a 正則 : "a?" 只會(huì)匹配一次,也就是結(jié)果只是單個(gè)字符a
  "{n}" 重復(fù)n次
   例如從"aaaaaaaa" 匹配字符串的a 并重復(fù)3次 正則: "a{3}" 結(jié)果就是取到3個(gè)a字符 "aaa";
  "{n,m}" 重復(fù)n到m次
   例如正則 "a{3,4}" 將a重復(fù)匹配3次或者4次 所以供匹配的字符可以是三個(gè)"aaa"也可以是四個(gè)"aaaa" 正則都可以匹配到
"{n,}" 重復(fù)n次或更多次
   與{n,m}不同之處就在于匹配的次數(shù)將沒(méi)有上限,但至少要重復(fù)n次 如 正則"a{3,}" a至少要重復(fù)3次
把量詞了解了之后之前匹配電話(huà)號(hào)碼的正則現(xiàn)在就可以改得簡(jiǎn)單點(diǎn)了^0\d\d\d-\d\d\d\d\d\d\d可以改為"0\d+?\d7" role="presentation" style="margin: 0px; padding: 0px; display: inline; font-style: normal; font-weight: normal; line-height: normal; font-size: 13px; text-indent: 0px; text-align: left; text-transform: none; letter-spacing: normal; word-spacing: normal; word-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">可以改為"0\d+?\d7可以改為"0\d+?\d7"。
這樣寫(xiě)還不夠完美如果因?yàn)榍懊娴膮^(qū)號(hào)沒(méi)有做限定,以至于可以輸入很多們,而通常只能是3位或者4位,
現(xiàn)在再改一下 "^0\d{2,3}-\d{7}"如此一來(lái)區(qū)號(hào)部分就可以匹配3位或者4位的了
1.4 懶惰限定符
  "?"* 重復(fù)任意次,但盡可能少重復(fù)
   如 "acbacb" 正則 "a.*?b" 只會(huì)取到第一個(gè)"acb" 原本可以全部取到但加了限定符后,只會(huì)匹配盡可能少的字符 ,而"acbacb"最少字符的結(jié)果就是"acb"
  "+?" 重復(fù)1次或更多次,但盡可能少重復(fù)
   與上面一樣,只是至少要重復(fù)1次
  "??" 重復(fù)0次或1次,但盡可能少重復(fù)
   如 "aaacb" 正則 "a.??b" 只會(huì)取到最后的三個(gè)字符"acb"
  "{n,m}?" 重復(fù)n到m次,但盡可能少重復(fù)
如"aaaaaaaa" 正則 "a{0,m}" 因?yàn)樽钌偈?次所以取到結(jié)果為空
  "{n,}?" 重復(fù)n次以上,但盡可能少重復(fù)
如 "aaaaaaa" 正則 "a{1,}" 最少是1次所以取到結(jié)果為 "a"

二 正則進(jìn)階
2.1 捕獲分組
  先了解在正則中捕獲分組的概念,其實(shí)就是一個(gè)括號(hào)內(nèi)的內(nèi)容 如 "(\d)\d" 而"(\d)" 這就是一個(gè)捕獲分組,可以對(duì)捕獲分組進(jìn)行 后向引用 (如果后而有相同的內(nèi)容則可以直接引用前面定義的捕獲組,以簡(jiǎn)化表達(dá)式) 如(\d)\d\1 這里的"\1"就是對(duì)"(\d)"的后向引用,那捕獲分組有什么用呢看個(gè)例子就知道了
如 "zery zery" 正則 \b(\w+)\b\s\1\b 所以這里的"\1"所捕獲到的字符也是 與(\w+)一樣的"zery",為了讓組名更有意義,組名是可以自定義名字的"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就可以自定義組名了而要后向引用組時(shí)要記得寫(xiě)成 "\k<name>";自定義組名后,捕獲組中匹配到的值就會(huì)保存在定義的組名里
下面列出捕獲分組常有的用法
"(exp)" 匹配exp,并捕獲文本到自動(dòng)命名的組里
"(?<name>exp)" 匹配exp,并捕獲文本到名稱(chēng)為name的組里
"(?:exp)" 匹配exp,不捕獲匹配的文本,也不給此分組分配組號(hào)
以下為零寬斷言
"(?=exp)" 匹配exp前面的位置
  如 "How are you doing" 正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符,并定義了一個(gè)捕獲分組名字為 "txt" 而"txt"這個(gè)組里的值為"How are you do";
"(?<=exp)" 匹配exp后面的位置
  如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符,并定義了一個(gè)捕獲分組名字為 "txt" 而"txt"這個(gè)組里的值為" are you doing";
"(?!exp)" 匹配后面跟的不是exp的位置
  如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數(shù)字后非數(shù)字的結(jié)果
"(?<!exp)" 匹配前面不是exp的位置
  如 "abc123 " 正則 "(?<![0-9])123" 匹配"123"前面是非數(shù)字的結(jié)果也可寫(xiě)成"(?!<\d)123"

三 常用正則表達(dá)式
3.1 校驗(yàn)數(shù)字的表達(dá)式
1 數(shù)字:^[0-9]2 n位的數(shù)字:^\d{n}
3 至少n位的數(shù)字:^\d{n,}4 m-n位的數(shù)字:^\d{m,n}
5 零和非零開(kāi)頭的數(shù)字:^(0|[1-9][0-9]
)6 非零開(kāi)頭的最多帶兩位小數(shù)的數(shù)字:^([1-9][0-9]*)+(.[0-9]{1,2})?
7 帶1-2位小數(shù)的正數(shù)或負(fù)數(shù):^(-)?\d+(.\d{1,2})?8 正數(shù)、負(fù)數(shù)、和小數(shù):^(\-|\+)?\d+(\.\d+)?
9 有兩位小數(shù)的正實(shí)數(shù):^[0-9]+(.[0-9]{2})?10 有1~3位小數(shù)的正實(shí)數(shù):^[0-9]+(.[0-9]{1,3})?
11 非零的正整數(shù):^[1-9]\d或 ^([1-9][0-9]*){1,3} 或 ^+?[1-9][0-9]12 非零的負(fù)整數(shù):^\-[1-9][]0-9"* 或 ^-[1-9]\d13 非負(fù)整數(shù):^\d+ 或 ^[1-9]\d|014 非正整數(shù):^-[1-9]\d*|0 或 ^((-\d+)|(0+))15 非負(fù)浮點(diǎn)數(shù):^\d+(\.\d+)? 或 ^[1-9]\d.\d|0.\d[1-9]\d|0?.0+|016 非正浮點(diǎn)數(shù):^((-\d+(\.\d+)?)|(0+(\.0+)?)) 或 ^(-([1-9]\d.\d|0.\d[1-9]\d))|0?.0+|017 正浮點(diǎn)數(shù):^[1-9]\d*\.\d*|0\.\d*[1-9]\d* 或 ^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))18 負(fù)浮點(diǎn)數(shù):^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*) 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))19 浮點(diǎn)數(shù):^(-?\d+)(\.\d+)? 或 ^-?([1-9]\d.\d|0.\d[1-9]\d|0?.0+|0)**3.2 校驗(yàn)字符的表達(dá)式** 1 漢字:^[\u4e00-\u9fa5]{0,}
2 英文和數(shù)字:^[A-Za-z0-9]+或 ^[A-Za-z0-9]{4,40}
3 長(zhǎng)度為3-20的所有字符:^.{3,20}4 由26個(gè)英文字母組成的字符串:^[A-Za-z]+
5 由26個(gè)大寫(xiě)英文字母組成的字符串:^[A-Z]+6 由26個(gè)小寫(xiě)英文字母組成的字符串:^[a-z]+
7 由數(shù)字和26個(gè)英文字母組成的字符串:^[A-Za-z0-9]+8 由數(shù)字、26個(gè)英文字母或者下劃線(xiàn)組成的字符串:^\w+ 或 ^\w{3,20}9 中文、英文、數(shù)字包括下劃線(xiàn):^[\u4E00-\u9FA5A-Za-z0-9_]+
10 中文、英文、數(shù)字但不包括下劃線(xiàn)等符號(hào):^[\u4E00-\u9FA5A-Za-z0-9]+或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}
11 可以輸入含有^%&',;=?\"等字符:[^%&',;=?\x22]+
12 禁止輸入含有的字符:[^\x22]+
3.3 特殊需求表達(dá)式
1 Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? 3 InternetURL:[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?
4 手機(jī)號(hào)碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}5 電話(huà)號(hào)碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}
6 國(guó)內(nèi)電話(huà)號(hào)碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份證號(hào)(15位、18位數(shù)字):^\d{15}|\d{18}8 短身份證號(hào)碼(數(shù)字、字母x結(jié)尾):^([0-9]){7,18}(x|X)? 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?9 帳號(hào)是否合法(字母開(kāi)頭,允許5-16字節(jié),允許字母數(shù)字下劃線(xiàn)):^[a-zA-Z][a-zA-Z0-9_]{4,15}
10 密碼(以字母開(kāi)頭,長(zhǎng)度在6~18之間,只能包含字母、數(shù)字和下劃線(xiàn)):^[a-zA-Z]\w{5,17}11 強(qiáng)密碼(必須包含大小寫(xiě)字母和數(shù)字的組合,不能使用特殊字符,長(zhǎng)度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12個(gè)月(01~09和1~12):^(0?[1-9]|1[0-2])14 一個(gè)月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)
15 錢(qián)的輸入格式:
16 1.有四種錢(qián)的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒(méi)有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]
17 2.這表示任意一個(gè)不以0開(kāi)頭的數(shù)字,但是,這也意味著一個(gè)字符"0"不通過(guò),所以我們采用下面的形式:^(0|[1-9][0-9]*)
18 3.一個(gè)0或者一個(gè)不以0開(kāi)頭的數(shù)字.我們還可以允許開(kāi)頭有一個(gè)負(fù)號(hào):^(0|-?[1-9][0-9])19 4.這表示一個(gè)0或者一個(gè)可能為負(fù)的開(kāi)頭不為0的數(shù)字.讓用戶(hù)以0開(kāi)頭好了.把負(fù)號(hào)的也去掉,因?yàn)殄X(qián)總不能是負(fù)的吧.下面我們要加的是說(shuō)明可能的小數(shù)部分:^[0-9]+(.[0-9]+)?
20 5.必須說(shuō)明的是,小數(shù)點(diǎn)后面至少應(yīng)該有1位數(shù),所以"10."是不通過(guò)的,但是 "10" 和 "10.2" 是通過(guò)的:^[0-9]+(.[0-9]{2})?21 6.這樣我們規(guī)定小數(shù)點(diǎn)后面必須有兩位,如果你認(rèn)為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?
22 7.這樣就允許用戶(hù)只寫(xiě)一位小數(shù).下面我們?cè)摽紤]數(shù)字中的逗號(hào)了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})
(.[0-9]{1,2})?23 8.1到3個(gè)數(shù)字,后面跟著任意個(gè) 逗號(hào)+3個(gè)數(shù)字,逗號(hào)成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?
24 備注:這就是最終結(jié)果了,別忘了"+"可以用""替代如果你覺(jué)得空字符串也可以接受的話(huà)(奇怪,為什么?)最后,別忘了在用函數(shù)時(shí)去掉去掉那個(gè)反斜杠,一般的錯(cuò)誤都在這里
25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]26 中文字符的正則表達(dá)式:[\u4e00-\u9fa5] 27 雙字節(jié)字符:[^\x00-\xff] (包括漢字在內(nèi),可以用來(lái)計(jì)算字符串的長(zhǎng)度(一個(gè)雙字節(jié)字符長(zhǎng)度計(jì)2,ASCII字符計(jì)1)) 28 空白行的正則表達(dá)式:\n\s*\r (可以用來(lái)刪除空白行) 29 HTML標(biāo)記的正則表達(dá)式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網(wǎng)上流傳的版本太糟糕,上面這個(gè)也僅僅能部分,對(duì)于復(fù)雜的嵌套標(biāo)記依舊無(wú)能為力) 30 首尾空白字符的正則表達(dá)式:^\s*|\s*或(^\s
)|(\s*$) (可以用來(lái)刪除行首行尾的空白字符(包括空格、制表符、換頁(yè)符等等),非常有用的表達(dá)式)
31 騰訊QQ號(hào):[1-9][0-9]{4,} (騰訊QQ號(hào)從10000開(kāi)始)
32 中國(guó)郵政編碼:[1-9]\d{5}(?!\d) (中國(guó)郵政編碼為6位數(shù)字) 33 IP地址:\d+.\d+.\d+.\d+ (提取IP地址時(shí)有用) 34 IP地址:((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

注:文中如有任何錯(cuò)誤,請(qǐng)各位批評(píng)指正!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容