
正則表達(dá)式
題:
寫出一個(gè)驗(yàn)證139開頭的手機(jī)號的正則表達(dá)式
考點(diǎn):
*手機(jī)號的正則表達(dá)式的編寫;
*正則表達(dá)式的組成和編寫方法;
正則表達(dá)式的作用:分割、查找、匹配、替換字符串、
分割符:
正斜線(\), hash符號(#),取反符號(~);
通用元子:
\d ::匹配一個(gè)數(shù)字字符。等價(jià)于[0-9]。
\D:匹配一個(gè)非數(shù)字字符。等價(jià)于[^0-9]。
\n:匹配一個(gè)換行符。等價(jià)于\x0a和\cJ。
\r:匹配一個(gè)回車符。等價(jià)于\x0d和\cM。
\s:匹配任何空白字符,包括空格、制表符、換頁符等等。等價(jià)于[ \f\n\r\t\v]。
\S:匹配任何非空白字符。等價(jià)于[^ \f\n\r\t\v]。
\t:匹配一個(gè)制表符。等價(jià)于\x09和\cI。
\w:匹配包括下劃線的任何單詞字符。等價(jià)于'[A-Za-z0-9_]'。
\W:匹配任何非單詞字符。等價(jià)于'[^A-Za-z0-9_]'。
元字符:
*\將下一個(gè)字符標(biāo)記為一個(gè)特殊字符、或一個(gè)原義字符、或一個(gè)向后引用、或一個(gè)八進(jìn)制轉(zhuǎn)義符。例如,“n”匹配字符“n”?!癨n”匹配一個(gè)換行符。串行“\”匹配“\”而“(”則匹配“(”。
*匹配輸入字符串的開始位置。如果設(shè)置了RegExp對象的Multiline屬性,也匹配“\n”或“\r”之后的位置。
*$匹配輸入字符串的結(jié)束位置。如果設(shè)置了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。
*匹配前面的子表達(dá)式零次或多次。例如,zo能匹配“z”以及“zoo”。*等價(jià)于{0,}。
*+匹配前面的子表達(dá)式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價(jià)于{1,}。
*?匹配前面的子表達(dá)式零次或一次。例如,“do(es)?”可以匹配“does”或“does”中的“do”。?等價(jià)于{0,1}。
*{n} n是一個(gè)非負(fù)整數(shù)。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個(gè)o。
{n,} n是一個(gè)非負(fù)整數(shù)。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o?!皁{1,}”等價(jià)于“o+”?!皁{0,}”則等價(jià)于“o”。
*{n,m} m和n均為非負(fù)整數(shù),其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個(gè)o?!皁{0,1}”等價(jià)于“o?”。請注意在逗號和兩個(gè)數(shù)之間不能有空格。
?當(dāng)該字符緊跟在任何一個(gè)其他限制符(,+,?,{n},{n,},{n,m})后面時(shí),匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認(rèn)的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對于字符串“oooo”,“o+?”將匹配單個(gè)“o”,而“o+”將匹配所有“o”。
*.匹配除“\n”之外的任何單個(gè)字符。要匹配包括“\n”在內(nèi)的任何字符,請使用像“(.|\n)”的模式。
模式修正符:
*i (PCRE_CASELESS)
如果設(shè)置了這個(gè)修飾符,模式中的字母會進(jìn)行大小寫不敏感匹配。
*m (PCRE_MULTILINE)
默認(rèn)情況下,PCRE認(rèn)為目標(biāo)字符串是由單行字符組成的(然而實(shí)際上它可能會包含多行),"行首"元字符(^)僅匹配字符串的開始位置, 而"行末"元字符($)僅匹配字符串末尾, 或者最后的換行符(除非設(shè)置了D修飾符)。這個(gè)行為和perl相同。 當(dāng)這個(gè)修飾符設(shè)置之后,“行首”和“行末”就會匹配目標(biāo)字符串中任意換行符之前或之后,另外, 還分別匹配目標(biāo)字符串的最開始和最末尾位置。這等同于perl的/m修飾符。如果目標(biāo)字符串 中沒有"\n"字符,或者模式中沒有出現(xiàn)^或$,設(shè)置這個(gè)修飾符不產(chǎn)生任何影響。
*s (PCRE_DOTALL)
如果設(shè)置了這個(gè)修飾符,模式中的點(diǎn)號元字符匹配所有字符,包含換行符。如果沒有這個(gè) 修飾符,點(diǎn)號不匹配換行符。這個(gè)修飾符等同于perl中的/s修飾符。 一個(gè)取反字符類比如[^a]總是匹配換行符,而不依賴于這個(gè)修飾符的設(shè)置。
*x (PCRE_EXTENDED)
如果設(shè)置了這個(gè)修飾符,模式中的沒有經(jīng)過轉(zhuǎn)義的或不在字符類中的空白數(shù)據(jù)字符總會被忽略, 并且位于一個(gè)未轉(zhuǎn)義的字符類外部的#字符和下一個(gè)換行符之間的字符也被忽略。 這個(gè)修飾符 等同于perl中的/x修飾符,使被編譯模式中可以包含注釋。 注意:這僅用于數(shù)據(jù)字符。 空白字符 還是不能在模式的特殊字符序列中出現(xiàn),比如序列(?(引入了一個(gè)條件子組(譯注:這種語法定義的 特殊字符序列中如果出現(xiàn)空白字符會導(dǎo)致編譯錯(cuò)誤。 比如(?(就會導(dǎo)致錯(cuò)誤)。
*e (PREG_REPLACE_EVAL)Warning
This feature was DEPRECATED in PHP 5.5.0, and REMOVED as of PHP 7.0.0.
如果設(shè)置了這個(gè)被棄用的修飾符,preg_replace()在進(jìn)行了對替換字符串的 后向引用替換之后,將替換后的字符串作為php代碼評估執(zhí)行(eval函數(shù)方式),并使用執(zhí)行結(jié)果 作為實(shí)際參與替換的字符串。單引號、雙引號、反斜線()和NULL字符在 后向引用替換時(shí)會被用反斜線轉(zhuǎn)義.
*A (PCRE_ANCHORED)
如果設(shè)置了這個(gè)修飾符,模式被強(qiáng)制為"錨定"模式,也就是說約束匹配使其僅從 目標(biāo)字符串的開始位置搜索。這個(gè)效果同樣可以使用適當(dāng)?shù)哪J綐?gòu)造出來,并且 這也是perl種實(shí)現(xiàn)這種模式的唯一途徑。
*D (PCRE_DOLLAR_ENDONLY)
如果這個(gè)修飾符被設(shè)置,模式中的元字符美元符號僅僅匹配目標(biāo)字符串的末尾。如果這個(gè)修飾符 沒有設(shè)置,當(dāng)字符串以一個(gè)換行符結(jié)尾時(shí), 美元符號還會匹配該換行符(但不會匹配之前的任何換行符)。 如果設(shè)置了修飾符m,這個(gè)修飾符被忽略.在perl中沒有與此修飾符等同的修飾符。
*S
當(dāng)一個(gè)模式需要多次使用的時(shí)候,為了得到匹配速度的提升,值得花費(fèi)一些時(shí)間 對其進(jìn)行一些額外的分析。如果設(shè)置了這個(gè)修飾符,這個(gè)額外的分析就會執(zhí)行。當(dāng)前, 這種對一個(gè)模式的分析僅僅適用于非錨定模式的匹配(即沒有單獨(dú)的固定開始字符)。
*U (PCRE_UNGREEDY)
這個(gè)修飾符逆轉(zhuǎn)了量詞的"貪婪"模式。 使量詞默認(rèn)為非貪婪的,通過量詞后緊跟?的方式可以使其成為貪婪的。這和perl是不兼容的。 它同樣可以使用 模式內(nèi)修飾符設(shè)置(?U)進(jìn)行設(shè)置, 或者在量詞后以問號標(biāo)記其非貪婪(比如.*?)。
Note:在非貪婪模式,通常不能匹配超過pcre.backtrack_limit的字符。
*X (PCRE_EXTRA)
這個(gè)修飾符打開了PCRE與perl不兼容的附件功能。模式中的任意反斜線后就ingen一個(gè) 沒有特殊含義的字符都會導(dǎo)致一個(gè)錯(cuò)誤,以此保留這些字符以保證向后兼容性。 默認(rèn)情況下,在perl中,反斜線緊跟一個(gè)沒有特殊含義的字符被認(rèn)為是該字符的原文。 當(dāng)前沒有其他特性由這個(gè)修飾符控制。
*J (PCRE_INFO_JCHANGED)
內(nèi)部選項(xiàng)設(shè)置(?J)修改本地的PCRE_DUPNAMES選項(xiàng)。允許子組重名,(譯注:只能通過內(nèi)部選項(xiàng)設(shè)置,外部的/J設(shè)置會產(chǎn)生錯(cuò)誤。)
*u (PCRE_UTF8)
此修正符打開一個(gè)與perl不兼容的附加功能。 模式和目標(biāo)字符串都被認(rèn)為是utf-8的。 無效的目標(biāo)字符串會導(dǎo)致preg_*函數(shù)什么都匹配不到; 無效的模式字符串會導(dǎo)致E_WARNING級別的錯(cuò)誤。PHP 5.3.4后,5字節(jié)和6字節(jié)的UTF-8字符序列被考慮為無效(resp. PCRE 7.3 2007-08-28)。 以前就被認(rèn)為是無效的UTF-8。
后向引用:
: 后面的表達(dá)式可以引用前面的某個(gè)分組,用\1表示,就好像分組1的值賦值給了\1這個(gè)變量,這個(gè)變量可以在后面任意位置引用。
\1表示分組1匹配的文本
\k表示分組Word匹配的文本
匹配重復(fù)兩個(gè)的英文,例如匹配Hello Hello、lei123 lei123:
(\w+)\s+\1
(?\w+)\s+\k
貪婪模式:
正則表達(dá)式的PCRE函數(shù):
preg_match(),preg_match_all(),preg_replace(),preg_split()
中文匹配:
*utf-8 :漢字編碼:0x4eoo-0x9fa5;
*ANSI(gb2312)環(huán)境:0xb0-0xf7,0xa1-0xfe;
注意:utf-8要使用u模式修正符,使模式字符串被當(dāng)成urf-8;
ANSI(db2312)環(huán)境下: 要使用chr()將ASCII碼轉(zhuǎn)換成字符串;
方法:
*先寫出一個(gè)要匹配的字符串;
*自左向右的順序使用正則表達(dá)式的元子和元字符進(jìn)行拼接;
*最終加入模式修正符(如果需要);
練習(xí)常見的正則表達(dá)式(URL,email,IP, 手機(jī)號,src);
測試題:
請寫出一個(gè)正則表達(dá)式,取出頁面中所有img標(biāo)簽中的src的值;