正則表達(dá)式復(fù)習(xí)

正則表達(dá)式

題:

寫出一個(gè)驗(yàn)證139開頭的手機(jī)號的正則表達(dá)式

考點(diǎn):

*手機(jī)號的正則表達(dá)式的編寫;

*正則表達(dá)式的組成和編寫方法;


正則表達(dá)式的作用:分割、查找、匹配、替換字符串、


分割符:

正斜線(\), hash符號(#),取反符號(~);

通用元子:

\d ::匹配一個(gè)數(shù)字字符。等價(jià)于[0-9]。

\D:匹配一個(gè)非數(shù)字字符。等價(jià)于[^0-9]。

\n:匹配一個(gè)換行符。等價(jià)于\x0a和\cJ。

\r:匹配一個(gè)回車符。等價(jià)于\x0d和\cM。

\s:匹配任何空白字符,包括空格、制表符、換頁符等等。等價(jià)于[ \f\n\r\t\v]。

\S:匹配任何非空白字符。等價(jià)于[^ \f\n\r\t\v]。

\t:匹配一個(gè)制表符。等價(jià)于\x09和\cI。

\w:匹配包括下劃線的任何單詞字符。等價(jià)于'[A-Za-z0-9_]'。

\W:匹配任何非單詞字符。等價(jià)于'[^A-Za-z0-9_]'。

元字符:

*\將下一個(gè)字符標(biāo)記為一個(gè)特殊字符、或一個(gè)原義字符、或一個(gè)向后引用、或一個(gè)八進(jìn)制轉(zhuǎn)義符。例如,“n”匹配字符“n”?!癨n”匹配一個(gè)換行符。串行“\”匹配“\”而“(”則匹配“(”。

*匹配輸入字符串的開始位置。如果設(shè)置了RegExp對象的Multiline屬性,也匹配“\n”或“\r”之后的位置。

*$匹配輸入字符串的結(jié)束位置。如果設(shè)置了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。

*匹配前面的子表達(dá)式零次或多次。例如,zo能匹配“z”以及“zoo”。*等價(jià)于{0,}。

*+匹配前面的子表達(dá)式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價(jià)于{1,}。

*?匹配前面的子表達(dá)式零次或一次。例如,“do(es)?”可以匹配“does”或“does”中的“do”。?等價(jià)于{0,1}。

*{n} n是一個(gè)非負(fù)整數(shù)。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個(gè)o。

{n,} n是一個(gè)非負(fù)整數(shù)。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o?!皁{1,}”等價(jià)于“o+”?!皁{0,}”則等價(jià)于“o”。

*{n,m} m和n均為非負(fù)整數(shù),其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個(gè)o?!皁{0,1}”等價(jià)于“o?”。請注意在逗號和兩個(gè)數(shù)之間不能有空格。

?當(dāng)該字符緊跟在任何一個(gè)其他限制符(,+,?,{n},{n,},{n,m})后面時(shí),匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認(rèn)的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對于字符串“oooo”,“o+?”將匹配單個(gè)“o”,而“o+”將匹配所有“o”。

*.匹配除“\n”之外的任何單個(gè)字符。要匹配包括“\n”在內(nèi)的任何字符,請使用像“(.|\n)”的模式。

模式修正符:

*i (PCRE_CASELESS)

如果設(shè)置了這個(gè)修飾符,模式中的字母會進(jìn)行大小寫不敏感匹配。

*m (PCRE_MULTILINE)

默認(rèn)情況下,PCRE認(rèn)為目標(biāo)字符串是由單行字符組成的(然而實(shí)際上它可能會包含多行),"行首"元字符(^)僅匹配字符串的開始位置, 而"行末"元字符($)僅匹配字符串末尾, 或者最后的換行符(除非設(shè)置了D修飾符)。這個(gè)行為和perl相同。 當(dāng)這個(gè)修飾符設(shè)置之后,“行首”和“行末”就會匹配目標(biāo)字符串中任意換行符之前或之后,另外, 還分別匹配目標(biāo)字符串的最開始和最末尾位置。這等同于perl的/m修飾符。如果目標(biāo)字符串 中沒有"\n"字符,或者模式中沒有出現(xiàn)^或$,設(shè)置這個(gè)修飾符不產(chǎn)生任何影響。

*s (PCRE_DOTALL)

如果設(shè)置了這個(gè)修飾符,模式中的點(diǎn)號元字符匹配所有字符,包含換行符。如果沒有這個(gè) 修飾符,點(diǎn)號不匹配換行符。這個(gè)修飾符等同于perl中的/s修飾符。 一個(gè)取反字符類比如[^a]總是匹配換行符,而不依賴于這個(gè)修飾符的設(shè)置。

*x (PCRE_EXTENDED)

如果設(shè)置了這個(gè)修飾符,模式中的沒有經(jīng)過轉(zhuǎn)義的或不在字符類中的空白數(shù)據(jù)字符總會被忽略, 并且位于一個(gè)未轉(zhuǎn)義的字符類外部的#字符和下一個(gè)換行符之間的字符也被忽略。 這個(gè)修飾符 等同于perl中的/x修飾符,使被編譯模式中可以包含注釋。 注意:這僅用于數(shù)據(jù)字符。 空白字符 還是不能在模式的特殊字符序列中出現(xiàn),比如序列(?(引入了一個(gè)條件子組(譯注:這種語法定義的 特殊字符序列中如果出現(xiàn)空白字符會導(dǎo)致編譯錯(cuò)誤。 比如(?(就會導(dǎo)致錯(cuò)誤)。

*e (PREG_REPLACE_EVAL)Warning

This feature was DEPRECATED in PHP 5.5.0, and REMOVED as of PHP 7.0.0.

如果設(shè)置了這個(gè)被棄用的修飾符,preg_replace()在進(jìn)行了對替換字符串的 后向引用替換之后,將替換后的字符串作為php代碼評估執(zhí)行(eval函數(shù)方式),并使用執(zhí)行結(jié)果 作為實(shí)際參與替換的字符串。單引號、雙引號、反斜線()和NULL字符在 后向引用替換時(shí)會被用反斜線轉(zhuǎn)義.

*A (PCRE_ANCHORED)

如果設(shè)置了這個(gè)修飾符,模式被強(qiáng)制為"錨定"模式,也就是說約束匹配使其僅從 目標(biāo)字符串的開始位置搜索。這個(gè)效果同樣可以使用適當(dāng)?shù)哪J綐?gòu)造出來,并且 這也是perl種實(shí)現(xiàn)這種模式的唯一途徑。

*D (PCRE_DOLLAR_ENDONLY)

如果這個(gè)修飾符被設(shè)置,模式中的元字符美元符號僅僅匹配目標(biāo)字符串的末尾。如果這個(gè)修飾符 沒有設(shè)置,當(dāng)字符串以一個(gè)換行符結(jié)尾時(shí), 美元符號還會匹配該換行符(但不會匹配之前的任何換行符)。 如果設(shè)置了修飾符m,這個(gè)修飾符被忽略.在perl中沒有與此修飾符等同的修飾符。

*S

當(dāng)一個(gè)模式需要多次使用的時(shí)候,為了得到匹配速度的提升,值得花費(fèi)一些時(shí)間 對其進(jìn)行一些額外的分析。如果設(shè)置了這個(gè)修飾符,這個(gè)額外的分析就會執(zhí)行。當(dāng)前, 這種對一個(gè)模式的分析僅僅適用于非錨定模式的匹配(即沒有單獨(dú)的固定開始字符)。

*U (PCRE_UNGREEDY)

這個(gè)修飾符逆轉(zhuǎn)了量詞的"貪婪"模式。 使量詞默認(rèn)為非貪婪的,通過量詞后緊跟?的方式可以使其成為貪婪的。這和perl是不兼容的。 它同樣可以使用 模式內(nèi)修飾符設(shè)置(?U)進(jìn)行設(shè)置, 或者在量詞后以問號標(biāo)記其非貪婪(比如.*?)。

Note:在非貪婪模式,通常不能匹配超過pcre.backtrack_limit的字符。

*X (PCRE_EXTRA)

這個(gè)修飾符打開了PCRE與perl不兼容的附件功能。模式中的任意反斜線后就ingen一個(gè) 沒有特殊含義的字符都會導(dǎo)致一個(gè)錯(cuò)誤,以此保留這些字符以保證向后兼容性。 默認(rèn)情況下,在perl中,反斜線緊跟一個(gè)沒有特殊含義的字符被認(rèn)為是該字符的原文。 當(dāng)前沒有其他特性由這個(gè)修飾符控制。

*J (PCRE_INFO_JCHANGED)

內(nèi)部選項(xiàng)設(shè)置(?J)修改本地的PCRE_DUPNAMES選項(xiàng)。允許子組重名,(譯注:只能通過內(nèi)部選項(xiàng)設(shè)置,外部的/J設(shè)置會產(chǎn)生錯(cuò)誤。)

*u (PCRE_UTF8)

此修正符打開一個(gè)與perl不兼容的附加功能。 模式和目標(biāo)字符串都被認(rèn)為是utf-8的。 無效的目標(biāo)字符串會導(dǎo)致preg_*函數(shù)什么都匹配不到; 無效的模式字符串會導(dǎo)致E_WARNING級別的錯(cuò)誤。PHP 5.3.4后,5字節(jié)和6字節(jié)的UTF-8字符序列被考慮為無效(resp. PCRE 7.3 2007-08-28)。 以前就被認(rèn)為是無效的UTF-8。

后向引用:

: 后面的表達(dá)式可以引用前面的某個(gè)分組,用\1表示,就好像分組1的值賦值給了\1這個(gè)變量,這個(gè)變量可以在后面任意位置引用。

\1表示分組1匹配的文本

\k表示分組Word匹配的文本

匹配重復(fù)兩個(gè)的英文,例如匹配Hello Hello、lei123 lei123:

(\w+)\s+\1

(?\w+)\s+\k

貪婪模式:

貪婪模式

正則手冊

正則表達(dá)式的PCRE函數(shù):

preg_match(),preg_match_all(),preg_replace(),preg_split()

正則相關(guān)函數(shù)

中文匹配:

*utf-8 :漢字編碼:0x4eoo-0x9fa5;

*ANSI(gb2312)環(huán)境:0xb0-0xf7,0xa1-0xfe;

注意:utf-8要使用u模式修正符,使模式字符串被當(dāng)成urf-8;
ANSI(db2312)環(huán)境下: 要使用chr()將ASCII碼轉(zhuǎn)換成字符串;
方法:

*先寫出一個(gè)要匹配的字符串;

*自左向右的順序使用正則表達(dá)式的元子和元字符進(jìn)行拼接;

*最終加入模式修正符(如果需要);

練習(xí)常見的正則表達(dá)式(URL,email,IP, 手機(jī)號,src);

測試題:


請寫出一個(gè)正則表達(dá)式,取出頁面中所有img標(biāo)簽中的src的值;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容