正則 匹配和捕獲

?《= 和 ?= 的用法

方法1: 匹配,捕獲(存儲(chǔ))

正則表達(dá)式:(?<=(href=")).{1,200}(?=(">))

解釋:(?<=(href=")) 表示 匹配以(href=")開(kāi)頭的字符串,并且捕獲(存儲(chǔ))到分組中

(?=(">)) 表示 匹配以(">)結(jié)尾的字符串,并且捕獲(存儲(chǔ))到分組中

匹配結(jié)果:

image

方法2: 匹配,不捕獲(不存儲(chǔ))

正則表達(dá)式:(?<=(?:href=")).{1,200}(?=(?:">))

解釋:(?<=(?:href=")) 表示 匹配以(href=")開(kāi)頭的字符串,并且不捕獲(不存儲(chǔ))到分組中

(?=(?:">)) 表示 匹配以(">)結(jié)尾的字符串,并且不捕獲(不存儲(chǔ))到分組中

匹配結(jié)果:

image
格式??? 作用
(?:pattern) 非獲取匹配,匹配pattern但不獲取匹配結(jié)果,不進(jìn)行存儲(chǔ)供以后使用。這在使用或字符“(|)”來(lái)組合一個(gè)模式的各個(gè)部分是很有用。例如“industr(?:y|ies)”就是一個(gè)比“industry|industries”更簡(jiǎn)略的表達(dá)式。
(?=pattern) 非獲取匹配,正向肯定預(yù)查,在任何匹配pattern的字符串開(kāi)始處匹配查找字符串,該匹配不需要獲取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預(yù)查不消耗字符,也就是說(shuō),在一個(gè)匹配發(fā)生后,在最后一次匹配之后立即開(kāi)始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開(kāi)始。
(?!pattern) 非獲取匹配,正向否定預(yù)查,在任何不匹配pattern的字符串開(kāi)始處匹配查找字符串,該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。
(?<=pattern) 非獲取匹配,反向肯定預(yù)查,與正向肯定預(yù)查類似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern) 非獲取匹配,反向否定預(yù)查,與正向否定預(yù)查類似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。這個(gè)地方不正確,有問(wèn)題

一.概念

【分組】
我們已經(jīng)提到了怎么重復(fù)單個(gè)字符(直接在字符后面加上限定符就行了);但如果想要重復(fù)一個(gè)字符串又該怎么辦?你可以用小括號(hào)來(lái)指定子表達(dá)式(也叫做分組),然后你就可以指定這個(gè)子表達(dá)式的重復(fù)次數(shù)了,你也可以對(duì)子表達(dá)式進(jìn)行其它一些操作(后面會(huì)有介紹)。(\d{1,3}.){3}\d{1,3}是一個(gè)簡(jiǎn)單的IP地址匹配表達(dá)式。要理解這個(gè)表達(dá)式,請(qǐng)按下列順序分析它:

\d{1,3}匹配1到3位的數(shù)字,(\d{1,3}.}{3}匹配三位數(shù)字加上一個(gè)英文句號(hào)(這個(gè)整體也就是這個(gè)分組)重復(fù)3次,最后再加上一個(gè)一到三位的數(shù)字(\d{1,3})。

不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每個(gè)數(shù)字都不能大于255)。如果能使用算術(shù)比較的話,或許能簡(jiǎn)單地解決這個(gè)問(wèn)題,但是正則表達(dá)式中并不提供關(guān)于數(shù)學(xué)的任何功能,所以只能使用冗長(zhǎng)的分組,選擇,字符類來(lái)描述一個(gè)正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解這個(gè)表達(dá)式的關(guān)鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這里我就不細(xì)說(shuō)了,你自己應(yīng)該能分析得出來(lái)它的意義。

【后向引用】
使用小括號(hào)指定一個(gè)子表達(dá)式后,匹配這個(gè)子表達(dá)式的文本可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下,每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào),規(guī)則是:從左向右,以分組的左括號(hào)為標(biāo)志,第一個(gè)出現(xiàn)的分組的組號(hào)為1,第二個(gè)為2,以此類推。

后向引用用于重復(fù)搜索前面某個(gè)分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請(qǐng)看示例:

\b(\w+)\b\s+\1\b可以用來(lái)匹配重復(fù)的單詞,像go go, kitty kitty。首先是一個(gè)單詞,也就是單詞開(kāi)始處和結(jié)束處之間的多于一個(gè)的字母或數(shù)字(\b(\w+)\b),然后是1個(gè)或幾個(gè)空白符(\s+),最后是前面匹配的那個(gè)單詞(\1)。

你也可以自己指定子表達(dá)式的組名。要指定一個(gè)子表達(dá)式的組名,請(qǐng)使用這樣的語(yǔ)法:(?<Word>\w+)(或者把尖括號(hào)換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個(gè)分組捕獲的內(nèi)容,你可以使用\k<Word>,所以上一個(gè)例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。

使用小括號(hào)的時(shí)候,還有很多特定用途的語(yǔ)法。下面列出了最常用的一些:

分組語(yǔ)法 捕獲
(exp) 匹配exp,并捕獲文本到自動(dòng)命名的組里
**(?<name>exp) **匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文本
位置指定
**(?=exp) **匹配exp前面的位置
**(?<=exp) **匹配exp后面的位置
**(?!exp) **匹配后面跟的不是exp的位置
**(?<!exp) **匹配前面不是exp的位置
注釋
(?#comment) 這種類型的組不對(duì)正則表達(dá)式的處理產(chǎn)生任何影響,只是為了提供讓人閱讀注釋

我們已經(jīng)討論了前兩種語(yǔ)法。第三個(gè)(?:exp)不會(huì)改變正則表達(dá)式的處理方式,只是這樣的組匹配的內(nèi)容不會(huì)像前兩種那樣被捕獲到某個(gè)組里面。

位置指定
接下來(lái)的四個(gè)用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西,也就是說(shuō)它們用于指定一個(gè)位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來(lái)說(shuō)明吧:

(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結(jié)尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時(shí),它會(huì)匹配sing和danc。

(?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會(huì)匹配以re開(kāi)頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時(shí),它匹配ading。

假如你想要給一個(gè)很長(zhǎng)的數(shù)字中每三位間加一個(gè)逗號(hào)(當(dāng)然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號(hào)的部分:((?<=\d)\d{3})*\b。請(qǐng)仔細(xì)分析這個(gè)表達(dá)式,它可能不像你第一眼看出來(lái)的那么簡(jiǎn)單。

下面這個(gè)例子同時(shí)使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數(shù)字(再次強(qiáng)調(diào),不包括這些空白符)。

負(fù)向位置指定
前面我們提到過(guò)怎么查找不是某個(gè)字符或不在某個(gè)字符類里的字符的方法(反義)。但是如果我們只是想要確保某個(gè)字符沒(méi)有出現(xiàn),但并不想去匹配它時(shí)怎么辦?例如,如果我們想查找這樣的單詞--它里面出現(xiàn)了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:

\b\wq[^u]\w\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測(cè)試(或者你思維足夠敏銳,直接就觀察出來(lái)了),你會(huì)發(fā)現(xiàn),如果q出現(xiàn)在單詞的結(jié)尾的話,像Iraq,Benq,這個(gè)表達(dá)式就會(huì)出錯(cuò)。這是因?yàn)閇u]總是匹配一個(gè)字符,所以如果q是單詞的最后一個(gè)字符的話,后面的[u]將會(huì)匹配q后面的單詞分隔符(可能是空格,或者是句號(hào)或其它的什么),后面的\w\b將會(huì)匹配下一個(gè)單詞,于是\b\wq[^u]\w\b就能匹配整個(gè)Iraq fighting。負(fù)向位置指定能解決這樣的問(wèn)題,因?yàn)樗黄ヅ湟粋€(gè)位置,并不消費(fèi)任何字符?,F(xiàn)在,我們可以這樣來(lái)解決這個(gè)問(wèn)題:\b\wq(?!u)\w*\b。

零寬負(fù)向先行斷言(?!exp),只會(huì)匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數(shù)字,而且這三位數(shù)字的后面不能是數(shù)字。

同理,我們可以用(?<!exp),零寬負(fù)向后行斷言來(lái)查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數(shù)字(實(shí)驗(yàn)時(shí)發(fā)現(xiàn)錯(cuò)誤?注意你的“區(qū)分大小寫”先項(xiàng)是否選中)。

一個(gè)更復(fù)雜的例子:(?<=<(\w+)>).(?=</\1>)匹配不包含屬性的簡(jiǎn)單HTML標(biāo)簽內(nèi)里的內(nèi)容。(<?(\w+)>)指定了這樣的前綴:被尖括號(hào)括起來(lái)的單詞(比如可能是<b>),然后是.(任意的字符串),最后是一個(gè)后綴(?=</\1>)。注意后綴里的/,它用到了前面提過(guò)的字符轉(zhuǎn)義;\1則是一個(gè)反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內(nèi)容,這樣如果前綴實(shí)際上是<b>的話,后綴就是</b>了。整個(gè)表達(dá)式匹配的是<b>和</b>之間的內(nèi)容(再次提醒,不包括前綴和后綴本身)。

二.實(shí)際運(yùn)用

現(xiàn)在網(wǎng)絡(luò)上現(xiàn)在很流行的爬蟲(chóng)程序,其實(shí)就是根據(jù)正則表達(dá)式來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行解析匹配獲取有用信息分組并存儲(chǔ)下來(lái)的.
像網(wǎng)頁(yè)上最多的就是像<table>,<tr>,<td>之類的標(biāo)簽,而相對(duì)于我們用戶而言,這些都是沒(méi)有任意意義的,有意義的是其中所包含的值.如<a >網(wǎng)易</a>我所所關(guān)心的就是其href屬性當(dāng)中的值,還有就是其文字結(jié)點(diǎn)的值.其它的對(duì)于我們來(lái)說(shuō)沒(méi)有任何意義.這就要運(yùn)用到我們所說(shuō)的正確表達(dá)式匹配了.
不過(guò)如果我們只是針對(duì)取某一個(gè)標(biāo)簽的結(jié)點(diǎn)值,我們可以通過(guò)javascript+DOM方法把他們?nèi)〕鰜?lái),不過(guò)要是不是一類而是要求全部?jī)?nèi)空當(dāng)中去取,那樣用DOM動(dòng)態(tài)解析的方式就顯著有時(shí)不好用了.
下同說(shuō)一個(gè)我運(yùn)用的實(shí)例吧
我有一個(gè)頁(yè)面:

<p> 11-13 <a href=/bj/11/109/4969873.html target=_blank> 中介 - 3400元/3居 - 紫竹橋兵器大廈附近大三居 (紫竹院) </a>
<p> 11-13 <a href=/bj/11/104/4969872.html target=_blank> 1200元/3居 - 出租上地三居室合?。庵薪橘M(fèi)) (上地) </a>
<p> 11-13 <a href=/bj/11/114/4969866.html target=_blank> 中介 - 2600元/2居 - 北太平莊43號(hào)院二居出租 (北太平莊) </a>
<p> 11-13 <a href=/bj/11/914/4969865.html target=_blank> 400元/1居 - 單間獨(dú)立衛(wèi)浴免供暖費(fèi) (北七家) </a>
<p> 11-13 <a href=/bj/11/301/4969864.html target=_blank> 中介 - 2400元/2居 - 東直門春秀路太平莊南里二居室出租 (東直門外三里屯工人體育館) </a>
<p> 11-13 <a href=/bj/11/208/4969863.html target=_blank> 中介 - 2400元/4居 - 出租定福家園新房四居室 (團(tuán)結(jié)湖) </a>
<p> 11-13 <a href=/bj/11/214/4969862.html target=_blank> 中介 - 2600元/3居 - 花家地北里三室一廳出租 (酒仙橋 將臺(tái)路) </a>
<p> 11-13 <a href=/bj/11/209/4969859.html target=_blank> 1300元/1居 - 十里堡華堂附近新公寓合租 (京廣橋 紅廟 八里莊) </a>
<p> 11-13 <a href=/bj/11/70/4969846.html target=_blank> 中介 - 600元/3居 - 出租豐益橋西盛鑫家園4室2廳2衛(wèi)精裝修的房子(免收中介費(fèi) (豐益橋西盛鑫家園) </a>
<p> 11-13 <a href=/bj/11/901/4969844.html target=_blank> 750元/3居 - 田園風(fēng)光雅園3居中的一居室出租 (回龍觀) </a>
<p> 11-13 <a href=/bj/11/1101/4969840.html target=_blank> 350元/1居 - 找一女孩跟我合租 (亦莊) </a>
<p> 11-13 <a href=/bj/11/102/4969839.html target=_blank> 中介 - 3400元/3居 - 出租知春里小區(qū)三居室 (北京大學(xué)) </a>
<p> 11-13 <a href=/bj/11/217/4969838.html target=_blank> 1100元/3居 - 雙井橋 三居 出租 (新裝修的)合租 (雙井) </a>
<p> 11-13 <a href=/bj/11/70/4969837.html target=_blank> 中介 - 3500元/3居 - 豐臺(tái)區(qū)兆豐園精裝修房子一套低價(jià)出租 (玉泉路 吳家村) </a>
<p> 11-13 <a href=/bj/11/70/4969835.html target=_blank> 中介 - 2900元/3居 - 我有一套長(zhǎng)安新城精裝修的三居室要出租 (青塔 大成路 長(zhǎng)安新城) </a>
<p> 11-13 <a href=/bj/11/201/4969834.html target=_blank> 中介 - 2200元/1居 - 房屋出租,北辰附近 (亞運(yùn)村) </a>

我現(xiàn)在要取出其中的鏈接和相應(yīng)的關(guān)鍵描述字符,即從類似
<p> 11-13 <a href=/bj/11/70/4969837.html target=_blank> 中介 - 3500元/3居 - 豐臺(tái)區(qū)兆豐園精裝修房子一套低價(jià)出租 (玉泉路 吳家村) </a>
中取出我們想要的信息,第一就是鏈接地址:/bj/11/70/496837.html;第二就是其描述信息:中介 - 3500元/3居 - 豐臺(tái)區(qū)兆豐園精裝修房子一套低價(jià)出租 (玉泉路 吳家村)
現(xiàn)在我們來(lái)分析下我們所取字符的共同特征,簡(jiǎn)單總結(jié)一下分為以下幾個(gè)部分
1.他們都是以<a href=打頭,以</a>結(jié)尾.
2.在href屬性之后有可能還有其他的屬性標(biāo)簽,如class,等其它相關(guān)的屬性.
方向確定我們就可以確定著手寫正則式了
首先滿足第一條件頭就為<a\s+href=;就是這樣,很簡(jiǎn)單吧,同樣,末尾為</a>也可以直接寫
應(yīng)該說(shuō)現(xiàn)在已經(jīng)可以正常匹配了,不過(guò)他匹配了一個(gè)整個(gè)的<a>標(biāo)簽,不是我們所想要的,我們只是想要其中的部分
所以還需要繼續(xù)修改,因?yàn)槲覀円谝粋€(gè)標(biāo)簽中去取兩個(gè)部分,一個(gè)鏈接和描述文字,其最好的方法就是把他們放在一個(gè)分組當(dāng)中,待我們使用時(shí)可以直接使用,關(guān)于建立分組,前面的資料說(shuō)的很清楚.為了直觀,我們采用自定義分組,即(?<分組名>)格式
一起組織起來(lái)就成了我們想要的.

(?<=<a\s+href=(?<link>.?(?=\starget=)).?>(?<content>.*?)(?=</a>)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容