3.3.1 反向引用

英文中不少單詞中都有重疊出現(xiàn)的字母,比如shootbeep,如果希望檢查某個單詞是否包含重疊出現(xiàn)的字母,該怎么解決?

匹配字母表達式是[a-z](這里暫不考慮大寫的情況)。但“重疊出現(xiàn)”的字母,取決于第一個[a-z]運行時的匹配結(jié)果,而不能預(yù)先設(shè)定。也就是說必須“知道”之前匹配的確切內(nèi)容:如果前面匹配的是e,則后面只能是e;如果前面匹配的是a,后面就只能匹配a。

上一節(jié)講到了引用分組,能引用某個分組內(nèi)的子表達式匹配的文本,但是引用都是在匹配完成后進行的,能不能在正則表達式中引用呢?

答案是可以的,這種功能叫做反向引用(back-reference),它允許在正則表達式內(nèi)部引用之前(左側(cè))的捕獲分組匹配的文本,其形式也是\num,其中num表示所引用分組的編號,編號規(guī)則與之前介紹的相同。

根據(jù)反向引用,查找連續(xù)重疊字母的表達式就是([a-z])\1,其中的[a-z]匹配第一個字母,再用括號將匹配分組,然后用\1來反向引用。

例3-24 用反向引用匹配重復(fù)字母

print(re.search(r'([a-z])\1', 'aabb'))  # 'aa'
print(re.search(r'([a-z])\1', 'cc'))  # 'cc'
print(re.search(r'([a-z])\1', 'mn'))  # None

在日常開發(fā)中,我們經(jīng)常需要反向引用來建立前后聯(lián)系。最常見的就是解析html tag。在html語法中,tag包括open tagclose tag,它們經(jīng)常是成對出現(xiàn)的,比如<bold>馬小跳</bold>、<h1>title</h1>

有了反向引用,就可以先匹配open tag,再匹配其他內(nèi)容,直到最近的close tag為止:用([^>]+)匹配open tagtag name,在匹配close tag時,用\1引用之前匹配的tag name。

例3-25 用反向引用匹配成對的tag

pairedTagRegex = re.compile(r'<([a-zA-Z0-9]+)(\s*[^>]+)?>[\s\S]*?</\1>')

print(pairedTagRegex.search('<bold name="">馬小跳</bold>'))  # <bold name="">馬小跳</bold>
print(pairedTagRegex.search('<h1 src="mxt">馬小跳</h1>'))  # <h1 src="mxt">馬小跳</h1>
print(pairedTagRegex.search('<h1><span>馬小跳</span></h1>'))  # <span>馬小跳</span>

反向引用還可以用在其他很多地方,比如處理中文文本時,查找“浩浩蕩蕩”、“明明白白”之類aabb或者“如火如荼”、“越來越好”這類abab的四字詞語。

關(guān)于反向引用,還有一點需要強調(diào):反向引用重復(fù)的是對應(yīng)捕獲分組匹配的文本,而不是之前的表達式;也就是說,反向引用的是由之前表達式?jīng)Q定的具體文本,而不是符合某種規(guī)則的未知文本。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容