3.3.2 各種引用的記法

根據(jù)前面的介紹,對分組的引用可能出現(xiàn)在三種場合:

  • 在匹配完之后,用group(num)之類的方法提取數(shù)據(jù)
  • 在進行正則表達式替換時,用\num引用
  • 在正則表達式內部,用\num引用

但是使用\num,有可能遇到二義性的問題:如果出現(xiàn)了\10,它表示第10個捕獲分組的引用?還是第一個捕獲分組\1后跟著一個字符0

例3-28 可能具有二義性的反向引用

re.sub(r'(\d)', r'\10', '123')
# sre_constants.error: invalid group reference

原來\10會被解釋成“第10個捕獲分組匹配的文本”,而不是“第一個捕獲分組匹配的文本之后加上字符0”。如果我們希望做到后面這種情況,python提供了\g<num>表示法,將\10改寫成\g<1>0,避免了二義性的問題。

例3-29 使用\g<num>消除二義性

re.sub(r'(\d)', r'\g<1>m', '123')  # 1m2m3m

PHP中也有專門的記法解決這類問題,在替換時可以使用\${num}的寫法,準確標注所引用分組的編號,也就是說\${1}0表示“第一個捕獲分組之后加上0”,${10}表示“第10個捕獲分組”。而$10,在第10和捕獲分組存在的情況下,表示該分組;否則視為空字符串。

Python和PHP中的規(guī)定明確,所以避免了\num的二義性;其他語言卻不是如此,根據(jù)它們的文檔,引用捕獲分組只有\num(或$num)一種記法,這時\10的二義性就無法避免了。

比如Java對\num中對num是這樣定義的:**如果是一位數(shù),則引用對應的捕獲分組;如果是兩位數(shù)且存在對應的捕獲分組時,引用對應的捕獲分組,否則引用一位數(shù)編號的捕獲分組。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 個人根據(jù)《正則指引》內容總結記錄,侵刪?。?轉載至我的博客 最近看了編譯原理方面的書,覺得正則表達式非常重要,在各...
    J退後閱讀 650評論 0 0
  • 正則表達式有很多流派,也有很多的特性,不同的語言支持度也是不一樣的。本篇文章是寫Python中的正則表達式的用法的...
    Moscow1147閱讀 1,201評論 0 0
  • 姓名:顧林林 公司:上海陳工電控科技有限公司 【411期】反省一組 學員 日精進打卡第162天 【447期】樂觀一...
    紫魘閱讀 170評論 0 0
  • 01這是小北第一次相親,走到咖啡廳門口她突然放松了下來。還有半個小時,她打算找個靠窗的位置看會書。推開門,她經常坐...
    晴風Joy閱讀 838評論 10 18
  • 今天全世界都是老薛復合的消息。第一眼看到消息,還以為是假的,就趕緊去翻看微博,竟然是真的。眼淚抑制不住的往外涌,我...
    MerryChang閱讀 237評論 0 0

友情鏈接更多精彩內容