python正則表達式系列(3)——正則內(nèi)置屬性

本文主要總結(jié)一下python正則的一些內(nèi)置屬性的用法。

1. 編譯標志:flags

首先來看一下re.findall函數(shù)的函數(shù)原型:

import re 
print('【Output】')
print help(re.findall)
【Output】
Help on function findall in module re:

findall(pattern, string, flags=0)
    Return a list of all non-overlapping matches in the string.
    
    If one or more groups are present in the pattern, return a
    list of groups; this will be a list of tuples if the pattern
    has more than one group.
    
    Empty matches are included in the result.

None

可以看出,re.findall函數(shù)的最后一個參數(shù)是flags,默認值是0,這個falgs就是編譯標志,即正則的內(nèi)置屬性,使用不同的編譯標志可以讓正則產(chǎn)生不同的匹配效果。那么falgs可以取哪些值呢?用help(re)來看一下reDATA有哪些:

print help(re)

# 【Output】
'''
...
DATA
    DOTALL = 16
    I = 2
    IGNORECASE = 2
    L = 4
    LOCALE = 4
    M = 8
    MULTILINE = 8
    S = 16
    U = 32
    UNICODE = 32
    VERBOSE = 64
    X = 64
...
'''

下面試驗一下上面的每一種編譯標志的作用。

2. DOTALL, S

使.匹配包括\n在內(nèi)的所有字符(.默認是不能匹配\n的),舉例:

p = r'me.com'
print '【Output】'
print re.findall(p,'me.com')
print re.findall(p,'me\ncom')
print re.findall(p,'me\ncom',re.DOTALL)
print re.findall(p,'me\ncom',re.S)
【Output】
['me.com']
[]
['me\ncom']
['me\ncom']

注:使用re.S模式時,正則表達式不能是編譯后的正則(re.compile()函數(shù)),否則會出錯。
使用re.S模式時,^字符變?yōu)槲臋n開始符而不再是行開始符,$符變?yōu)槲臋n結(jié)束符而不再是行結(jié)束符。

3. IGNORECASE, I

使匹配對大小寫不敏感,舉例:

p = r'a'
print '【Output】'
print re.findall(p,'A')
print re.findall(p,'A',re.IGNORECASE)
print re.findall(p,'A',re.I)
【Output】
[]
['A']
['A']

4. LOCALE, L

本地化匹配,使用了該編譯標志后,\w,\W,\b,\B,\s,\S等字符的含義就和本地化有關(guān)了。

5. MULTILINE, M

開啟多行匹配,影響^$。舉例:

s = """
aa bb cc
bb aa
aa ccd
"""
p1 = r'^aa'
p2 = r'cc$'
print '【Output】'
print re.findall(p1,s)
print re.findall(p1,s,re.M)

print re.findall(p2,s)
print re.findall(p2,s,re.M)
【Output】
[]
['aa', 'aa']
[]
['cc']

6. VERBOSE, X

開啟正則的多行寫法,使之更清晰。舉例:

p = r"""
\d{3,4}
-?
\d{7,8}
"""
tel = '010-12345678'
print '【Output】'
print re.findall(p,tel)
print re.findall(p,tel,re.X)
【Output】
[]
['010-12345678']

7. UNICODE, U

以unicode編碼進行匹配,比如用\s匹配中文全角的空格符:\u3000,不加該編譯標志和加該編譯標志的效果對比如下:

s = u'\u3000'
p = r'\s'
print '【Output】'
print re.findall(p,s)
print re.findall(p,s,re.U)
【Output】
[]
[u'\u3000']

8. 如何同時使用多個編譯標志?

有時候可能同時要用到多種編譯標志,比如我既想在匹配的時候忽略大小寫,又想讓.匹配換行符號\n,前面的方式貌似不行了,那怎么辦呢?

方法:在正則的任意位置加上這句即可:(?iLmsux)

其中i對應(yīng)re.I,L對應(yīng)re.Lm對應(yīng)re.M,s對應(yīng)re.S,u對應(yīng)re.U,x對應(yīng)re.X。舉例:

s = 'Abc\ncom'
p = r'abc.com(?is)'  # 注:編譯標志(?is)可以加在正則的任意位置,這里加在了末尾
print '【Output】'
print re.findall(p,s)
【Output】
['Abc\ncom']
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • re模塊手冊 本模塊提供了和Perl里的正則表達式類似的功能,不關(guān)是正則表達式本身還是被搜索的字符串,都可以...
    喜歡吃栗子閱讀 4,197評論 0 13
  • 使用 Python 模塊 re 實現(xiàn)解析小工具 孫 翎, 賀 皓, 和 張 晗 2011 年 4 月 12 日發(fā)布...
    種花家LY閱讀 3,811評論 0 21
  • 正則表達式有很多流派,也有很多的特性,不同的語言支持度也是不一樣的。本篇文章是寫Python中的正則表達式的用法的...
    Moscow1147閱讀 1,202評論 0 0
  • 在你的生命中,是否曾有一個人,他出現(xiàn)過,就像花一樣繁華盛開,最后你卻不得不把他剝離你的生活中,傷筋挫骨般的疼痛,...
    南有佳木閱讀 234評論 1 2
  • 暑假回老家,閑來無事,一天,在日暮時分,信步走在鄉(xiāng)間的小道上,晚霞映紅了西天,燕子還在翩翩起舞。田野里的玉米經(jīng)過這...
    老海李亞強閱讀 887評論 0 5

友情鏈接更多精彩內(nèi)容