08-數(shù)據(jù)提取-正則表達(dá)式

  • re模塊的常見(jiàn)方法
  • 原始字符串r
  • 匹配中文

re模塊的常見(jiàn)方法

  • re.match()從頭找一個(gè)
  • re.search()找一個(gè)
  • re.findal()找所有
    返回一個(gè)列表,沒(méi)有就是空表
ret = re.findall("\d","chuan1zhi2")
>>['1', '2']
  • re.sub()替換
re.sub("\d","_","wu1xuan2")
>>wu_xuan_
  • re.compile()編譯
    返回一個(gè)模型P,具有和re一樣的方法,但是傳遞的參數(shù)不同
    匹配模式需要傳到compile中
p = re.compile("\d",re.S)
p.findall("chuan1zhi2")

python中原始字符串r的用法

原始字符串(raw string):保持原先字符串中所有的字符
如:“\n”的原始字符串就是“\\n”

len("\n")
>>1
len(r"\n")
>>2
  • 正則中使用原始字符串r忽略轉(zhuǎn)義符號(hào)帶來(lái)的影響

匹配中文

中文 unicode 編碼范圍:[u4e00-u9fa5](不包含中文標(biāo)點(diǎn))
注意:漢字和正則表達(dá)式都需要是unicode字符操作
【練習(xí)】提取中文

# coding:utf-8
import re

title="<p>Look out your window and I`ll be gone</p> <p>看向你的窗外我早已離開(kāi)</p> <p>You`re the reason I`m traveling on</p> <p>因?yàn)槟阄也潘奶幤?lt;/p> "

p = re.findall(r"[\u4E00-\u9FA5]+",title)
print(p)
>>['看向你的窗外我早已離開(kāi)', '因?yàn)槟阄也潘奶幤?]
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Python中的正則表達(dá)式(re) import rere.match #從開(kāi)始位置開(kāi)始匹配,如果開(kāi)頭沒(méi)有則無(wú)re...
    BigJeffWang閱讀 7,593評(píng)論 0 99
  • re模塊手冊(cè) 本模塊提供了和Perl里的正則表達(dá)式類似的功能,不關(guān)是正則表達(dá)式本身還是被搜索的字符串,都可以...
    喜歡吃栗子閱讀 4,198評(píng)論 0 13
  • 搞懂Python 正則表達(dá)式用法 Python 正則表達(dá)式 正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一...
    廈熱閱讀 1,776評(píng)論 0 2
  • 來(lái)日無(wú)多,便是毫無(wú)價(jià)值? 一個(gè)重病老人 一位年富力強(qiáng)的精英 一堂人生課 課本:老人口述 地點(diǎn):老人家中 時(shí)間:每周...
    我是柳如是閱讀 534評(píng)論 1 4
  • 重溫舊劇第一、二集 龍騰集團(tuán)是天都市的納稅大戶,重點(diǎn)企業(yè),也是代理市長(zhǎng)聶大海的兒子聶明宇的搖錢樹(shù)。龍騰集團(tuán)不僅涉嫌...
    張雷_淄博閱讀 3,161評(píng)論 0 3

友情鏈接更多精彩內(nèi)容