中文和雙字符的匹配

正則表達式中:

  • 匹配中文字符可用: [\u4e00-\u9fa5]
  • 匹配雙字節(jié)字符(包括中文字符):[^\x00-\xff]
    在爬取豆瓣出版社列表的練習中,正則表達式如下:
data = urlreq.urlopen('https://read.douban.com/provider/all').read().decode('utf-8')
# pressPattern = 'class="name">([\u4e00-\u9fa5]*(·[\u4e00-\u9fa5]+)?)'
# 出版社名稱可以是中文也可以是英文
pressPattern = 'class="name">(.*?)<'
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 這里是幾個主要非英文語系字符范圍(google上找到的): 2E80~33FFh:中日韓符號區(qū)。收容康熙字典部首、...
    桃花釀閱讀 14,509評論 1 7
  • 忘了從哪收集的資料了,放這兒,以備不時之需。 只能輸入數(shù)字:"^[0-9]*$"。 只能輸入n位的數(shù)字:"^\d{...
    study_monkey閱讀 1,487評論 0 7
  • 正則表達式到底是什么東西?字符是計算機軟件處理文字時最基本的單位,可能是字母,數(shù)字,標點符號,空格,換行符,漢字等...
    獅子挽歌閱讀 2,287評論 0 9
  • \d 代表 [0-9] \l 代表 [a-z] \u 代表 [A-Z] \a 代表 [A-Za-z] \w 代表 ...
    zhuoshao閱讀 1,490評論 0 5
  • 德國和法國是兩個傳統(tǒng)的歐洲強國,德國工業(yè)發(fā)達,我們現(xiàn)在可以看到大街小巷到處都是德系汽車;據(jù)我所知法國是第一個與我們...
    viper44閱讀 116評論 0 0

友情鏈接更多精彩內(nèi)容