正則表達(dá)式學(xué)習(xí)筆記 #正則表達(dá)式# #regex#


title: "正則表達(dá)式學(xué)習(xí)筆記"
author: "Dong Lei-ming"
date: "2017年10月28日"
output: html_document


如果需要從文本文件中識(shí)別具有一定模式的字符串時(shí),學(xué)一點(diǎn)正則表達(dá)式比一個(gè)個(gè)查找-復(fù)制粘貼效率要高得多。

我常用的能夠通過(guò)正則表達(dá)式進(jìn)行檢索的軟件有:Notepad++和Filelocator。用Notepad的機(jī)會(huì)更多一些。轉(zhuǎn)入正題:
比如我有一串字符:

Aoli|XP_011119616.1,Aoli|XP_011122673.1,Aoli|XP_011128430.1,Bbas|XP_008594286.1,Bbas|XP_008594329.1,Bbas|XP_008595160.1,
Bbas|XP_008596935.1,Bbas|XP_008597129.1,Bbas|XP_008597693.1,Bbas|XP_008598495.1,Bbas|XP_008600657.1,Bbas|XP_008600739.1,
Bbas|XP_008601538.1,Bbas|XP_008603064.1,Bbas|XP_008603175.1,Bbas|XP_008603621.1,Chig|XP_018154735.1,Chig|XP_018155044.1,
Chig|XP_018155047.1,Chig|XP_018153301.1,Chig|XP_018151759.1,Chig|XP_018164608.1,Chig|XP_018152642.1,Chig|XP_018152650.1,
Chig|XP_018150745.1,Chig|XP_018151082.1,Chig|XP_018151207.1,Chig|XP_018151210.1,Chig|XP_018151211.1,Chig|XP_018151295.1,
Chig|XP_018151323.1,Chig|XP_018151575.1,Chig|XP_018151609.1,Chig|XP_018151641.1,Chig|XP_018163482.1,Chig|XP_018150468.1

我需要把|連同之前的字符都去掉,如果手動(dòng)刪除或是用空值一組一組地替換是非常繁瑣的,數(shù)據(jù)量非常大時(shí)成本很高。而如果采用正則表達(dá)式則是幾秒鐘的事:查找\w*\|,然后替換框里空著,全部替換就可以了(Fig 1),Amazing!

Fig 1

匹配字符

  • .,句點(diǎn)代表除換行符外的所有字符。比如a..b能匹配類似a alb,A18|BATP-b。不區(qū)分大小寫,當(dāng)然也可以區(qū)分,下同。
  • [...],代表字符集。a[rl_]b匹配arbAlB,A_b。
  • \d, 代表數(shù)字。XP_\d匹配XP_0,XP_0,...,XP_9
  • \D, 代表非數(shù)字。
  • \s, 代表空白字符。a\sb匹配a b。
  • \S, 代表非空白字符。
  • \w, 代表字母和數(shù)字。[a-z0-9]。
  • \w, 代表非字母和數(shù)字。
  • \b, 代表邊界,如\b love,不會(huì)匹配alove之類的單詞。
  • \r\n,這是Notepad里替換換換行符的字符串,有時(shí)會(huì)用到,非常方便!比如(\r\n){2}能替換空行,類似Word里的^p^p。

匹配字符的次數(shù)

  • *,≥0次。
  • +,≥1次。
  • ?,匹配問(wèn)號(hào)前一個(gè)字符前面的全部字符含有或不含問(wèn)號(hào)前這個(gè)字符,比較難理解,試一下就知道了。kdheo?,問(wèn)號(hào)前一個(gè)字符是o,o前面的全部字符是kdhe,kdheo?匹配kdheo(含o)kdhe(不含o)。
  • {},花括號(hào)里是匹配前一個(gè)字符的次數(shù)1-9,也可以是個(gè)范圍{1,5}。

邏輯匹配

想要同時(shí)匹配多個(gè)字符串時(shí)用邏輯字符|,如blue|Blue,能忽略blue首字母的大小寫。
以含有多個(gè)字符的字符串為單位進(jìn)行處理時(shí)要用圓括號(hào)()括起來(lái)。

一個(gè)例子

有這樣一串字符:

[1] "db"               "G.clavigera"      "F.graminearum"    "M.oryzae"         "Z.tritici"        "C.higginsianum"  
 [7] "V.dahliae"        "C.militaris"      "B.bassiana"       "M.anisopliae"     "M.robertsii"      "M.libera"        
[13] "S.insectorum"     "A.oligospora"     "D.haptotyla"      "E.vermicola"      "H.minnesotensis"  "D.coniospora"    
[19] "P.chlamydosporia" "O.piceae"         "S.schenckii"      "S.brasiliensis" 

特點(diǎn)是有方括號(hào), 方括號(hào)括起來(lái)的數(shù)字且位數(shù)不等,有空格且空格的個(gè)數(shù)不等,還有換行符。
我想要的是保留引號(hào)中的內(nèi)容(連同引號(hào)),之間用逗點(diǎn)隔開(kāi),放到一行中。
具體步驟:

  1. 去掉方括號(hào)及其中的數(shù)字,表達(dá)式為\[[0-9]+\];
  2. 去掉換行符,表達(dá)式為\r\n;
  3. 去掉空格,表達(dá)式為\s+,替換為,,然后去掉兩頭多于的逗點(diǎn)即可。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容