title: "正則表達(dá)式學(xué)習(xí)筆記"
author: "Dong Lei-ming"
date: "2017年10月28日"
output: html_document
如果需要從文本文件中識(shí)別具有一定模式的字符串時(shí),學(xué)一點(diǎn)正則表達(dá)式比一個(gè)個(gè)查找-復(fù)制粘貼效率要高得多。
我常用的能夠通過(guò)正則表達(dá)式進(jìn)行檢索的軟件有:Notepad++和Filelocator。用Notepad的機(jī)會(huì)更多一些。轉(zhuǎn)入正題:
比如我有一串字符:
Aoli|XP_011119616.1,Aoli|XP_011122673.1,Aoli|XP_011128430.1,Bbas|XP_008594286.1,Bbas|XP_008594329.1,Bbas|XP_008595160.1,
Bbas|XP_008596935.1,Bbas|XP_008597129.1,Bbas|XP_008597693.1,Bbas|XP_008598495.1,Bbas|XP_008600657.1,Bbas|XP_008600739.1,
Bbas|XP_008601538.1,Bbas|XP_008603064.1,Bbas|XP_008603175.1,Bbas|XP_008603621.1,Chig|XP_018154735.1,Chig|XP_018155044.1,
Chig|XP_018155047.1,Chig|XP_018153301.1,Chig|XP_018151759.1,Chig|XP_018164608.1,Chig|XP_018152642.1,Chig|XP_018152650.1,
Chig|XP_018150745.1,Chig|XP_018151082.1,Chig|XP_018151207.1,Chig|XP_018151210.1,Chig|XP_018151211.1,Chig|XP_018151295.1,
Chig|XP_018151323.1,Chig|XP_018151575.1,Chig|XP_018151609.1,Chig|XP_018151641.1,Chig|XP_018163482.1,Chig|XP_018150468.1
我需要把|連同之前的字符都去掉,如果手動(dòng)刪除或是用空值一組一組地替換是非常繁瑣的,數(shù)據(jù)量非常大時(shí)成本很高。而如果采用正則表達(dá)式則是幾秒鐘的事:查找\w*\|,然后替換框里空著,全部替換就可以了(Fig 1),Amazing!

Fig 1
匹配字符
-
.,句點(diǎn)代表除換行符外的所有字符。比如a..b能匹配類似a alb,A18|B,ATP-b。不區(qū)分大小寫,當(dāng)然也可以區(qū)分,下同。 -
[...],代表字符集。a[rl_]b匹配arb,AlB,A_b。 -
\d, 代表數(shù)字。XP_\d匹配XP_0,XP_0,...,XP_9。 -
\D, 代表非數(shù)字。 -
\s, 代表空白字符。a\sb匹配a b。 -
\S, 代表非空白字符。 -
\w, 代表字母和數(shù)字。[a-z0-9]。 -
\w, 代表非字母和數(shù)字。 -
\b, 代表邊界,如\b love,不會(huì)匹配alove之類的單詞。 -
\r\n,這是Notepad里替換換換行符的字符串,有時(shí)會(huì)用到,非常方便!比如(\r\n){2}能替換空行,類似Word里的^p^p。
匹配字符的次數(shù)
-
*,≥0次。 -
+,≥1次。 -
?,匹配問(wèn)號(hào)前一個(gè)字符前面的全部字符含有或不含問(wèn)號(hào)前這個(gè)字符,比較難理解,試一下就知道了。kdheo?,問(wèn)號(hào)前一個(gè)字符是o,o前面的全部字符是kdhe,kdheo?匹配kdheo(含o)或kdhe(不含o)。 -
{},花括號(hào)里是匹配前一個(gè)字符的次數(shù)1-9,也可以是個(gè)范圍{1,5}。
邏輯匹配
想要同時(shí)匹配多個(gè)字符串時(shí)用邏輯字符|,如blue|Blue,能忽略blue首字母的大小寫。
以含有多個(gè)字符的字符串為單位進(jìn)行處理時(shí)要用圓括號(hào)()括起來(lái)。
一個(gè)例子
有這樣一串字符:
[1] "db" "G.clavigera" "F.graminearum" "M.oryzae" "Z.tritici" "C.higginsianum"
[7] "V.dahliae" "C.militaris" "B.bassiana" "M.anisopliae" "M.robertsii" "M.libera"
[13] "S.insectorum" "A.oligospora" "D.haptotyla" "E.vermicola" "H.minnesotensis" "D.coniospora"
[19] "P.chlamydosporia" "O.piceae" "S.schenckii" "S.brasiliensis"
特點(diǎn)是有方括號(hào), 方括號(hào)括起來(lái)的數(shù)字且位數(shù)不等,有空格且空格的個(gè)數(shù)不等,還有換行符。
我想要的是保留引號(hào)中的內(nèi)容(連同引號(hào)),之間用逗點(diǎn)隔開(kāi),放到一行中。
具體步驟:
- 去掉方括號(hào)及其中的數(shù)字,表達(dá)式為
\[[0-9]+\]; - 去掉換行符,表達(dá)式為
\r\n; - 去掉空格,表達(dá)式為
\s+,替換為,,然后去掉兩頭多于的逗點(diǎn)即可。