20170726 文本處理工具(二) grep 正則表達(dá)式

一、grep 文本搜索工具

語(yǔ)法:

grep [OPTIONS] PATTERN [FILE...]

選項(xiàng):

-v     <!--顯示不被pattern匹配到的行-->
-i     <!--忽略字符大小寫(xiě)-->
-n     <!--顯示匹配的行號(hào)-->
-c     <!--統(tǒng)計(jì)匹配的行數(shù)-->
-o     <!--僅顯示匹配到的字符串-->
-q     <!--靜默模式,不輸出任何信息,可以查看$?判斷命令是否成功執(zhí)行-->
-A #   <!--after, 后#行-->
-B #   <!--before, 前#行-->
-C #   <!--context, 前后各#行-->
-e     <!--實(shí)現(xiàn)多個(gè)選項(xiàng)間的邏輯or關(guān)系-->
-w     <!--匹配整個(gè)單詞-->
-E     <!--使用ERE擴(kuò)展正則表達(dá)式,相當(dāng)于egrep命令-->
-F     <!--相當(dāng)于fgrep,不支持正則表達(dá)式-->

實(shí)驗(yàn):

  1. 在/etc/passwd中搜索不包含nologin字符串的行
    命令:grep -v nologin /etc/passwd

  2. 在/etc/passwd中搜索包含tom(不分大小寫(xiě))字符串的行
    命令:grep -i tom /etc/passwd

  3. 在/etc/passwd顯示所有搜索到的bash字符串,并在字符串前輸出其所在的行號(hào)
    命令:grep -on bash /etc/passwd

  4. 在/etc/passwd中搜索包含mail的行,并且顯示其后三行/前三行/前后各三行
    命令:

grep -A 3 mail /etc/passwd
grep -B 3 mail /etc/passwd
grep -C 3 mail /etc/passwd
  1. 在/etc/passwd中搜索有單詞root,shutdown,bin的行
    命令:grep -we root -we shutdown -we bin /etc/passwd

二、正則表達(dá)式 regular expressions

(一)定義:

由一類(lèi)特殊字符及文本字符所編寫(xiě)的模式,其中有些字符(元字符)不表示字符字面意義,而表示控制或通配的功能。

(二)程序支持:

grep, sed, awk, vim等

(三)分類(lèi):

基本正則表達(dá)式(BRE)
擴(kuò)展正則表達(dá)式(ERE)

(四)元字符分類(lèi):

字符匹配、匹配次數(shù)、位置錨定、分組

三、基本正則表達(dá)式元字符

(一)字符匹配

.             <!--匹配任意單個(gè)字符-->
[]            <!--匹配指定范圍內(nèi)的任意單個(gè)字符-->
[^]           <!--匹配指定范圍外的任意單個(gè)字符-->
[:digit:]     <!--十進(jìn)制數(shù)字-->
[:alpha:]     <!--任何英文大小寫(xiě)字符-->
[:alnum:]     <!--字母和數(shù)字-->
[:lower:]     <!--小寫(xiě)字母-->
[:upper:]     <!--大寫(xiě)字母-->
[:blank:]     <!--空白字符(空格和制表符)-->
[:space:]     <!--水平和垂直的空白字符-->

(二)匹配次數(shù)

*           <!--匹配前面的字符任意次,包括0次-->
.*          <!--任意長(zhǎng)度的任意字符-->
\?          <!--匹配前面的字符0或1次-->
\+          <!--匹配前面的字符至少1次-->
\{n\}       <!--匹配前面的字符n次-->
\{m,n\}     <!--匹配前面的字符至少m次,至多n次-->
\{,n\}      <!--匹配前面的字符至多n次-->
\{n,\}      <!--匹配前面的字符至少n次-->
  • 實(shí)驗(yàn):
    新建文本文件file1,文件內(nèi)容如下:


    1. 搜索包含以g開(kāi)頭,中間有任意個(gè)數(shù)的o,以gle結(jié)束的字符串;
      命令:grep go*gle file1

    2. 搜索包含以g開(kāi)頭,中間至少2個(gè)字母至多5個(gè)字母,以gle結(jié)束的字符串;
      命令:grep "g[[:alpha:]]\{2,5\}gle" file1

    3. 搜索包含以g開(kāi)頭,中間至多1個(gè)字母,以gle結(jié)束的字符串
      命令:grep "g[[:alpha:]]\?gle" file1

(三)位置錨定

^     <!--行首錨定,用于模式的最左側(cè)-->
$     <!--行尾錨定,用于模式的最右側(cè)-->
^PATTERN$     <!--用于模式匹配整行-->
^$     <!--空行,不含空格-->
^[[:space:]]*$     <!--空白行,可能含空格-->
\< 或\b     <!--詞首錨定,用于單詞模式的左側(cè)-->
\> 或\b     <!--詞尾錨定;用于單詞模式的右側(cè)-->
\<PATTERN\>匹配整個(gè)單詞

(四)分組、或者

  • 分組:\(\)將一個(gè)或多個(gè)字符捆綁在一起,當(dāng)作一個(gè)整體進(jìn)行處理
  • \1表示從左側(cè)起第一個(gè)左括號(hào)以及與之匹配右括號(hào)之間的模式所匹配到的字符,以此類(lèi)推
  • 例如:
\(string1\+\(string2\)*\)
\1:string1\+\(string2\)*     \2:string2
  • 后向引用:引用前面的分組括號(hào)中的模式所匹配字符,而非模式本身
  • 或者:\|
abc\|cd       <!--abc或者cd-->
a\|bc         <!--a或者bc-->
\(a\|b\)c     <!--ac或者bc-->
  • 實(shí)驗(yàn):
    1. 在/etc/passwd搜索以a開(kāi)頭的用戶(hù)及其UID,并且按照UID從大到小排序
      命令:grep "^a" /etc/passwd | cut -d: -f1,3 | sort -nr -t: -k2

    2. 在/etc/passwd搜索以s開(kāi)頭中間至少1個(gè)英文或數(shù)字字符以d結(jié)束的單詞,英文不分大小寫(xiě)
      命令:grep -i "\<s[[:alnum:]]\+d\>" /etc/passwd

    3. 在/etc/passwd搜索用戶(hù)名以t開(kāi)頭,且同行包含與用戶(hù)名相同單詞的行
      命令:grep "\(^t.*\>\).*\1" /etc/passwd


      可以從上圖看到,tim用戶(hù)所在的行后tam單詞也匹配模式,但是并未搜索到。這證明后向引用前方分組括號(hào)中所匹配的字符,而非模式本身。

四、egrep和擴(kuò)展正則表達(dá)式

(一)egrep

egrep = grep -E ,語(yǔ)法與grep相同

(二)擴(kuò)展正則表達(dá)式元字符

  • 擴(kuò)展正則表達(dá)式與基本正則表達(dá)式的語(yǔ)法基本相同,僅部分元字符刪減了\符號(hào)
  • 字符匹配,擴(kuò)展正則表達(dá)式字符匹配元字符與基本正則表達(dá)式相同
.       <!--任意單個(gè)字符-->
[]      <!--指定范圍的字符-->
[^]     <!--不在指定范圍的字符-->
  • 匹配次數(shù)
*         <!--匹配前面字符任意次-->
?         <!--0或1次,比基本正則表達(dá)式省略了\-->
+         <!--1次或多次,比基本正則表達(dá)式省略了\-->
{m}       <!--匹配m次,比基本正則表達(dá)式省略了\-->
{m,n}     <!--至少m,至多n次,比基本正則表達(dá)式省略了\-->
  • 位置錨定,擴(kuò)展正則表達(dá)式位置錨定元字符與基本正則表達(dá)式相同
^          <!--行首錨定-->
$          <!--行尾錨定-->
\<, \b     <!--詞首錨定-->
\>, \b     <!--語(yǔ)尾錨定-->
  • 分組、或者
()             <!--分組,比基本正則表達(dá)式省略了\-->
\1, \2,...     <!--后向引用-->
abc|cd         <!--abc或者cd,比基本正則表達(dá)式省略了\-->
a|bc           <!--a或者bc,比基本正則表達(dá)式省略了\-->
(a|b)c         <!--ac或者bc,比基本正則表達(dá)式省略了\-->
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 概念 正則表達(dá)式,又稱(chēng)正規(guī)表示式、正規(guī)表示法、正規(guī)表達(dá)式、規(guī)則表達(dá)式、常規(guī)表示法(英語(yǔ):Regular Expre...
    dxldeng閱讀 2,663評(píng)論 0 2
  • Linux文件處理三劍客 grep : 文本過(guò)濾工具支持基礎(chǔ)正則表達(dá)式-E 支持?jǐn)U展正則表達(dá)式-F 支持快遞過(guò)濾(...
    魏鎮(zhèn)坪閱讀 732評(píng)論 0 1
  • 接觸Linux已經(jīng)三周了,小編我慢慢地開(kāi)始上手了。 現(xiàn)在隆重介紹grep大神及其兄弟正則表達(dá)式。 當(dāng)當(dāng)當(dāng)當(dāng),g...
    優(yōu)果馥斯閱讀 936評(píng)論 0 0
  • grep Linux上文本出來(lái)三劍客grep:文本過(guò)濾(模式:pattern)工具;grep ,egrep ,fg...
    數(shù)據(jù)革命閱讀 1,405評(píng)論 0 0
  • 我認(rèn)為善是人的天性,因?yàn)橄矏偸且粋€(gè)人與生俱來(lái)卻在后來(lái)被遺棄最后又重新追求回來(lái)的美好情感,而做善事是另人由衷喜悅的過(guò)...
    yadie閱讀 1,058評(píng)論 1 2

友情鏈接更多精彩內(nèi)容