文本處理工具

1. 抽取文本的工具

? 文件內(nèi)容:less和 cat
? 文件截?。篽ead和tail
? 按列抽?。篶ut
? 按關(guān)鍵字抽?。篻rep

2.分析文本的工具

 文本數(shù)據(jù)統(tǒng)計(jì):wc
 整理文本:sort
 比較文件:diff和patch*

3.Linux文本處理三劍客

grep:文本過(guò)濾(模式:pattern)工具
      grep, egrep, fgrep(不支持正則表達(dá)式搜索)
sed:stream editor,文本編輯工具
awk:Linux上的實(shí)現(xiàn)gawk,文本報(bào)告生成器*

4. 文件查看命令:cat, tac,rev

cat [OPTION]... [FILE]...(主要查看文本文件(可打印的字符))
-E: 顯示行結(jié)束符$
-n: 對(duì)顯示出的每一行進(jìn)行編號(hào)
-A:顯示所有控制符
-b:非空行編號(hào)
-s:壓縮連續(xù)的空行成一行

  • tac文件相反輸出
  • rev 每行相反輸出


    Paste_Image.png

    Paste_Image.png

    Paste_Image.png

    Paste_Image.png

5.分頁(yè)查看文件內(nèi)容

more: 分頁(yè)查看文件
more [OPTIONS...] FILE...
-d: 顯示翻頁(yè)及退出提示
?

less:一頁(yè)一頁(yè)地查看文件或STDIN輸出
查看時(shí)有用的命令包括:
/ 文本 搜索 文本
n/N跳到下一個(gè) 或 上一個(gè)匹配
less 命令是man命令使用的分頁(yè)器

Paste_Image.png

6.顯示文本前或后行內(nèi)容

head
head [OPTION]... [FILE]...
-c #: 指定獲取前#字節(jié)
-n #: 指定獲取前#行
- #: 指定行數(shù)

Paste_Image.png

tail
tail [OPTION]... [FILE]...
-c #: 指定獲取后#字節(jié)
-n #: 指定獲取后#行
-#:指定獲取后面多少行
-f: 跟蹤顯示文件新追加的內(nèi)容,常用日志監(jiān)控

Paste_Image.png

7.cut切分

cut [OPTION]... [FILE]...
-d DELIMITER: 指明分隔符,默認(rèn)tab
-f FILEDS:
#: 第#個(gè)字段
#,#[,#]:離散的多個(gè)字段,例如1,3,6
-#-#:連續(xù)的多個(gè)字段, 例如1-6
混合使用:1-3,7
-c:按字符切割
--output-delimiter=STRING指定輸出分隔符

顯示文件或STDIN數(shù)據(jù)的指定列
cut -d: -f1 /etc/passwd
cat /etc/passwd | cut -d: -f7
cut -c2-5 /usr/share/dict/words


Paste_Image.png

Paste_Image.png

8.paste 合并兩個(gè)文件同行號(hào)的列到一行

paste [OPTION]... [FILE]...
-d: 分隔符:指定分隔符,默認(rèn)用TAB
-s : 所有行合成一行顯示
paste f1 f2
paste -s f1 f2

Paste_Image.png

9.收集文本統(tǒng)計(jì)數(shù)據(jù)wc

計(jì)數(shù)單詞總數(shù)、行總數(shù)、字節(jié)總數(shù)和字符總數(shù)
可以對(duì)文件或STDIN中的數(shù)據(jù)運(yùn)行
-l:來(lái)只計(jì)數(shù)行數(shù)
-w:來(lái)只計(jì)數(shù)單詞總數(shù)
-c: 來(lái)只計(jì)數(shù)字節(jié)總數(shù)
-m: 來(lái)只計(jì)數(shù)字符總數(shù)

Paste_Image.png

10 .文本排序sort

把整理過(guò)的文本顯示在STDOUT,不改變?cè)嘉募?br> $ sort [options] file(s)
?常用選項(xiàng)
?-r: 執(zhí)行反方向(由上至下)整理
?-n: 執(zhí)行按數(shù)字大小整理
?-f:選項(xiàng)忽略(fold)字符串中的字符大小寫(xiě)
?-u:選項(xiàng)(獨(dú)特,unique)刪除輸出中的重復(fù)行
?-t:c 選項(xiàng)使用c做為字段界定符
?-k: X 選項(xiàng)按照使用c字符分隔的X列來(lái)整理能夠使用多次

Paste_Image.png

11.uniq

uniq命令:從輸入中刪除前后相接的重復(fù)的行
? uniq [OPTION]... [FILE]...
-c: 顯示每行重復(fù)出現(xiàn)的次數(shù)
-d: 僅顯示重復(fù)過(guò)的行
-u: 僅顯示不曾重復(fù)的行
連續(xù)且完全相同方為重復(fù),常和sort 命令一起配合使用
sort userlist.txt | uniq -c
查看連接本機(jī)IP的次數(shù)

Paste_Image.png

12.diff比較文件

比較兩個(gè)文件之間的區(qū)別
diff file1 file2

$ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no
---
> use_widgets = yes
? 注明第5行有區(qū)別(改變)

13.復(fù)制對(duì)文件改變patch

diff 命令的輸出被保存在一種叫做“補(bǔ)丁”的文件中
使用 -u 選項(xiàng)來(lái)輸出“統(tǒng)一的(unified)”diff格式文 件,最適用于補(bǔ)丁文件。
patch 復(fù)制在其它文件中進(jìn)行的改變(要謹(jǐn)慎使用)
適用 -b 選項(xiàng)來(lái)自動(dòng)備份改變了的文件
$ diff -u foo.conf-broken foo.conf-works > foo.patch
$ patch -b foo.conf-broken foo.patch

14.grep

grep: Global search REgular expression and Print outthe line
作用:文本搜索工具,根據(jù)用戶指定的“模式”對(duì)目標(biāo)文 本逐行進(jìn)行匹配檢查;打印匹配到的行
模式:由正則表達(dá)式字符及文本字符所編寫(xiě)的過(guò)濾條件
grep [OPTIONS] PATTERN [FILE...]

eg:
grep "$USER" /etc/passwd
grep '$USER' /etc/passwd
grep \`whoami` /etc/passwd(反向單引號(hào)可以解釋命令)

grep命令選項(xiàng)
--color=auto: 對(duì)匹配到的文本著色顯示
-v: 顯示不被pattern匹配到的行
-i: 忽略字符大小寫(xiě)
-n:顯示匹配的行號(hào)
-c: 統(tǒng)計(jì)匹配的行數(shù)
-o: 僅顯示匹配到的字符串
-q: 靜默模式,不輸出任何信息 (用echo $?查看,如果是0,則查找到了)
-A #: after, 后#行
-B #: before, 前#行
-C #:context, 前后各#行
-e:實(shí)現(xiàn)多個(gè)選項(xiàng)間的邏輯or關(guān)系 eg:grep –e ‘cat ’ -e ‘dog’ file
-w:匹配整個(gè)單詞
-E:使用ERE
-F:相當(dāng)于fgrep,不支持正則表達(dá)式

15.正則表達(dá)式

REGEXP:由一類特殊字符及文本字符所編寫(xiě)的模式,其中有些字符(元字符)不表示字符字面意義,而表示控制或通配的功能
? 程序支持:grep,sed,awk,vim, less,nginx,varnish等
分兩類:
基本正則表達(dá)式:BRE
擴(kuò)展正則表達(dá)式:ERE
grep -E, egrep
? 正則表達(dá)式引擎:
采用不同算法,檢查處理正則表達(dá)式的軟件模塊
元字符分類:字符匹配、匹配次數(shù)、位置錨定、分組
? man 7 regex

正則表達(dá)式元字符
? 字符匹配:
. 匹配任意單個(gè)字符
[] 匹配指定范圍內(nèi)的任意單個(gè)字符
[^] 匹配指定范圍外的任意單個(gè)字符
[:alnum:] 字母和數(shù)字
[:alpha:] 代表任何英文大小寫(xiě)字符,亦即 A-Z, a-z
[:lower:] 小寫(xiě)字母 [:upper:] 大寫(xiě)字母
[:blank:] 空白字符(空格和制表符)
[:space:]水平和垂直的空白字符(比[:blank:]包含的范圍廣)
[:cntrl:]不可打印的控制字符(退格、刪除、警鈴...)
[:digit:]十進(jìn)制數(shù)字 [:xdigit:]十六進(jìn)制數(shù)字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:]標(biāo)點(diǎn)符號(hào)

Paste_Image.png

Paste_Image.png

正則表達(dá)式
匹配次數(shù):用在要指定次數(shù)的字符后面,用于指定前面的字
符要出現(xiàn)的次數(shù)
\:匹配前面的字符任意次,包括0次
貪婪模式:盡可能長(zhǎng)的匹配
.*:任意長(zhǎng)度的任意字符
\?: 匹配其前面的字符0或1次
\+:匹配其前面的字符至少1次
\{n\}:匹配前面的字符n次
\{m,n\}:匹配前面的字符至少m次,至多n次
\{,n\}:匹配前面的字符至多n次
\{n,\}:匹配前面的字符至少n次

Paste_Image.png

位置錨定:定位出現(xiàn)的位置
^: 行首錨定,用于模式的最左側(cè)
$: 行尾錨定,用于模式的最右側(cè)
^PATTERN$: 用于模式匹配整行
^$:空行
^[[:space:]]*$: 空白行
\< 或 \b:詞首錨定,用于單詞模式的左側(cè)
\> 或 \b: 詞尾錨定;用于單詞模式的右側(cè)
<PATTERN>: 匹配整個(gè)單詞

Paste_Image.png

Paste_Image.png

Paste_Image.png

分組:() 將一個(gè)或多個(gè)字符捆綁在一起,當(dāng)作一個(gè)整體進(jìn)行處理,如:\(root\)\+
分組括號(hào)中的模式匹配到的內(nèi)容會(huì)被正則表達(dá)式引擎記錄于內(nèi)部的變量中,這些變量的命名方式為: \1, \2, \3, ...
\1 表示從左側(cè)起第一個(gè)左括號(hào)以及與之匹配右括號(hào)之間的模式所匹配到的字符

? 示例: \(string1\+\(string2\)\*\)
               \1 :string1\+\(string2\)\*
               \2 :string2

后向引用:引用前面的分組括號(hào)中的模式所匹配字符,而非模式本身 或者:\|

示例:a\|b: a或b C\|cat: C或cat \(C\|c\)at:Cat或cat
Paste_Image.png

Paste_Image.png

Paste_Image.png

Paste_Image.png

15.egrep及擴(kuò)展的正則表達(dá)式

egrep = grep -E
egrep [OPTIONS] PATTERN [FILE...]
(1)字符匹配:
.:任意單個(gè)字符
[ ]:指定范圍的字符
[^]不在指定范圍的字符
(2)次數(shù)匹配:
\*:匹配前面字符任意次
?: 0或1次? 位置錨定:
^ :行首
$:行尾 <, \b :語(yǔ)首 >, \b :語(yǔ)尾
+:1次或多次
{m}:匹配m次
{m,n}:至少m,至多n次
(3)分組:
()
(4)后向引用:
\1,
\2, ...
(5)a|b: a或bC|cat: C或cat(C|c)at:Cat或cat

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容