所有類linux的操作系統(tǒng)都非常依賴于被用于幾種數(shù)據(jù)類型存儲的文本文件。很多人會使用純文本格式來編寫文檔,雖然很容易看到一個小的文本文件對于保存簡單的筆記會很有幫助,但是也有可能用文本格式來編寫大的文檔,一種比較流行的方式就是先用文本格式來編寫一個大的文檔,然后用一種標(biāo)記語言的方式來描述已完成文檔的格式。而linux的文本處理系統(tǒng)位于該項技術(shù)的前列。
目前,最流行的電子文檔類型可能就是網(wǎng)頁了,網(wǎng)頁是文本文檔,它們使用HTML(超文本標(biāo)記語言)或者是XML(可擴展的標(biāo)記語言)作為標(biāo)記語言來描述文檔的可視格式。另外,email是一個基于文本的媒介,為了傳輸,甚至非文本的附件也會被轉(zhuǎn)換成文本表示形式。通過下載一個email信息,然后用less瀏覽它,我們可以看到這條信息始于一個標(biāo)題,其描述了信息的來源以及在傳輸過程中它接受到的處理,然后是信息的正文內(nèi)容。輸出時,會以純文本的格式發(fā)送到打印機。或者頁面包含圖形,其會被轉(zhuǎn)換成一種文本格式的頁面描述語言,以PostScript著稱,然后再發(fā)送給一款能生成圖形點陣的程序,最后被打印出來。
有好多命令的選項可以用來幫助更好的可視化文本內(nèi)容。sort程序?qū)?biāo)準(zhǔn)輸入的內(nèi)容,或命令行中指定的一個或多個文件進行排序,然后把排序結(jié)果發(fā)送到標(biāo)準(zhǔn)輸出。uniq程序執(zhí)行一個看似瑣碎的行為,當(dāng)給定一個排序好的文件(包括標(biāo)準(zhǔn)輸出),uniq會刪除任意重復(fù)行,并且把結(jié)果發(fā)送到標(biāo)準(zhǔn)輸出。uniq常常和sort程序一塊使用,來清理重復(fù)的輸出。cut程序被用來從文本文件中抽取文本,并將其輸出到標(biāo)準(zhǔn)輸出,它能夠接受多個文件參數(shù)或者標(biāo)準(zhǔn)輸入。paste的功能與cut恰恰相反,它會添加一個或多個文本列到文件中,而不是從文件中抽取文本列。
通常比較文本文件的版本是很有幫助的,對于系統(tǒng)管理員和軟件卡法這來說,這個尤為重要。