使用strace,lstrace,truss來(lái)跟蹤程序的運(yùn)行過(guò)程(linux蹤程序的運(yùn)行過(guò)程)

轉(zhuǎn)載:

http://hi.baidu.com/phps/blog/item/84c44a4a5211a22608f7efc6.html

使用truss、strace或ltrace診斷軟件問(wèn)題

進(jìn)程無(wú)法啟動(dòng),軟件運(yùn)行速度突然變慢,程序的"Segment Fault"等等都是讓每個(gè)Unix系統(tǒng)用戶(hù)頭痛的問(wèn)題,本文通過(guò)三個(gè)實(shí)際案例演示如何使用truss、strace和ltrace這三個(gè)常用的調(diào)試工具來(lái)快速診斷軟件的"疑難雜癥"。

truss和strace用來(lái)跟蹤一個(gè)進(jìn)程的系統(tǒng)調(diào)用或信號(hào)產(chǎn)生的情況,而 ltrace用來(lái)跟蹤進(jìn)程調(diào)用庫(kù)函數(shù)的情況。truss是早期為System V R4開(kāi)發(fā)的調(diào)試程序,包括Aix、FreeBSD在內(nèi)的大部分Unix系統(tǒng)都自帶了這個(gè)工具;而strace最初是為SunOS系統(tǒng)編寫(xiě)的,ltrace最早出現(xiàn)在GNU/Debian Linux中。這兩個(gè)工具現(xiàn)在也已被移植到了大部分Unix系統(tǒng)中,大多數(shù)Linux發(fā)行版都自帶了strace和ltrace,而FreeBSD也可通過(guò)Ports安裝它們。

你不僅可以從命令行調(diào)試一個(gè)新開(kāi)始的程序,也可以把truss、strace或ltrace綁定到一個(gè)已有的PID上來(lái)調(diào)試一個(gè)正在運(yùn)行的程序。三個(gè)調(diào)試工具的基本使用方法大體相同,下面僅介紹三者共有,而且是最常用的三個(gè)命令行參數(shù):

-f :除了跟蹤當(dāng)前進(jìn)程外,還跟蹤其子進(jìn)程。

-o file :將輸出信息寫(xiě)到文件file中,而不是顯示到標(biāo)準(zhǔn)錯(cuò)誤輸出(stderr)。

-p pid :綁定到一個(gè)由pid對(duì)應(yīng)的正在運(yùn)行的進(jìn)程。此參數(shù)常用來(lái)調(diào)試后臺(tái)進(jìn)程。

使用上述三個(gè)參數(shù)基本上就可以完成大多數(shù)調(diào)試任務(wù)了,下面舉幾個(gè)命令行例子:

truss -o ls.truss ls -al: 跟蹤ls -al的運(yùn)行,將輸出信息寫(xiě)到文件/tmp/ls.truss中。

strace -f -o vim.strace vim: 跟蹤vim及其子進(jìn)程的運(yùn)行,將輸出信息寫(xiě)到文件vim.strace。

ltrace -p 234: 跟蹤一個(gè)pid為234的已經(jīng)在運(yùn)行的進(jìn)程。

三個(gè)調(diào)試工具的輸出結(jié)果格式也很相似,以strace為例:

brk(0)=0x8062aa8brk(0x8063000)=0x8063000mmap2(NULL,4096,PROT_READ,MAP_PRIVATE,3,0x92f)=0x40016000

每一行都是一條系統(tǒng)調(diào)用,等號(hào)左邊是系統(tǒng)調(diào)用的函數(shù)名及其參數(shù),右邊是該調(diào)用的返回值。 truss、strace和ltrace的工作原理大同小異,都是使用ptrace系統(tǒng)調(diào)用跟蹤調(diào)試運(yùn)行中的進(jìn)程,詳細(xì)原理不在本文討論范圍內(nèi),有興趣可以參考它們的源代碼。

舉兩個(gè)實(shí)例演示如何利用這三個(gè)調(diào)試工具診斷軟件的"疑難雜癥":

案例一:運(yùn)行clint出現(xiàn)Segment Fault錯(cuò)誤

操作系統(tǒng):FreeBSD-5.2.1-release

clint是一個(gè)C++靜態(tài)源代碼分析工具,通過(guò)Ports安裝好之后,運(yùn)行:

# clint foo.cppSegmentation fault (core dumped)

在Unix系統(tǒng)中遇見(jiàn)"Segmentation Fault"就像在MS Windows中彈出"非法操作"對(duì)話框一樣令人討厭。OK,我們用truss給clint"把把脈":

# truss -f -o clint.truss clintSegmentation fault (core dumped)# tail clint.truss? 739: read(0x6,0x806f000,0x1000)? ? ? ? ? ? ? = 4096 (0x1000)? 739: fstat(6,0xbfbfe4d0)? ? ? ? ? ? ? ? ? ? ? = 0 (0x0)? 739: fcntl(0x6,0x3,0x0)? ? ? ? ? ? ? ? ? ? ? ? = 4 (0x4)? 739: fcntl(0x6,0x4,0x0)? ? ? ? ? ? ? ? ? ? ? ? = 0 (0x0)? 739: close(6)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? = 0 (0x0)? 739: stat("/root/.clint/plugins",0xbfbfe680)? ERR#2 'No such file or directory'SIGNAL 11SIGNAL 11Process stopped because of:? 16process exit, rval = 139

我們用truss跟蹤clint的系統(tǒng)調(diào)用執(zhí)行情況,并把結(jié)果輸出到文件clint.truss,然后用tail查看最后幾行。注意看clint執(zhí)行的最后一條系統(tǒng)調(diào)用(倒數(shù)第五行):stat("/root/.clint/plugins",0xbfbfe680) ERR#2 'No such file or directory',問(wèn)題就出在這里:clint找不到目錄"/root/.clint/plugins",從而引發(fā)了段錯(cuò)誤。怎樣解決?很簡(jiǎn)單:mkdir -p /root/.clint/plugins,不過(guò)這次運(yùn)行clint還是會(huì)"Segmentation Fault"9。繼續(xù)用truss跟蹤,發(fā)現(xiàn)clint還需要這個(gè)目錄"/root/.clint/plugins/python",建好這個(gè)目錄后clint終于能夠正常運(yùn)行了。

案例二:vim啟動(dòng)速度明顯變慢

操作系統(tǒng):FreeBSD-5.2.1-release

vim版本為6.2.154,從命令行運(yùn)行vim后,要等待近半分鐘才能進(jìn)入編輯界面,而且沒(méi)有任何錯(cuò)誤輸出。仔細(xì)檢查了.vimrc和所有的vim腳本都沒(méi)有錯(cuò)誤配置,在網(wǎng)上也找不到類(lèi)似問(wèn)題的解決辦法,難不成要hacking source code?沒(méi)有必要,用truss就能找到問(wèn)題所在:

# truss -f -D -o vim.truss vim

這里-D參數(shù)的作用是:在每行輸出前加上相對(duì)時(shí)間戳,即每執(zhí)行一條系統(tǒng)調(diào)用所耗費(fèi)的時(shí)間。我們只要關(guān)注哪些系統(tǒng)調(diào)用耗費(fèi)的時(shí)間比較長(zhǎng)就可以了,用less仔細(xì)查看輸出文件vim.truss,很快就找到了疑點(diǎn):

735:0.000021511socket(0x2,0x1,0x0)=4(0x4)735:0.000014248setsockopt(0x4,0x6,0x1,0xbfbfe3c8,0x4)=0(0x0)735:0.000013688setsockopt(0x4,0xffff,0x8,0xbfbfe2ec,0x4)=0(0x0)735:0.000203657connect(0x4,{AF_INET10.57.18.27:6000},16)ERR#61'Connection refused'735:0.000017042close(4)=0(0x0)735:1.009366553nanosleep(0xbfbfe468,0xbfbfe460)=0(0x0)735:0.000019556socket(0x2,0x1,0x0)=4(0x4)735:0.000013409setsockopt(0x4,0x6,0x1,0xbfbfe3c8,0x4)=0(0x0)735:0.000013130setsockopt(0x4,0xffff,0x8,0xbfbfe2ec,0x4)=0(0x0)735:0.000272102connect(0x4,{AF_INET10.57.18.27:6000},16)ERR#61'Connection refused'735:0.000015924close(4)=0(0x0)735:1.009338338nanosleep(0xbfbfe468,0xbfbfe460)=0(0x0)

vim試圖連接10.57.18.27這臺(tái)主機(jī)的6000端口(第四行的connect()),連接失敗后,睡眠一秒鐘繼續(xù)重試(第6行的nanosleep())。以上片斷循環(huán)出現(xiàn)了十幾次,每次都要耗費(fèi)一秒多鐘的時(shí)間,這就是vim明顯變慢的原因。可是,你肯定會(huì)納悶:"vim怎么會(huì)無(wú)緣無(wú)故連接其它計(jì)算機(jī)的6000端口呢?"。問(wèn)得好,那么請(qǐng)你回想一下6000是什么服務(wù)的端口?沒(méi)錯(cuò),就是X Server。看來(lái)vim是要把輸出定向到一個(gè)遠(yuǎn)程X Server,那么Shell中肯定定義了DISPLAY變量,查看.cshrc,果然有這么一行:setenv DISPLAY ${REMOTEHOST}:0,把它注釋掉,再重新登錄,問(wèn)題就解決了。

案例三:用調(diào)試工具掌握軟件的工作原理

操作系統(tǒng):Red Hat Linux 9.0

用調(diào)試工具實(shí)時(shí)跟蹤軟件的運(yùn)行情況不僅是診斷軟件"疑難雜癥"的有效的手段,也可幫助我們理清軟件的"脈絡(luò)",即快速掌握軟件的運(yùn)行流程和工作原理,不失為一種學(xué)習(xí)源代碼的輔助方法。下面這個(gè)案例展現(xiàn)了如何使用strace通過(guò)跟蹤別的軟件來(lái)"觸發(fā)靈感",從而解決軟件開(kāi)發(fā)中的難題的。

大家都知道,在進(jìn)程內(nèi)打開(kāi)一個(gè)文件,都有唯一一個(gè)文件描述符(fd:file descriptor)與這個(gè)文件對(duì)應(yīng)。而本人在開(kāi)發(fā)一個(gè)軟件過(guò)程中遇到這樣一個(gè)問(wèn)題:已知一個(gè)fd ,如何獲取這個(gè)fd所對(duì)應(yīng)文件的完整路徑?不管是Linux、FreeBSD或是其它Unix系統(tǒng)都沒(méi)有提供這樣的API,怎么辦呢?我們換個(gè)角度思考:Unix下有沒(méi)有什么軟件可以獲取進(jìn)程打開(kāi)了哪些文件?如果你經(jīng)驗(yàn)足夠豐富,很容易想到lsof,使用它既可以知道進(jìn)程打開(kāi)了哪些文件,也可以了解一個(gè)文件被哪個(gè)進(jìn)程打開(kāi)。好,我們用一個(gè)小程序來(lái)試驗(yàn)一下lsof,看它是如何獲取進(jìn)程打開(kāi)了哪些文件。

/* testlsof.c */#include#include#include#include#includeintmain(void){open("/tmp/foo",O_CREAT|O_RDONLY);/* 打開(kāi)文件/tmp/foo */sleep(1200);/* 睡眠1200秒,以便進(jìn)行后續(xù)操作 */return0;}

將testlsof放入后臺(tái)運(yùn)行,其pid為3125。命令lsof -p 3125查看進(jìn)程3125打開(kāi)了哪些文件,我們用strace跟蹤lsof的運(yùn)行,輸出結(jié)果保存在lsof.strace中:

# gcc testlsof.c -o testlsof# ./testlsof &[1]3125# strace -o lsof.strace lsof -p 3125我們以"/tmp/foo"為關(guān)鍵字搜索輸出文件lsof.strace,結(jié)果只有一條:# grep '/tmp/foo'lsof.stracereadlink("/proc/3125/fd/3","/tmp/foo",4096)=8

原來(lái)lsof巧妙的利用了/proc/nnnn/fd/目錄(nnnn為pid):Linux內(nèi)核會(huì)為每一個(gè)進(jìn)程在/proc/建立一個(gè)以其pid為名的目錄用來(lái)保存進(jìn)程的相關(guān)信息,而其子目錄fd保存的是該進(jìn)程打開(kāi)的所有文件的fd。目標(biāo)離我們很近了。好,我們到/proc/3125/fd/看個(gè)究竟:

# cd/proc/3125/fd/# ls-ltotal0lrwx------1root? ? root64Nov509:500->/dev/pts/0lrwx------1root? ? root64Nov509:501->/dev/pts/0lrwx------1root? ? root64Nov509:502->/dev/pts/0lr-x------1root? ? root64Nov509:503->/tmp/foo# readlink/proc/3125/fd/3/tmp/foo

答案已經(jīng)很明顯了:/proc/nnnn/fd/目錄下的每一個(gè)fd文件都是符號(hào)鏈接,而此鏈接就指向被該進(jìn)程打開(kāi)的一個(gè)文件。我們只要用readlink()系統(tǒng)調(diào)用就可以獲取某個(gè)fd對(duì)應(yīng)的文件了,代碼如下:

include

include

include

include

include

include

int get_pathname_from_fd(int fd, char pathname[], int n)

{

char buf[1024];

pid_t? pid;

bzero(buf, 1024);

pid = getpid();

snprintf(buf, 1024, "/proc/%i/fd/%i", pid, fd);

return readlink(buf, pathname, n);

}

int main(void)

{

int fd;

char pathname[4096];

bzero(pathname, 4096);

fd = open("/tmp/foo", O_CREAT|O_RDONLY);

get_pathname_from_fd(fd, pathname, 4096);

printf("fd=%d; pathname=%sn", fd, pathname);

return 0;

}

出于安全方面的考慮,在FreeBSD 5 之后系統(tǒng)默認(rèn)已經(jīng)不再自動(dòng)裝載proc文件系統(tǒng),因此,要想使用truss或strace跟蹤程序,你必須手工裝載proc文件系統(tǒng):mount -t procfs proc /proc;或者在/etc/fstab中加上一行:

proc? ? ? ? ? ? ? ? ? /proc? ? ? ? ? procfs? rw? ? ? ? ? ? ? 0? ? ? 0

lsof 顯示進(jìn)程打開(kāi)的文件

lslk 顯示進(jìn)程鎖定的文件

strace 調(diào)試及跟蹤 , 對(duì)進(jìn)程有 strace /truss 等

od 輸出文件的內(nèi)容

作者:Joncc

鏈接:http://www.itdecent.cn/p/5c7b735fc9c5

來(lái)源:簡(jiǎn)書(shū)

著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容