轉(zhuǎn)載:
http://hi.baidu.com/phps/blog/item/84c44a4a5211a22608f7efc6.html
使用truss、strace或ltrace診斷軟件問(wèn)題
進(jìn)程無(wú)法啟動(dòng),軟件運(yùn)行速度突然變慢,程序的"Segment Fault"等等都是讓每個(gè)Unix系統(tǒng)用戶(hù)頭痛的問(wèn)題,本文通過(guò)三個(gè)實(shí)際案例演示如何使用truss、strace和ltrace這三個(gè)常用的調(diào)試工具來(lái)快速診斷軟件的"疑難雜癥"。
truss和strace用來(lái)跟蹤一個(gè)進(jìn)程的系統(tǒng)調(diào)用或信號(hào)產(chǎn)生的情況,而 ltrace用來(lái)跟蹤進(jìn)程調(diào)用庫(kù)函數(shù)的情況。truss是早期為System V R4開(kāi)發(fā)的調(diào)試程序,包括Aix、FreeBSD在內(nèi)的大部分Unix系統(tǒng)都自帶了這個(gè)工具;而strace最初是為SunOS系統(tǒng)編寫(xiě)的,ltrace最早出現(xiàn)在GNU/Debian Linux中。這兩個(gè)工具現(xiàn)在也已被移植到了大部分Unix系統(tǒng)中,大多數(shù)Linux發(fā)行版都自帶了strace和ltrace,而FreeBSD也可通過(guò)Ports安裝它們。
你不僅可以從命令行調(diào)試一個(gè)新開(kāi)始的程序,也可以把truss、strace或ltrace綁定到一個(gè)已有的PID上來(lái)調(diào)試一個(gè)正在運(yùn)行的程序。三個(gè)調(diào)試工具的基本使用方法大體相同,下面僅介紹三者共有,而且是最常用的三個(gè)命令行參數(shù):
-f :除了跟蹤當(dāng)前進(jìn)程外,還跟蹤其子進(jìn)程。
-o file :將輸出信息寫(xiě)到文件file中,而不是顯示到標(biāo)準(zhǔn)錯(cuò)誤輸出(stderr)。
-p pid :綁定到一個(gè)由pid對(duì)應(yīng)的正在運(yùn)行的進(jìn)程。此參數(shù)常用來(lái)調(diào)試后臺(tái)進(jìn)程。
使用上述三個(gè)參數(shù)基本上就可以完成大多數(shù)調(diào)試任務(wù)了,下面舉幾個(gè)命令行例子:
truss -o ls.truss ls -al: 跟蹤ls -al的運(yùn)行,將輸出信息寫(xiě)到文件/tmp/ls.truss中。
strace -f -o vim.strace vim: 跟蹤vim及其子進(jìn)程的運(yùn)行,將輸出信息寫(xiě)到文件vim.strace。
ltrace -p 234: 跟蹤一個(gè)pid為234的已經(jīng)在運(yùn)行的進(jìn)程。
三個(gè)調(diào)試工具的輸出結(jié)果格式也很相似,以strace為例:
brk(0)=0x8062aa8brk(0x8063000)=0x8063000mmap2(NULL,4096,PROT_READ,MAP_PRIVATE,3,0x92f)=0x40016000
每一行都是一條系統(tǒng)調(diào)用,等號(hào)左邊是系統(tǒng)調(diào)用的函數(shù)名及其參數(shù),右邊是該調(diào)用的返回值。 truss、strace和ltrace的工作原理大同小異,都是使用ptrace系統(tǒng)調(diào)用跟蹤調(diào)試運(yùn)行中的進(jìn)程,詳細(xì)原理不在本文討論范圍內(nèi),有興趣可以參考它們的源代碼。
舉兩個(gè)實(shí)例演示如何利用這三個(gè)調(diào)試工具診斷軟件的"疑難雜癥":
案例一:運(yùn)行clint出現(xiàn)Segment Fault錯(cuò)誤
操作系統(tǒng):FreeBSD-5.2.1-release
clint是一個(gè)C++靜態(tài)源代碼分析工具,通過(guò)Ports安裝好之后,運(yùn)行:
# clint foo.cppSegmentation fault (core dumped)
在Unix系統(tǒng)中遇見(jiàn)"Segmentation Fault"就像在MS Windows中彈出"非法操作"對(duì)話框一樣令人討厭。OK,我們用truss給clint"把把脈":
# truss -f -o clint.truss clintSegmentation fault (core dumped)# tail clint.truss? 739: read(0x6,0x806f000,0x1000)? ? ? ? ? ? ? = 4096 (0x1000)? 739: fstat(6,0xbfbfe4d0)? ? ? ? ? ? ? ? ? ? ? = 0 (0x0)? 739: fcntl(0x6,0x3,0x0)? ? ? ? ? ? ? ? ? ? ? ? = 4 (0x4)? 739: fcntl(0x6,0x4,0x0)? ? ? ? ? ? ? ? ? ? ? ? = 0 (0x0)? 739: close(6)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? = 0 (0x0)? 739: stat("/root/.clint/plugins",0xbfbfe680)? ERR#2 'No such file or directory'SIGNAL 11SIGNAL 11Process stopped because of:? 16process exit, rval = 139
我們用truss跟蹤clint的系統(tǒng)調(diào)用執(zhí)行情況,并把結(jié)果輸出到文件clint.truss,然后用tail查看最后幾行。注意看clint執(zhí)行的最后一條系統(tǒng)調(diào)用(倒數(shù)第五行):stat("/root/.clint/plugins",0xbfbfe680) ERR#2 'No such file or directory',問(wèn)題就出在這里:clint找不到目錄"/root/.clint/plugins",從而引發(fā)了段錯(cuò)誤。怎樣解決?很簡(jiǎn)單:mkdir -p /root/.clint/plugins,不過(guò)這次運(yùn)行clint還是會(huì)"Segmentation Fault"9。繼續(xù)用truss跟蹤,發(fā)現(xiàn)clint還需要這個(gè)目錄"/root/.clint/plugins/python",建好這個(gè)目錄后clint終于能夠正常運(yùn)行了。
案例二:vim啟動(dòng)速度明顯變慢
操作系統(tǒng):FreeBSD-5.2.1-release
vim版本為6.2.154,從命令行運(yùn)行vim后,要等待近半分鐘才能進(jìn)入編輯界面,而且沒(méi)有任何錯(cuò)誤輸出。仔細(xì)檢查了.vimrc和所有的vim腳本都沒(méi)有錯(cuò)誤配置,在網(wǎng)上也找不到類(lèi)似問(wèn)題的解決辦法,難不成要hacking source code?沒(méi)有必要,用truss就能找到問(wèn)題所在:
# truss -f -D -o vim.truss vim
這里-D參數(shù)的作用是:在每行輸出前加上相對(duì)時(shí)間戳,即每執(zhí)行一條系統(tǒng)調(diào)用所耗費(fèi)的時(shí)間。我們只要關(guān)注哪些系統(tǒng)調(diào)用耗費(fèi)的時(shí)間比較長(zhǎng)就可以了,用less仔細(xì)查看輸出文件vim.truss,很快就找到了疑點(diǎn):
735:0.000021511socket(0x2,0x1,0x0)=4(0x4)735:0.000014248setsockopt(0x4,0x6,0x1,0xbfbfe3c8,0x4)=0(0x0)735:0.000013688setsockopt(0x4,0xffff,0x8,0xbfbfe2ec,0x4)=0(0x0)735:0.000203657connect(0x4,{AF_INET10.57.18.27:6000},16)ERR#61'Connection refused'735:0.000017042close(4)=0(0x0)735:1.009366553nanosleep(0xbfbfe468,0xbfbfe460)=0(0x0)735:0.000019556socket(0x2,0x1,0x0)=4(0x4)735:0.000013409setsockopt(0x4,0x6,0x1,0xbfbfe3c8,0x4)=0(0x0)735:0.000013130setsockopt(0x4,0xffff,0x8,0xbfbfe2ec,0x4)=0(0x0)735:0.000272102connect(0x4,{AF_INET10.57.18.27:6000},16)ERR#61'Connection refused'735:0.000015924close(4)=0(0x0)735:1.009338338nanosleep(0xbfbfe468,0xbfbfe460)=0(0x0)
vim試圖連接10.57.18.27這臺(tái)主機(jī)的6000端口(第四行的connect()),連接失敗后,睡眠一秒鐘繼續(xù)重試(第6行的nanosleep())。以上片斷循環(huán)出現(xiàn)了十幾次,每次都要耗費(fèi)一秒多鐘的時(shí)間,這就是vim明顯變慢的原因。可是,你肯定會(huì)納悶:"vim怎么會(huì)無(wú)緣無(wú)故連接其它計(jì)算機(jī)的6000端口呢?"。問(wèn)得好,那么請(qǐng)你回想一下6000是什么服務(wù)的端口?沒(méi)錯(cuò),就是X Server。看來(lái)vim是要把輸出定向到一個(gè)遠(yuǎn)程X Server,那么Shell中肯定定義了DISPLAY變量,查看.cshrc,果然有這么一行:setenv DISPLAY ${REMOTEHOST}:0,把它注釋掉,再重新登錄,問(wèn)題就解決了。
案例三:用調(diào)試工具掌握軟件的工作原理
操作系統(tǒng):Red Hat Linux 9.0
用調(diào)試工具實(shí)時(shí)跟蹤軟件的運(yùn)行情況不僅是診斷軟件"疑難雜癥"的有效的手段,也可幫助我們理清軟件的"脈絡(luò)",即快速掌握軟件的運(yùn)行流程和工作原理,不失為一種學(xué)習(xí)源代碼的輔助方法。下面這個(gè)案例展現(xiàn)了如何使用strace通過(guò)跟蹤別的軟件來(lái)"觸發(fā)靈感",從而解決軟件開(kāi)發(fā)中的難題的。
大家都知道,在進(jìn)程內(nèi)打開(kāi)一個(gè)文件,都有唯一一個(gè)文件描述符(fd:file descriptor)與這個(gè)文件對(duì)應(yīng)。而本人在開(kāi)發(fā)一個(gè)軟件過(guò)程中遇到這樣一個(gè)問(wèn)題:已知一個(gè)fd ,如何獲取這個(gè)fd所對(duì)應(yīng)文件的完整路徑?不管是Linux、FreeBSD或是其它Unix系統(tǒng)都沒(méi)有提供這樣的API,怎么辦呢?我們換個(gè)角度思考:Unix下有沒(méi)有什么軟件可以獲取進(jìn)程打開(kāi)了哪些文件?如果你經(jīng)驗(yàn)足夠豐富,很容易想到lsof,使用它既可以知道進(jìn)程打開(kāi)了哪些文件,也可以了解一個(gè)文件被哪個(gè)進(jìn)程打開(kāi)。好,我們用一個(gè)小程序來(lái)試驗(yàn)一下lsof,看它是如何獲取進(jìn)程打開(kāi)了哪些文件。
/* testlsof.c */#include#include#include#include#includeintmain(void){open("/tmp/foo",O_CREAT|O_RDONLY);/* 打開(kāi)文件/tmp/foo */sleep(1200);/* 睡眠1200秒,以便進(jìn)行后續(xù)操作 */return0;}
將testlsof放入后臺(tái)運(yùn)行,其pid為3125。命令lsof -p 3125查看進(jìn)程3125打開(kāi)了哪些文件,我們用strace跟蹤lsof的運(yùn)行,輸出結(jié)果保存在lsof.strace中:
# gcc testlsof.c -o testlsof# ./testlsof &[1]3125# strace -o lsof.strace lsof -p 3125我們以"/tmp/foo"為關(guān)鍵字搜索輸出文件lsof.strace,結(jié)果只有一條:# grep '/tmp/foo'lsof.stracereadlink("/proc/3125/fd/3","/tmp/foo",4096)=8
原來(lái)lsof巧妙的利用了/proc/nnnn/fd/目錄(nnnn為pid):Linux內(nèi)核會(huì)為每一個(gè)進(jìn)程在/proc/建立一個(gè)以其pid為名的目錄用來(lái)保存進(jìn)程的相關(guān)信息,而其子目錄fd保存的是該進(jìn)程打開(kāi)的所有文件的fd。目標(biāo)離我們很近了。好,我們到/proc/3125/fd/看個(gè)究竟:
# cd/proc/3125/fd/# ls-ltotal0lrwx------1root? ? root64Nov509:500->/dev/pts/0lrwx------1root? ? root64Nov509:501->/dev/pts/0lrwx------1root? ? root64Nov509:502->/dev/pts/0lr-x------1root? ? root64Nov509:503->/tmp/foo# readlink/proc/3125/fd/3/tmp/foo
答案已經(jīng)很明顯了:/proc/nnnn/fd/目錄下的每一個(gè)fd文件都是符號(hào)鏈接,而此鏈接就指向被該進(jìn)程打開(kāi)的一個(gè)文件。我們只要用readlink()系統(tǒng)調(diào)用就可以獲取某個(gè)fd對(duì)應(yīng)的文件了,代碼如下:
include
include
include
include
include
include
int get_pathname_from_fd(int fd, char pathname[], int n)
{
char buf[1024];
pid_t? pid;
bzero(buf, 1024);
pid = getpid();
snprintf(buf, 1024, "/proc/%i/fd/%i", pid, fd);
return readlink(buf, pathname, n);
}
int main(void)
{
int fd;
char pathname[4096];
bzero(pathname, 4096);
fd = open("/tmp/foo", O_CREAT|O_RDONLY);
get_pathname_from_fd(fd, pathname, 4096);
printf("fd=%d; pathname=%sn", fd, pathname);
return 0;
}
出于安全方面的考慮,在FreeBSD 5 之后系統(tǒng)默認(rèn)已經(jīng)不再自動(dòng)裝載proc文件系統(tǒng),因此,要想使用truss或strace跟蹤程序,你必須手工裝載proc文件系統(tǒng):mount -t procfs proc /proc;或者在/etc/fstab中加上一行:
proc? ? ? ? ? ? ? ? ? /proc? ? ? ? ? procfs? rw? ? ? ? ? ? ? 0? ? ? 0
lsof 顯示進(jìn)程打開(kāi)的文件
lslk 顯示進(jìn)程鎖定的文件
strace 調(diào)試及跟蹤 , 對(duì)進(jìn)程有 strace /truss 等
od 輸出文件的內(nèi)容
作者:Joncc
鏈接:http://www.itdecent.cn/p/5c7b735fc9c5
來(lái)源:簡(jiǎn)書(shū)
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。