Overview
在對氨基酸序列進行機器學習建模時,需要對氨基酸序列做特征提取,越豐富的特征通常可以帶來越精準的預測結(jié)果,因此可以由原始的氨基酸序列預測出蛋白質(zhì)的2級結(jié)構(gòu),水溶性等,豐富特征提取時的特征。
SCRATCH作為UCI開發(fā)的一個套件包,提供了多種不同的蛋白質(zhì)預測功能,這些預測器被打包成一個集成的套件安裝包SCRATCH-1D (SCRATCH ?Suite of One-Dimensional Predictors)。
·SSproRelease 5.2 Protein secondary structure prediction ??(3-class)
·SSpro8Release 5.2 Protein secondary structure prediction ?(8-class)
·ACCproRelease 5.2 Protein relative solvent accessibility ?prediction (at the 25% threshold)
·ACCpro20Release 5.2 Protein relative solvent accessibility?prediction (thresholds 0% to 95%)
·PROFILproRelease 1.1 Protein evolutionary information / sequence ?profiles for 1D predictors
·HOMOLproRelease 1.1 Homology-based secondary structure &?solvent accessibility prediction
·1D-BRNNRelease 3.3 One-dimensional bidirectional recurrent?neural networks
上面文檔對于這些軟件的說明非常清晰明了,這里就不再一一解釋。
實際上,SCRATCH-1D還包含了一個BLAST包(BLAST也是PSIPRED運行所需要的安裝包,同樣由UCI開發(fā)),版本號為blast-2.2.26,32位。官方的文檔中也對這個包進行了說明:
The linux 32 bit version of blast is delivered
by default in the 'pkg'sub-folder of the package for a better compatibility with most
operatingsystems. If this version of blast is not compatible with your
operatingsystem or for improved performances on 64 bit systems, please
downloadthe blast version matching your operating system at:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/
and replace the version provided in the
package by the downloaded onewithout changing the installation folder name (even the release
number).
如果自帶的這個BLAST包不兼容或者需要64位的版本,可以自行去上面的網(wǎng)站上下載。
1.?下載SCRATCH-1D
可以通過訪問UCI的官方下載頁面http://download.igb.uci.edu/,找到SCRATCH-1D release 1.1(linux
version, 2.7 GB)去下載,后面的installation
instructions和documentation就是本文參考的官方說明和安裝文檔。
2.?安裝SCRATCH-1D
參照installation
instructions上面的步驟,可以很容易地安裝。
1. 將下載的SCRATCH-1D_1.1.tar.gz壓縮包解壓,解壓后文件夾為SCRATCH-1D_1.1。
tar -xvzf ??SCRATCH-1D_1.1.tar.gz
2. 進入SCRATCH-1D_1.1。
cd SCRATCH-1D_1.1
3.運行SCRATCH-1D_1.1目錄下的安裝腳本install.pl。
perl install.pl
這時命令行輸出會提示安裝成功,并給出如何驗證以及運行SCRATCH-1D。
3.驗證SCRATCH-1D
在SCRATCH-1D_1.1中有一個doc文件夾,里面提供了一個測試輸入文件test.fasta,以及正確運行程序后應該有的四個輸出文件test.hom.ss,
test.hom.ss8,test.hom.acc,test.hom.acc20。
1.假設現(xiàn)在位于SCRATCH-1D文件夾下,首先進入doc文件夾。
cd doc
2.在這里運行SCRATCH-1D:
? ../bin/run_SCRATCH-1D_predictors.sh ?test.fasta test.out 1
3.這里調(diào)用的是SCRATCH-1D/bin目錄下的run_SCRATCH-1D_predictors.sh運行腳本,輸入文件為test.fasta,輸出文件為test.out.*的文件,最后的參數(shù)1是程序運行的線程數(shù),如果你的電腦不少于4核,這個數(shù)字可以改為4。
4.到這里為止,本來是應該驗證成功,結(jié)束。但是如果你的計算機是64位,無論是64位的mac,還是64位的linux,都會在運行SCRATCH-1D時報以下錯誤:
?[SCRATCH-1D_predictions.pl] generating sequence profiles...?
? chmod: /Users/wangjiawei/Bioinformatics/Softwares/SCRATCH-1D_1.1/tmp/20150917-214412-150982209579/dataset.pro:
? ?No such file or directory
[SCRATCH-1D_predictions.pl] ?failed generating sequence profiles...
5.原因在于SCRATCH-1D的運行需要調(diào)用BLAST,上面已經(jīng)提到過,SCRATCH-1D已經(jīng)自帶了一個32位版本的blast-2.2.26,位于文件夾SCRATCH-1D_1.1/pkg/中。
在SCRATCH-1D的運行中,需要調(diào)用SCRATCH-1D_1.1/pkg/bin/中的可執(zhí)行程序blastpgp(關(guān)于blastpgp程序的詳細信息請查看這里),這個32位的程序在64位系統(tǒng)中不兼容,所以需要手動下載一個正確的BLAST版本來替換SCRATCH-1D_1.1/pkg/中的blast-2.2.26。
下面我們依然選擇下載一個2.2.26版本的BLAST,對于mac和64位的linux,有兩個不同的版本下載,點擊網(wǎng)址ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.26/
? 對于Mac用戶:
下載blast-2.2.26-universal-macosx.tar.gz
? 對于64位Linux用戶:
下載blast-2.2.26-x64-linux.tar.gz
下載完之后解壓縮,就會得到一個blast-2.2.26文件夾,用這個文件夾替換SCRATCH-1D_1.1/pkg/中的blast-2.2.26文件夾就可以了。
6. ?到這里就真的可以正常使用了,進入SCRATCH-1D_1.1/doc/,運行SCRATCH-1D去分析doc中的test.fasta文件
../bin/run_SCRATCH-1D_predictors.sh
test.fasta test.out
7.命令行輸出以下信息:

8.run_SCRATCH-1D_predictors.sh的第一個參數(shù)是要輸入的fasta序列文件,test.out是輸出結(jié)果的前綴,../bin/run_SCRATCH-1D_predictors.sh test.fasta test.out共產(chǎn)生四個結(jié)果文件,分別是test.out.ss,test.out.ss8,test.out.acc,test.out.acc20。
SCRATCH-1D同樣在doc文件夾中提供了test.fasta分析結(jié)果的標準結(jié)果,可以用來檢查我們自己剛才的結(jié)果是否正確,與上面四個一一對應的是test.hom.ss,test.hom.ss8,test.hom.acc,test.hom.acc20。
9.這里我們檢查下生成的四個結(jié)果是否與系統(tǒng)提供的標準結(jié)果一致,以test.out.ss為例,我們可以手動檢查test.out.ss與test.hom.ss是不是一樣,也可以通過diff命令查看,diff命令會將兩個文件逐行比較,并列出內(nèi)容不同的行。
diff test.hom.acc ? ?test.out.acc
10.結(jié)果輸出為空,說明兩者完全一致。
到這里,SCRATCH-1D的安裝就結(jié)束了。
4.使用SCRATCH-1D
其實從上面的文字已經(jīng)可以看出來,SCRATCH-1D是通過SCRATCH-1D_1.1/bin/中的run_SCRATCH-1D_predictors.sh腳本運行的。
任何時候,查看腳本的--help選項總是好的,進入*SCRATCH-1D_1.1/bin/,運行下列命令:
./run_SCRATCH-1D_predictors.sh ??--help
系統(tǒng)就會列出該腳本的使用方式:
Usage :?./run_SCRATCH-1D_predictors.sh input_fasta? out_prefix ? ?[num_threads]
非常的簡單易用,只需要指定輸入的fasta文件,輸出文件前綴,以及一個可選的線程數(shù),num_threads依據(jù)你電腦的實際CPU內(nèi)核數(shù)指定即可。
程序的整體運行還是比較耗時的,以下面的配置為例:
2處理器2.8 GHz Intel Core i5
內(nèi)存8 GB 1600 MHz DDR3
運行系統(tǒng)的示例文件(包含4條序列),大約花了10分鐘。
參考文獻:
本文轉(zhuǎn)載自:? http://chris.nohup.cc/article/84/