cd-hit?是用于蛋白質(zhì)序列或核酸序列聚類的工具,根據(jù)序列的相似度對序列進行聚類以去除冗余的序列,一般用于構(gòu)建非冗余的數(shù)據(jù)集用于后續(xù)的實驗分析。
通常來說,根據(jù)序列相似度對序列進行聚類,首先想到的可能是通過計算兩兩序列之間的相似度對序列進行聚類,這樣需要進行all by all的比較,相對來說比較費時,而?cd-hit?軟件可以避開all by all比較的問題,大大縮短了運行時間。
cd-hit?是一種貪婪的增量聚類方法,首先對輸入的序列根據(jù)序列的長短進行排序,并從最長到最短的順序處理它們。將最長的序列自動的分為第一類并作為第一類的代表序列,然后將剩下的序列與在其之前發(fā)現(xiàn)的代表性序列進行比較,根據(jù)序列相似性將其歸為其中的一類或成為新的一個聚類的代表序列,如此遍歷所有序列完成聚類過程。 在默認(rèn)方式中,序列僅和每一個聚類中的代表性序列(為這類中的最長序列)進行比較而不和這個類中的其他序列進行比對。 在準(zhǔn)確模式下,序列會和每個聚類中的所有序列進行比較然后決定是成為新的一類還是歸為其中的一類中。
https://github.com/weizhongli/cdhit/releases
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.8/cd-hit-v4.6.8-2017-1208-source.tar.gz ## 下載cd-hit
tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz? ## 解壓
cd cd-hit-v4.6.8-2017-1208
make? ## 編譯
cd cd-hit-auxtools
make ## 編譯
## 如果編譯失敗,可以下載二進制版本,解壓就可以使用不用編譯
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-0501-Linux-binary.tar.gz? ## 解壓即用,不用編譯
cd-hit的使用
* cd-hit Cluster peptide sequences
* cd-hit-est Cluster nucleotide sequences
* cd-hit-2d Compare 2 peptide databases
* cd-hit-est-2d Compare 2 nucleotide databases
* psi-cd-hit Cluster proteins at <40% cutoff
* cd-hit-lap Identify overlapping reads
* cd-hit-dup Identify duplicates from single or paired Illumina reads
* cd-hit-454 Identify duplicates from 454 reads
* cd-hit-otu Cluster rRNA tags
* cd-hit-para Cluster sequences in parallel on a computer cluster
* h-cd-hit Hierarchical clustering
1
cd-hit -i db -o db90 -c 0.9 -n 5 -M 16000 –d 0 -T 8
參數(shù)說明
-i 輸入文件,fasta格式的序列
-o 輸出文件路徑和名字
-c 相似性(clustering threshold),0.9表示相似性大于等于90%的為一類
-n 兩兩序列進行序列比對時選擇的 word size
-d 0表示使用 fasta 標(biāo)題中第一個空格前的字段作為序列名字
-M 16000,16GB RAM
-T 使用的線程數(shù)
Choose of word size:
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5
cd-hit?只能完成在40%以上的序列相似性的聚類,假設(shè)要將閾值設(shè)置為30%的相似性則需要兩次聚類并使用psi-cd-hit.pl?腳本才能完成
1
2
cd-hit -i nr -o nr60 -c 0.6 -n 4 -d 0 -M 16000 -T 16 # 先將閾值設(shè)置為60%
psi-cd-hit.pl -i nr60 -o nr30 -c 0.3 # 在用psi-cd-hit完成30%的相似性聚類
1
cd-hit-2d -i db1 -i2 db2 -o db2novel -c 0.9 -n 5 -d 0 -M 16000 -T 8
cd-hit-2d?用于比較兩個數(shù)據(jù)庫中的相似性序列,默認(rèn)識別在 db2 中的序列和 db1 中的序列相似性高于某個閾值的序列,輸入是兩個 fasta 格式的文件,輸出是 db2 中與 db1 不相似的蛋白質(zhì)序列文件和列出 db1 和 db2 之間相似序列的文件,如果想要輸出 db1 中和 db2 中不相似的序列,可以將輸入文件 db1 和 db2 的前后位置進行交換。
1
cd-hit-est -i est_human -o est_human95 -c 0.95 -n 10 -d 0 -M 16000 - T 8
cd-hit-est?的基本用法基本和?cd-hit?相同,只是?cd-hit-est?是用于核酸序列聚類,其中 word size 范圍有點差異
-n 10, 11 for thresholds 0.95 ~ 1.0
-n 8,9 for thresholds 0.90 ~ 0.95
-n 7 for thresholds 0.88 ~ 0.9
-n 6 for thresholds 0.85 ~ 0.88
-n 5 for thresholds 0.80 ~ 0.85
-n 4 for thresholds 0.75 ~ 0.8
1
cd-hit-est-2d -i db1 -i2 db2 -o db2novel -c 0.95 -n 10 -d 0 -M 16000 - T 8
cd-hit-est-2d?的基本用法基本和?cd-hit-2d?相同,只是?cd-hit-est?是用于核酸序列聚類
Limin Fu, Beifang Niu, Zhengwei Zhu, Sitao Wu and Weizhong Li, CD-HIT: accelerated for clustering the next generation sequencing data. Bioinformatics, (2012), 28 (23): 3150-3152.
本文作者:?biolearn
本文鏈接:?https://huifangliu.github.io/2018/08/22/使用cd-hit對蛋白質(zhì)或核酸序列進行聚類/
版權(quán)聲明:?本博客所有文章除特別聲明外,均采用?CC BY-NC-SA 3.0?許可協(xié)議。轉(zhuǎn)載請注明出處!