比對(duì)-NCBI blast








BLAST(Basic Local Alignment Search Tool)是一套在蛋白質(zhì)數(shù)據(jù)庫(kù)或DNA數(shù)據(jù)庫(kù)中進(jìn)行相似性比較的分析工具。BLAST程序能迅速與公開(kāi)數(shù)據(jù)庫(kù)進(jìn)行相似性序列比較。BLAST結(jié)果中的得分是對(duì)一種對(duì)相似性的統(tǒng)計(jì)說(shuō)明。

BLAST 采用一種局部的算法獲得兩個(gè)序列中具有相似性的序列。

Blast中常用的程序介紹:

1、BLASTP是蛋白序列到蛋白庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)。

2、BLASTX是核酸序列到蛋白庫(kù)中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會(huì)被翻譯成可能的六條蛋白),再對(duì)每一條作一對(duì)一的蛋白序列比對(duì)。

3、BLASTN是核酸序列到核酸庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。

4、TBLASTN是蛋白序列到核酸庫(kù)中的一種查詢。與BLASTX相反,它是將庫(kù)中的核酸序列翻譯成蛋白序列,再同所查序列作蛋白與蛋白的比對(duì)。

5、TBLASTX是核酸序列到核酸庫(kù)中的一種查詢。此種查詢將庫(kù)中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會(huì)產(chǎn)生6條可能的蛋白序列),這樣每次比對(duì)會(huì)產(chǎn)生36種比對(duì)陣列

使用

BLAST (生物信息學(xué)) - 維基百科,自由的百科全書(shū) (wikipedia.org)

NCBI的在線BLASThttp://blast.ncbi.nlm.nih.gov/Blast.cgi

從BAM文件提取unmapped reads并轉(zhuǎn)換成fastq格式

從BAM文件提取unmapped reads并轉(zhuǎn)換成fastq格式 - 簡(jiǎn)書(shū) (jianshu.com)

cd /home/yifan/project/CZM/lncRNA.m6A/data/Data/4.map-data

提取unmapped.bam

samtools view -b -f 4 LR22A5DH23.raw.bam > LR22A5DH23.unmapped.bam

#需要提取 unmapped reads,使用 -f 4可以保留所有的unmapped read

#這里面包含的reads包括所有paired和 unpaired,如果只想要paired unmapped reads,可以使用 -f 13

#參數(shù)具體參見(jiàn)?http://broadinstitute.github.io/picard/explain-flags.html

bam先排序

samtools sort -n -@ 8 LR22A5DH23.unmapped.bam -o LR22A5DH23.unmapped.sorted.bam

#-n將bam文件改成安裝reads名排序

#?-o FILE 設(shè)置最終排序后的輸出文件名

#?-@ INT 設(shè)置排序和壓縮是的線程數(shù)量,默認(rèn)是單線程

(103條消息) [samtools]sort命令簡(jiǎn)介_(kāi)睿智如水-CSDN博客_samtools sort

轉(zhuǎn)化為fastq

#安裝bedtools

conda install -c bioconda bedtools

conda install -c bioconda/label/cf201901 bedtools

#可使用bedtools的 “bamToFastq”實(shí)現(xiàn)

bedtools bamtofastq [OPTIONS] -i<BAM>-fq<FASTQ>

#convert

bedtools bamtofastq -i LR22A5DH23.unmapped.sorted.bam?-fq out.R1.fq -fq2 out.R2.fq

bedtools bamtofastq -i input.name.bam?-fq out.R1.fq?-fq2 out.R2.fq

#WARNING:? ??is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.

#是因?yàn)閮蓷lreads(/1, /2)只有一條reads比對(duì)成功了,而另一條reads沒(méi)有比對(duì)成功,所以在bam文件中沒(méi)有mate的記錄

#gzip fq壓縮

gzip out.R1.fq

gzip out.R2.fq

#結(jié)果



?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容