







BLAST(Basic Local Alignment Search Tool)是一套在蛋白質(zhì)數(shù)據(jù)庫(kù)或DNA數(shù)據(jù)庫(kù)中進(jìn)行相似性比較的分析工具。BLAST程序能迅速與公開(kāi)數(shù)據(jù)庫(kù)進(jìn)行相似性序列比較。BLAST結(jié)果中的得分是對(duì)一種對(duì)相似性的統(tǒng)計(jì)說(shuō)明。
BLAST 采用一種局部的算法獲得兩個(gè)序列中具有相似性的序列。
Blast中常用的程序介紹:
1、BLASTP是蛋白序列到蛋白庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)。
2、BLASTX是核酸序列到蛋白庫(kù)中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會(huì)被翻譯成可能的六條蛋白),再對(duì)每一條作一對(duì)一的蛋白序列比對(duì)。
3、BLASTN是核酸序列到核酸庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。
4、TBLASTN是蛋白序列到核酸庫(kù)中的一種查詢。與BLASTX相反,它是將庫(kù)中的核酸序列翻譯成蛋白序列,再同所查序列作蛋白與蛋白的比對(duì)。
5、TBLASTX是核酸序列到核酸庫(kù)中的一種查詢。此種查詢將庫(kù)中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會(huì)產(chǎn)生6條可能的蛋白序列),這樣每次比對(duì)會(huì)產(chǎn)生36種比對(duì)陣列
使用
BLAST (生物信息學(xué)) - 維基百科,自由的百科全書(shū) (wikipedia.org)
NCBI的在線BLAST:http://blast.ncbi.nlm.nih.gov/Blast.cgi
從BAM文件提取unmapped reads并轉(zhuǎn)換成fastq格式
從BAM文件提取unmapped reads并轉(zhuǎn)換成fastq格式 - 簡(jiǎn)書(shū) (jianshu.com)
cd /home/yifan/project/CZM/lncRNA.m6A/data/Data/4.map-data
提取unmapped.bam
samtools view -b -f 4 LR22A5DH23.raw.bam > LR22A5DH23.unmapped.bam
#需要提取 unmapped reads,使用 -f 4可以保留所有的unmapped read
#這里面包含的reads包括所有paired和 unpaired,如果只想要paired unmapped reads,可以使用 -f 13
#參數(shù)具體參見(jiàn)?http://broadinstitute.github.io/picard/explain-flags.html
bam先排序
samtools sort -n -@ 8 LR22A5DH23.unmapped.bam -o LR22A5DH23.unmapped.sorted.bam
#-n將bam文件改成安裝reads名排序
#?-o FILE 設(shè)置最終排序后的輸出文件名
#?-@ INT 設(shè)置排序和壓縮是的線程數(shù)量,默認(rèn)是單線程
(103條消息) [samtools]sort命令簡(jiǎn)介_(kāi)睿智如水-CSDN博客_samtools sort
轉(zhuǎn)化為fastq
#安裝bedtools
conda install -c bioconda bedtools
conda install -c bioconda/label/cf201901 bedtools
#可使用bedtools的 “bamToFastq”實(shí)現(xiàn)
bedtools bamtofastq [OPTIONS] -i<BAM>-fq<FASTQ>
#convert
bedtools bamtofastq -i LR22A5DH23.unmapped.sorted.bam?-fq out.R1.fq -fq2 out.R2.fq
bedtools bamtofastq -i input.name.bam?-fq out.R1.fq?-fq2 out.R2.fq
#WARNING:? ??is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.
#是因?yàn)閮蓷lreads(/1, /2)只有一條reads比對(duì)成功了,而另一條reads沒(méi)有比對(duì)成功,所以在bam文件中沒(méi)有mate的記錄
#gzip fq壓縮
gzip out.R1.fq
gzip out.R2.fq
#結(jié)果

