快速計算基因表達軟件:Salmon

我們常見的轉錄組表達分析一般都是將reads比對至參考基因組或者轉錄組上,然后在基因或者轉錄本水平上定量表達豐度。

但最近在做小RNA分析時卻遇到了沒有參考基因組注釋文件(gtf/gff文件)的情況,而注釋文件的缺失則意味傳統(tǒng)的轉錄組定量分析是無法進行的。那在缺少注釋文件的情況下,該如何進行定量分析呢?在各種搜索后發(fā)現(xiàn)了一款無需mapping便可進行定量的軟件——Salmon。

一、基本情況

Salmon軟件于2017年發(fā)表在Nature Methods,其題目為《Salmon provides fast and bias-aware quantification of transcript expression》

摘要

Salmon 提供2種運行模式,一是quasi-mapping直接讀取 reads 文件;二是讀取比對文件 sam/bam 進行mapping。

1、quasi-mapping-based mode的運行有兩階段:構建索引和用戶想要定量的reads文件。
2、alignment-based mode的運行則不需要構建索引,而是僅需提供一個轉錄本的 FASTA文件和用戶想要定量的 SAM/BAM 文件。

二、軟件使用:

1、quasi-mapping-based mode

構建索引:
salmon index -t transcripts.fa -i transcripts_index -k 31
參數(shù)說明:
-t:轉錄本的fasta文件

-i:輸出目錄

-k:K-mers,默認值為31
#如果你的reads大于75bp,那么k設置為31是較好的選擇,如果reads低于75可略微減少K值

名詞解釋:
簡單來說,k-mer是一段長度為k的序列,而后面的mer即為monomeric unit(單體單元),也就是每個堿基。因k-mer包含k個堿基,若一段核酸序列長度為L,以一個堿基為步長滑動,那么根據(jù)這個核酸序列就可以得到L-k+1個k-mer;由于每個位點的堿基可以為(A、T、C、G)中的任意一個,因此k-mer理論上說有個不同的序列。原本一條長片段,就變成了很多短的片段,因此計算機處理的堿基數(shù)量也會增加很多倍。而且,每次取k-mer是同一條reads正反取兩次,這就是對這條reads的反向互補序列再取一次k-mer。下面的圖就形象化了這一過程,長度為15的序列,選取k-mer為5,那么就會得到11(15-5+1=11)個5-mer。

定量分析:
#雙端測序數(shù)據(jù)reads表達量的估計
salmon quant -i transcripts_index -l <LIBTYPE> -1 reads1.fq -2 reads2.fq -o transcripts_quant

#單端測序數(shù)據(jù)reads表達量的估計
salmon quant -i transcripts_index -l <LIBTYPE> -r reads.fq -o transcripts_quant
參數(shù)說明:
-1/2:雙端數(shù)據(jù)
-r:單端數(shù)據(jù)
-l:--libType,測序文庫類型,一般不知道什么文庫的話用參數(shù) A 讓軟件自動檢測
#I = inward
#O = outward
#M = matching
#S = stranded
#U = unstranded
#F = read 1 (or single-end read) comes from the forward strand
#R = read 1 (or single-end read) comes from the reverse strand
#A = automatically determine

2、alignment-based mode

該模式下無需創(chuàng)建索引
salmon quant -t transcripts.fa -l <LIBTYPE> -a aln.bam -o salmon_quant

3、輸出文件
主要輸出文件為quant.sf,該文件共有5列,分別是Name,Length ,EffectiveLength,TPM和NumReads。

  • Name — target transcript 名稱, 由輸入的 transcript database (FASTA file)所提供。
  • Length — target transcript 長度,即有多少個核苷酸
  • EffectiveLength — target transcript 計算的有效長度。此項考慮了所有被建模的因素,這將影響從這個轉錄本中取樣片段的概率,包括片段長度分布和序列特異性和gc片段偏差(如果這些因素在建模時均被考慮的話)。 (It takes into account all factors being modeled that will effect the probability of sampling fragments from this transcript, including the fragment length distribution and sequence-specific and gc-fragment bias (if they are being modeled))。
  • TPM — 估計轉錄本的表達量。
  • NumReads — 估計比對到每個轉錄本的reads數(shù)。

其他輸出文件:
cmd_info.json: JSON格式文件,記錄salmon程序運行的命令和參數(shù)
lib_format_counts.json: Observed library format counts。當運行salmon是 mapping-based mode時,則會生成改文件。 JSON格式文件,記錄有關文庫格式和reads比對的情況。
eq_classes.txt: Equivalence class file。當Salmon運行時,應用參數(shù)--dumpEq,則會生成此文件。
aux_info: 輔助文件夾,內含多個文件
fld.gz:在輔助文件夾中,該文件記錄的是觀察到的片段長度分布的近似值
obs5_seq.gz, obs3_seq.gz, exp5_seq.gz, exp5_seq.gz: Sequence-specific bias files
expected_gc.gz, observed_gc.gz: 當Salmon運行時,應用fragment-GC bias correction,在輔助文件夾中則會生成這兩個文件。記錄Fragment-GC bias。
meta_info.json: JSON格式文件,記錄salmon程序運行的統(tǒng)計信息
ambig_info.tsv: tab分隔符的文本文件,含有兩列。記錄的是每個轉錄本對應的 the number of uniquely-mapping reads 和 the total number of ambiguously-mapping reads

三、補充

TPM:

Transcripts Per Kilobase of exonmodel per Million mapped reads (每千個堿基的轉錄每百萬映射讀取的Transcripts),優(yōu)化的RPKM計算方法,可以用于同一物種不同組織的比較。
TPM概括了基因的長度、表達量和基因數(shù)目。TPM可以用于同一物種不同組織間的比較,因為sum值總是唯一的。

計算公式:PMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
其中:Ni:mapping到基因i上的read數(shù); Li:基因i的外顯子長度的總和

http://blog.sciencenet.cn/blog-1113671-1038659.html

參考:

https://www.bioinfo-scrounger.com/archives/411/
Salmon 進行轉錄本定量http://www.itdecent.cn/p/f62fd85113d3
tximport 將 Salmon 定量結果導入 DESeq2http://www.itdecent.cn/p/e0acb957b351
salmon分析RNA-seq實戰(zhàn)http://www.itdecent.cn/p/5ffbe89d3b6b

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容