cuffdiff 產(chǎn)出文件說明(cuffdiff工具說明書)

這個文章詳細說明了 cuffdiff 操作過程中各命令意義以及產(chǎn)出的文件代表什么意思,哪些是用于下一步做可視化分析和go富集分析,kegg富集分析等
(ps:markdown寫表格真是災(zāi)難,直接用截圖代替了)

1. Cuffdiff簡介

用于尋找轉(zhuǎn)錄子表達的顯著性差異。

2. Cuffdiff使用方法

cuffdiff主要是發(fā)現(xiàn)轉(zhuǎn)錄本表達,剪接,啟動子使用的明顯變化。

cuffdiff [options]* … [sampleN.sam_replicate1.sam[,…,sample2_replicateM.sam]]

cuffdiff [options]* ...[sampleN_1.sam[,...,sampleN_M.sam]]
其中transcripts.gtf是由cufflinks,cuffcompare,cuffmerge所生成的文件,或是由其它程序生成的。一個樣本有多個replicate,用逗號隔開。sample多于一個時,cuffdiff將比較samples間的基因表達的差異性。 一個常用例子: $ cuffdiff --lables lable1,lable2 -p 8 --time-series --multi-read-correct --library-type fr-unstranded --poisson-dispersion transcripts.gtf sample1.sam sample2.sam cuffdiff接受bam/sam或cuffquant的CXB文件,同時也可以接受bam與sam的混合文件,不能接受bam/sam和CXB的混合文件。

3. 使用參數(shù)

  • -h | --help -o | --output-dir default: ./ 輸出的文件夾目錄。
  • -L | --lables default: q1,q2,...qN 給每個sample一個樣品名或者一個環(huán)境條件一個lable
  • -p | --num-threads default: 1 使用的CPU線程數(shù)
  • -T | --time-series 讓Cuffdiff來按樣品順序來比對樣品,而不是對所有的samples都進行兩兩比對。即第二個 SAM和第一個SAM比;第三個SAM和第二個SAM比;第四個SAM和第三個SAM比...
  • -N | --upper-quartile-form 使用75%分為數(shù)的值來代替總的值(比對到單一位點的fragments的數(shù)值),作normalize。 這樣有利于在低豐度基因和轉(zhuǎn)錄子中尋找差異基因。
  • --total-hits-norm Cufflinks在計算FPKM時,算入所有的fragments和比對上的reads。和下一個參數(shù)對立。 默認不激活該參數(shù)。
  • --compatible-hits-norm Cufflinks在計算FPKM時,只針對和reference transcripts兼容的fragments以及 比對上的reads。該參數(shù)默認激活,使用該參數(shù)可以降低核糖體rna的reads對基因表達的干擾。
  • -b | --frag-bias-correct(一般是genome.fa) 提供一個fasta文件來指導(dǎo)Cufflinks運行新的bias detection and correction algorithm。這樣能明顯提高轉(zhuǎn)錄子豐度計算的精確性。
  • -u | --multi-read-correct 讓Cufflinks來做initial estimation步驟,從而更精確衡量比對到genome多個位點 的reads。
  • -c | --min-alignment-count default: 10 如果比對到某一個位點的fragments數(shù)目少于該值,則不做該位點的顯著性分析。認為該位點的表達量沒有顯著性差異。
  • -M | --mask-file 提供GFF文件。Cufflinks將忽略比對到該GTF文件的transcripts中的reads。該文件中常常是rRNA的注釋,也可以包含線立體和其它希望忽略的transcripts的注釋。將這些不需要的RNA去除后,對計算mRNA的表達量是有利的。
  • -FDR default: 0.05 允許的false discovery rate.
  • --library-type default:fr-unstranded 處理的reads具有鏈特異性。比對結(jié)果中將會有個XS標簽。一般Illumina數(shù)據(jù)的library- type為 fr-unstranded。
  • --dispersion-method
其他高級參數(shù):
  • -m | --frag-len-mean default: 200 插入片段的平均長度。不過現(xiàn)在Cufflinks能learns插入片段的平均長度,因此不推薦自主 設(shè)置此值。
  • -s | --frag-len-std-dev default: 80 插入片段長度的標準差。不過現(xiàn)在Cufflinks能learns插入片段的平均長度,因此不推薦自 主設(shè)置此值。
  • -v/--verbose 顯示版本信息等等
  • -q/--quiet 除了警告和錯誤外,其他信息將不會print
  • --no-update-check 關(guān)系cufflinks自動更新的能力
  • -F/--min-isoform-fraction <0.0-1.0> 建議不要更改,主要的isorform豐度若低于這個分數(shù),可變的isoform將四舍五入為0.默認為1e-5 -
  • -max-bundle-frags 一個skipped locus/loci在skipped前可以擁有的最大的fragment片段。默認為1000000
  • --max-frag-count-draws (默認為100)和--max-frag-assign-draws (默認為50)--min-reps-for-js-test 一個針對不同調(diào)控的基因做test的最小的復(fù)制次數(shù)。Cuffdiff won't test genes for differential regulation unless the conditions in question have at least this many replicates. Default: 3.
  • --no-effective-length-correction Cuffdiff will not employ its "effective" length normalization to transcript FPKM. Cufflinks將不會使用它的“effective” 長度標準化去計算轉(zhuǎn)錄的FPKM
  • --no-length-correction cufflinks將根本不會使用轉(zhuǎn)錄本的長度去標準化fragment的數(shù)目。當fragment的數(shù)目和the features being quantified的size是獨立的,可以使用(例如for small RNA libraries, where no fragmentation takes place, or 3 prime end sequencing, where sampled RNA fragments are all essentially the same length).小心使用
  • --max-mle-iterations 極大似然法的迭代次數(shù),默認5000--poisson-dispersion Use the Poisson fragment dispersion model instead of learning one in each condition.

Cuffdiff輸出

1. FPKM tracking files

cuffdiff計算每個樣本中的轉(zhuǎn)錄本,初始轉(zhuǎn)錄本和基因的FPKM。其中,基因和初始轉(zhuǎn)錄本的FPKM的計算是在每個轉(zhuǎn)錄本group和基因group中的轉(zhuǎn)錄本的FPKM的求和。


FPKM tracking files

2. Count tracking files

評估每個樣本中來自每個 transcript, primary transcript, and gene的fragment數(shù)目。其中primary transcript 和 gene的fragment數(shù)目是每個primary transcript group或gene group中trancript的數(shù)目之和。


Count tracking files

3. Read group tracking files

計算在每個repulate中每個transcript,primary transcript和gene的表達量和frage數(shù)目

Read group tracking files

4. Differential expression test

對于splicing transcript, primary transcripts, genes, and coding sequences.樣本之間的表達差異檢驗。對于每一對樣本x和y,都會有以下四個文件:

Differential expression test

每個文件樣式如下

5. Differential splicing tests – splicing.diff

對于每個primary transcript,鑒定的不同的isoform的差異性。只有2個或2個以上的isoforms的primary transcript存在


6. Differential coding output – cds.diff

對于每個基因,它的cds的鑒定。樣本間的輸出cds的差異性。只有2個或2個以上的cds(multi-protein genes)列舉在文件中。

7. Differential promoter use – promoters.diff

樣本間啟動子使用的差異性。只有表達2個或2個以上isoform的基因列舉在這里。

8. Read group info – read_groups.info

每個replicat(復(fù)制品),在進行定量分析時,cuffdiff的關(guān)鍵屬性會列出。


Read group info – read_groups.info

9. Run info – run.info

運行的信息。
其中:輸出文件FPKM Tracking file的格式如下:

  • tracking_id TCONS_00000001 內(nèi)部唯一object的id(識別基因,轉(zhuǎn)錄本,CDS,初始轉(zhuǎn)錄本)A unique identifier describing the object (gene, transcript, CDS, primary transcript)
  • class_code = 內(nèi)部定義的類別的id,“-”表明不是轉(zhuǎn)錄本。The class_code attribute for the object, or “-” if not a transcript, or if class_code isn’t present
  • nearest_ref_id NM_008866.1 最接近的參考轉(zhuǎn)錄本The reference transcript to which the class code refers, if any
  • gene_id NM_008866 基因id The gene_id(s) associated with the object
  • gene_short_name Lypla1 基因名字 The gene_short_name(s) associated with the object
  • tss_id TSS1 初始轉(zhuǎn)錄本id,或者“-”表示沒有初始轉(zhuǎn)錄本。The tss_id associated with the object, or “-” if not a transcript/primary transcript, or if tss_idisn’t present
  • locus chr1:4797771-4835363 基因組上的位置Genomic coordinates for easy browsing to the object
  • length 2447 轉(zhuǎn)錄本的長度The number of base pairs in the transcript, or ‘-‘ if not a transcript/primary transcript
  • coverage 43.4279 read覆蓋深度的估測值 Estimate for the absolute depth of read coverage across the object
  • q0_FPKM 8.01089 樣本0中object的FPKM FPKMof the object in sample 0
  • q0_FPKM_lo 7.03583 object在樣本0中FPKM的95%置信區(qū)間的下界the lower bound of the 95% confidence interval on the FPKM of the object in sample 0
  • q0_FPKM_hi 8.98595 object在樣本0中FPKM的95%置信區(qū)間的上界the upper bound of the 95% confidence interval on the FPKM of the object in sample 0
  • q0_status OK object在樣本0中的量化狀態(tài),0K表示成功,LOWDATA:太復(fù)雜或測序深度不夠;HIDATA:在一個基因座上太多fragments,F(xiàn)AIL:失敗的協(xié)方差矩陣或其他數(shù)值阻止了去卷積Quantification status for the object in sample 0. Can be one of OK (deconvolution successful), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents deconvolution.

Count tracking files 格式如下:

  • tracking_id TCONS_00000001 A unique identifier describing the object (gene, transcript, CDS, primary transcript)

  • q0_count 201.334 Estimated (externally scaled) number of fragments generated by the object in sample 0

  • q0_count_variance 5988.24 Estimated variance in the number of fragments generated by the object in sample 0

  • q0_count_uncertainty_var 170.21 Estimated variance in the number of fragments generated by the object in sample 0 due to fragment assignment uncertainty.

  • q0_count_dispersion_var 4905.63 Estimated variance in the number of fragments generated by the object in sample 0 due to cross-replicate variability.

  • q0_status OK Quantification status for the object in sample 0. Can be one of OK (deconvolutionsuccessful), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception preventsdeconvolution.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容