更多請(qǐng)了解Cufflinks:? http://cole-trapnell-lab.github.io/cufflinks/

Cufflinks 利用Tophat比對(duì)的結(jié)果(alignments)來(lái)組裝轉(zhuǎn)錄本,估計(jì)這些轉(zhuǎn)錄本的豐度,并且檢測(cè)樣本間的差異表達(dá)及可變剪接。
這個(gè)軟件其實(shí)是個(gè)套裝,包括四個(gè)部分分別命名為:cufflinks、cuffcompare、cuffmerge及cuffdiff.
流程:
第一步,利用tophat/bowtie比對(duì)結(jié)果(bam格式)及參考基因組構(gòu)建轉(zhuǎn)錄本,最終的轉(zhuǎn)錄本是以gtf格式保存的。
第二步,Cuffcompare主要是對(duì)兩個(gè)或多個(gè)轉(zhuǎn)錄本集合中轉(zhuǎn)錄本相似情況的比較,例如將第一步構(gòu)建出的轉(zhuǎn)錄本與ENSEMBL數(shù)據(jù)庫(kù)中的轉(zhuǎn)錄本進(jìn)行比較,評(píng)估轉(zhuǎn)錄本構(gòu)建情況,此外,根據(jù)構(gòu)建的轉(zhuǎn)錄本與已知ENSEMBL數(shù)據(jù)庫(kù)中的轉(zhuǎn)錄本的相對(duì)位置定義了一系列分類(lèi),例如內(nèi)含子區(qū)域、反義、基因間區(qū)域轉(zhuǎn)錄本等等近10種分類(lèi)。
第三步,cuffmerge是將多個(gè)轉(zhuǎn)錄本集合合并成一套轉(zhuǎn)錄本集合,例如將在多個(gè)組織樣本中構(gòu)建的多套轉(zhuǎn)錄本合并成一套轉(zhuǎn)錄本,cuffmerge能夠很好地完成去除冗余。
第四步,cuffdiff衡量?jī)蓚€(gè)或多個(gè)樣本間差異表達(dá)的基因,例如癌癥與正常組織間差異表達(dá)的轉(zhuǎn)錄本,此外還能衡量差異可變剪接體。
至此,轉(zhuǎn)錄本測(cè)序常規(guī)數(shù)據(jù)分析基本結(jié)束,接下來(lái)進(jìn)行實(shí)驗(yàn)驗(yàn)證或深入數(shù)據(jù)分析。
具體實(shí)例:
Mapping完了以后,cufflinks就可以把map到基因組里的序列組裝成一個(gè)轉(zhuǎn)錄組了,這個(gè)轉(zhuǎn)錄組理論上包含了所有當(dāng)時(shí)細(xì)胞里的所有mRNA,組裝好的轉(zhuǎn)錄組包含了可能的剪切信息和所有轉(zhuǎn)錄的表達(dá)量,這個(gè)表達(dá)量是根據(jù)map到基因組的序列的總數(shù)和每個(gè)轉(zhuǎn)錄片斷的長(zhǎng)度進(jìn)行歸一化的,聽(tīng)起來(lái)比較難懂,它是對(duì)于在轉(zhuǎn)錄片斷里的每一千個(gè)堿基對(duì),在每一百萬(wàn)個(gè)成功map的序列中,map在這一千個(gè)堿基對(duì)上的序列的比例,
fragments per kilobase of transcript per million mapped fragments (FKPM)。
參考生信菜鳥(niǎo)團(tuán):http://www.bio-info-trainee.com/166.html
詳細(xì)使用參照:http://blog.sina.com.cn/s/blog_751bd9440102v72b.html
[?? Cufflinks輸出結(jié)果
cufflinks的輸入文件是sam或bam格式。并且sam或bam格式的文件必須排好序。(The SAM file supplied to Cufflinksmustbe sorted by? ? ? ? ? reference position.)Tophat的輸出結(jié)果sam或bam已經(jīng)排好了序。針對(duì)其他的未排序的sam或bam文件采用如下排序方式:
sort -k 3,3 -k 4,4n hits.sam > hits.sam.sorted
1. transcripts.gtf
該文件包含Cufflinks的組裝結(jié)果isoforms。前7列為標(biāo)準(zhǔn)的GTF格式,最后一列為attributes。其每一列的意義:
列數(shù)? 列的名稱(chēng)? 例子? ? ? ? 描述
1? ? 序列名? ? chrX? ? ? ? 染色體或contig名; 2? ? 來(lái)源? ? ? Cufflinks? 產(chǎn)生該文件的程序名; 3? ? 類(lèi)型? ? ? exon? ? ? ? 記錄的類(lèi)型,一般是transcript或exon; 4? ? 起始? ? ? 1? ? ? ? ? 1-base的值; 5? ? 結(jié)束? ? ? 1000? ? ? ? 結(jié)束位置; 6? ? 得分? ? ? 1000? ? ? ? ; 7? ? 鏈? ? ? ? +? ? ? ? ? Cufflinks猜測(cè)isoform來(lái)自參考序列的那一條鏈,一般是'+','-'或'.';8? ? frame? ? .? ? ? ? ? Cufflinks不去預(yù)測(cè)起始或終止密碼子框的位置; 9? ? attributes? ...? ? ? 詳見(jiàn)下
每一個(gè)GTF記錄包含如下attributes:
Attribute? ? ? 例子? ? ? 描述
gene_idCUFF.1Cufflinks的gene id;transcript_idCUFF.1.1? Cufflinks的轉(zhuǎn)錄子 id; FPKM? ? ? ? ? 101.267? isoform水平上的豐度,FragmentsPerKilobase of exon model perMillion mapped fragments; frac? ? ? ? ? 0.7647? ? 保留著的一項(xiàng),忽略即可,以后可能會(huì)取消這個(gè);conf_lo? ? ? ? 0.07? ? ? isoform豐度的95%置信區(qū)間的下邊界,即 下邊界值 = FPKM * ( 1.0 - conf_lo );conf_hi? ? ? ? 0.1102? ? isoform豐度的95%置信區(qū)間的上邊界,即 上邊界值 = FPKM * ( 1.0 + conf_hi ); cov? ? ? ? ? ? 100.765?計(jì)算整個(gè)transcript上read的覆蓋度;full_read_support? yes? 當(dāng)使用 RABT assembly 時(shí),該選項(xiàng)報(bào)告所有的introns和exons是否完全被reads所覆蓋
2. ispforms.fpkm_tracking
isoforms(可以理解為gene的各個(gè)外顯子)的fpkm計(jì)算結(jié)果
3. genes.fpkm_tracking
gene的fpkm計(jì)算結(jié)果Cuffmerge簡(jiǎn)介
Cuffmerge將各個(gè)Cufflinks生成的transcripts.gtf文件融合稱(chēng)為一個(gè)更加全面的transcripts注釋結(jié)果文件merged.gtf。以利于用Cuffdiff來(lái)分析基因差異表達(dá)。
2. 使用方法
$ cuffmerge [options]*
輸入文件為一個(gè)文本文件,是包含著GTF文件路徑的list。常用例子:
$ cuffmerge -o ./merged_asm -p 8 assembly_list.txt
3. 使用參數(shù)
-h | --help
-o? default: ./merged_asm
將結(jié)果輸出至該文件夾。
-g | --ref-gtf將該reference GTF一起融合到最終結(jié)果中。
-p | --num-threads? defautl: 1
使用的CPU線程數(shù)
-s | --ref-sequence /該參數(shù)指向基因組DNA序列。如果是一個(gè)文件夾,則每個(gè)contig則是一個(gè)fasta文件;如果是一個(gè)fasta文件,則所有的contigs都需要在里面。Cuffmerge將使用該ref-sequence來(lái)幫助對(duì)transfrags分類(lèi),并排除repeats。比如transcripts包含一些小寫(xiě)堿基的將歸類(lèi)到repeats.? ]
4. Cuffmerge輸出結(jié)果
輸出的結(jié)果文件默認(rèn)為 /merged.gtf
<1>命令:cufflinks -p 4 -o test_cuff /home/andengdi/lyr/rna-seq/02-align_out/test_output/accepted_hits.bam

流程及結(jié)果
5? 為了得到匹配到的序列,將gif文件中的序列提取出來(lái)。