cufflinks使用-2 (2018-05-29)

更多請(qǐng)了解Cufflinks:? http://cole-trapnell-lab.github.io/cufflinks/

圖片來(lái)自上面的網(wǎng)址,cufflink workflow

Cufflinks 利用Tophat比對(duì)的結(jié)果(alignments)來(lái)組裝轉(zhuǎn)錄本,估計(jì)這些轉(zhuǎn)錄本的豐度,并且檢測(cè)樣本間的差異表達(dá)及可變剪接。

這個(gè)軟件其實(shí)是個(gè)套裝,包括四個(gè)部分分別命名為:cufflinks、cuffcompare、cuffmerge及cuffdiff.

流程:

第一步,利用tophat/bowtie比對(duì)結(jié)果(bam格式)及參考基因組構(gòu)建轉(zhuǎn)錄本,最終的轉(zhuǎn)錄本是以gtf格式保存的。

第二步,Cuffcompare主要是對(duì)兩個(gè)或多個(gè)轉(zhuǎn)錄本集合中轉(zhuǎn)錄本相似情況的比較,例如將第一步構(gòu)建出的轉(zhuǎn)錄本與ENSEMBL數(shù)據(jù)庫(kù)中的轉(zhuǎn)錄本進(jìn)行比較,評(píng)估轉(zhuǎn)錄本構(gòu)建情況,此外,根據(jù)構(gòu)建的轉(zhuǎn)錄本與已知ENSEMBL數(shù)據(jù)庫(kù)中的轉(zhuǎn)錄本的相對(duì)位置定義了一系列分類(lèi),例如內(nèi)含子區(qū)域、反義、基因間區(qū)域轉(zhuǎn)錄本等等近10種分類(lèi)。

第三步,cuffmerge是將多個(gè)轉(zhuǎn)錄本集合合并成一套轉(zhuǎn)錄本集合,例如將在多個(gè)組織樣本中構(gòu)建的多套轉(zhuǎn)錄本合并成一套轉(zhuǎn)錄本,cuffmerge能夠很好地完成去除冗余。

第四步,cuffdiff衡量?jī)蓚€(gè)或多個(gè)樣本間差異表達(dá)的基因,例如癌癥與正常組織間差異表達(dá)的轉(zhuǎn)錄本,此外還能衡量差異可變剪接體。

至此,轉(zhuǎn)錄本測(cè)序常規(guī)數(shù)據(jù)分析基本結(jié)束,接下來(lái)進(jìn)行實(shí)驗(yàn)驗(yàn)證或深入數(shù)據(jù)分析。

具體實(shí)例:

Mapping完了以后,cufflinks就可以把map到基因組里的序列組裝成一個(gè)轉(zhuǎn)錄組了,這個(gè)轉(zhuǎn)錄組理論上包含了所有當(dāng)時(shí)細(xì)胞里的所有mRNA,組裝好的轉(zhuǎn)錄組包含了可能的剪切信息和所有轉(zhuǎn)錄的表達(dá)量,這個(gè)表達(dá)量是根據(jù)map到基因組的序列的總數(shù)和每個(gè)轉(zhuǎn)錄片斷的長(zhǎng)度進(jìn)行歸一化的,聽(tīng)起來(lái)比較難懂,它是對(duì)于在轉(zhuǎn)錄片斷里的每一千個(gè)堿基對(duì),在每一百萬(wàn)個(gè)成功map的序列中,map在這一千個(gè)堿基對(duì)上的序列的比例,

fragments per kilobase of transcript per million mapped fragments (FKPM)。

參考生信菜鳥(niǎo)團(tuán):http://www.bio-info-trainee.com/166.html

詳細(xì)使用參照:http://blog.sina.com.cn/s/blog_751bd9440102v72b.html

[?? Cufflinks輸出結(jié)果

cufflinks的輸入文件是sam或bam格式。并且sam或bam格式的文件必須排好序。(The SAM file supplied to Cufflinksmustbe sorted by? ? ? ? ? reference position.)Tophat的輸出結(jié)果sam或bam已經(jīng)排好了序。針對(duì)其他的未排序的sam或bam文件采用如下排序方式:

sort -k 3,3 -k 4,4n hits.sam > hits.sam.sorted

1. transcripts.gtf

該文件包含Cufflinks的組裝結(jié)果isoforms。前7列為標(biāo)準(zhǔn)的GTF格式,最后一列為attributes。其每一列的意義:

列數(shù)? 列的名稱(chēng)? 例子? ? ? ? 描述

1? ? 序列名? ? chrX? ? ? ? 染色體或contig名; 2? ? 來(lái)源? ? ? Cufflinks? 產(chǎn)生該文件的程序名; 3? ? 類(lèi)型? ? ? exon? ? ? ? 記錄的類(lèi)型,一般是transcript或exon; 4? ? 起始? ? ? 1? ? ? ? ? 1-base的值; 5? ? 結(jié)束? ? ? 1000? ? ? ? 結(jié)束位置; 6? ? 得分? ? ? 1000? ? ? ? ; 7? ? 鏈? ? ? ? +? ? ? ? ? Cufflinks猜測(cè)isoform來(lái)自參考序列的那一條鏈,一般是'+','-'或'.';8? ? frame? ? .? ? ? ? ? Cufflinks不去預(yù)測(cè)起始或終止密碼子框的位置; 9? ? attributes? ...? ? ? 詳見(jiàn)下

每一個(gè)GTF記錄包含如下attributes:

Attribute? ? ? 例子? ? ? 描述

gene_idCUFF.1Cufflinks的gene id;transcript_idCUFF.1.1? Cufflinks的轉(zhuǎn)錄子 id; FPKM? ? ? ? ? 101.267? isoform水平上的豐度,FragmentsPerKilobase of exon model perMillion mapped fragments; frac? ? ? ? ? 0.7647? ? 保留著的一項(xiàng),忽略即可,以后可能會(huì)取消這個(gè);conf_lo? ? ? ? 0.07? ? ? isoform豐度的95%置信區(qū)間的下邊界,即 下邊界值 = FPKM * ( 1.0 - conf_lo );conf_hi? ? ? ? 0.1102? ? isoform豐度的95%置信區(qū)間的上邊界,即 上邊界值 = FPKM * ( 1.0 + conf_hi ); cov? ? ? ? ? ? 100.765?計(jì)算整個(gè)transcript上read的覆蓋度;full_read_support? yes? 當(dāng)使用 RABT assembly 時(shí),該選項(xiàng)報(bào)告所有的introns和exons是否完全被reads所覆蓋

2. ispforms.fpkm_tracking

isoforms(可以理解為gene的各個(gè)外顯子)的fpkm計(jì)算結(jié)果

3. genes.fpkm_tracking

gene的fpkm計(jì)算結(jié)果Cuffmerge簡(jiǎn)介

Cuffmerge將各個(gè)Cufflinks生成的transcripts.gtf文件融合稱(chēng)為一個(gè)更加全面的transcripts注釋結(jié)果文件merged.gtf。以利于用Cuffdiff來(lái)分析基因差異表達(dá)。

2. 使用方法

$ cuffmerge [options]*

輸入文件為一個(gè)文本文件,是包含著GTF文件路徑的list。常用例子:

$ cuffmerge -o ./merged_asm -p 8 assembly_list.txt

3. 使用參數(shù)

-h | --help

-o? default: ./merged_asm

將結(jié)果輸出至該文件夾。

-g | --ref-gtf將該reference GTF一起融合到最終結(jié)果中。

-p | --num-threads? defautl: 1

使用的CPU線程數(shù)

-s | --ref-sequence /該參數(shù)指向基因組DNA序列。如果是一個(gè)文件夾,則每個(gè)contig則是一個(gè)fasta文件;如果是一個(gè)fasta文件,則所有的contigs都需要在里面。Cuffmerge將使用該ref-sequence來(lái)幫助對(duì)transfrags分類(lèi),并排除repeats。比如transcripts包含一些小寫(xiě)堿基的將歸類(lèi)到repeats.? ]

4. Cuffmerge輸出結(jié)果

輸出的結(jié)果文件默認(rèn)為 /merged.gtf

<1>命令:cufflinks -p 4 -o test_cuff /home/andengdi/lyr/rna-seq/02-align_out/test_output/accepted_hits.bam

流程及結(jié)果

5? 為了得到匹配到的序列,將gif文件中的序列提取出來(lái)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 首先可以把自己的公眾號(hào)二維碼發(fā)到朋友圈讓自己的好友幫自己宣傳。然后公眾號(hào)的內(nèi)容要能給用戶(hù)帶來(lái)價(jià)值,可以多發(fā)一些自己...
    化身逗比閱讀 424評(píng)論 0 0
  • 從100分到98分,挨一頓揍;從55分到61分,得一個(gè)吻。這看似荒誕不經(jīng)的故事,卻常常發(fā)生在我們身邊,許多人看來(lái),...
    hsjwjsjg閱讀 242評(píng)論 0 0
  • 本文所有Demo地址:https://github.com/iOSaFei/MVC-MVVM-ReactiveCo...
    iOS_aFei閱讀 788評(píng)論 0 7
  • 世界上最健康的生活方式!(建議保存) 2017-04-17 河北華林集團(tuán)酸堿平官網(wǎng) 1.生活 : ① 少食肉;② ...
    妙手_e126閱讀 207評(píng)論 0 0
  • 文/Zoe 來(lái)上海一個(gè)月零兩天,在事務(wù)所上班也有24天了。起初的五天,每天面試至少三家公司,在上海的各條地鐵上來(lái)回...
    苦笑嫣然閱讀 681評(píng)論 3 6

友情鏈接更多精彩內(nèi)容