轉(zhuǎn)錄組分析(5) - 無參轉(zhuǎn)錄組拼接(illumina)

目的

NGS測(cè)序得到的短序列(read)存儲(chǔ)于Fastq文件,在經(jīng)過DNA建庫和測(cè)序之后,文件中不同read之間的順序就全部丟失了。因此,F(xiàn)astq文件中緊挨著的兩條read之間沒有任何位置關(guān)系,它們都是隨機(jī)來自于原本基因組中某個(gè)位置的短序列而已。因此我們無法判斷Fastq文件中reads間的順序關(guān)系。比對(duì)就是把每一條read分別與該物種的參考基因組或自身組裝的長序列進(jìn)行比較,然后按順序排列整齊并記錄其對(duì)應(yīng)的位置。

做法

對(duì)于沒有參考基因組的物種進(jìn)行轉(zhuǎn)錄組測(cè)序,需要首先對(duì)測(cè)序reads進(jìn)行拼接,然后才能進(jìn)行比對(duì)這一過程。

Trinity是一種針對(duì)無參考基因組RNA-Seq數(shù)據(jù)構(gòu)建轉(zhuǎn)錄本的工具,目前已經(jīng)成為無參轉(zhuǎn)錄組拼接的首選方法。Trinity分為3個(gè)模塊,分別為:Inchworm、Chrysalis和Butterfly。InchWorm模塊將測(cè)序得到的reads按照kmer的方法連接成線性序列,Chysalis模塊根據(jù)線性序列的重疊區(qū)建立graph components,最后Butterfly模塊應(yīng)用De Brujin graph方法拼接得到轉(zhuǎn)錄本。在Trinity拼接結(jié)果中,選取每個(gè)基因中長度最長的轉(zhuǎn)錄本作為Unigene,該Unigene就可以代表該基因的轉(zhuǎn)錄本用于后續(xù)的功能注釋和表達(dá)量計(jì)算。
Trinity原理.png
安裝

編譯安裝:
Trinity下載頁面下載最新版本

wget https://github.com/trinityrnaseq/trinityrnaseq/releases/download/v2.12.0/trinityrnaseq-v2.12.0.FULL.tar.gz
tar -zxvf trinityrnaseq-v2.12.0.FULL.tar.gz
# 在基本安裝目錄中通過 make來編譯安裝Trinity

Anaconda 安裝

conda activate py3
conda search trinity
conda install trinity
使用
Trinity --seqType fq --left reads_1.fq --right reads_2.fq --CPU 6 --max_memory 20G 

組裝拼接結(jié)果保存在./trinity_out_dir/Trinity.fasta文件中,該結(jié)果用于后續(xù)的功能注釋和表達(dá)量計(jì)算。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容