PacBio長(zhǎng)reads比對(duì)與去冗余

PacBio測(cè)序表現(xiàn)出了非常強(qiáng)大的優(yōu)勢(shì),比如測(cè)序read長(zhǎng)、無(wú)GC偏好、直接檢測(cè)變異、直接檢測(cè)堿基修飾等。尤其在轉(zhuǎn)錄中的應(yīng)用已經(jīng)相對(duì)成熟,下面重點(diǎn)介紹如何去進(jìn)行序列的比對(duì)和去冗余。

關(guān)鍵詞:PacBio、minimap2、GMAP、collapse、full length isoforms

因?yàn)槲覀冎繧so-seq測(cè)序后經(jīng)過(guò)smrtlink和IsoSeq3軟件的處理會(huì)得到高質(zhì)量的全長(zhǎng)轉(zhuǎn)錄本序列,針對(duì)有參考基因組的物種,首先要進(jìn)行序列的回帖(比對(duì))。

回帖軟件有minimap2, GMAP, STAR, BLAT等,重點(diǎn)介紹minimap2和GMAP。

一、比對(duì)

1. minimap2

軟件鏈接:https://github.com/lh3/minimap2

該軟件支持剪切比對(duì)和非剪切比對(duì),所以非常適合轉(zhuǎn)錄本的比對(duì),推薦使用2.9及以上版本,且支持不建索引模式的比對(duì)。

使用示例如下:

minimap2 -t 30 -ax splice -uf --secondary=no -C5 hg38.fasta hq_isoforms.fasta? > hq_isoforms.fasta.sam? 2> hq_isoforms.fasta.sam.log

-ax spliced比對(duì)模式

--secondary=no 只輸出最好的比對(duì)結(jié)果


2.GMAP

軟件鏈接:http://research-pub.gene.com/gmap/

索引文件必需提前建好(gmap_build命令),推薦使用2018-03-20或更高版本(版本以日期命名)。

使用示例:

gmap -D /gmap_db/ -d hg38 -f samse -n 0 -t 16? --cross-species --max-intronlength-ends 200000 -z sense_force hq_isoforms.fasta > hq_isoforms.fasta.sam? 2> hq_isoforms.fasta.sam.log

1和2步驟中,獲得了比對(duì)文件后(SAM格式)可進(jìn)一步轉(zhuǎn)換為BAM格式:

samtools view -bS hq_isoforms.fasta.sam > hq_isoforms.fasta.bamsamtools sort hq_isoforms.fasta.bam > hq_isoforms.fasta.sorted.bamsamtools index hq_isoforms.fasta.sorted.bam


二、去冗余

比對(duì)文件中記錄了低質(zhì)量比對(duì)和同于的基因、轉(zhuǎn)錄本異構(gòu)體,需要進(jìn)一步進(jìn)行過(guò)濾。

是的,沒錯(cuò),CupCake可以處理。

軟件鏈接:https://github.com/Magdoll/cDNA_Cupcake

直接使用里面的collapse_isoforms_by_sam.py進(jìn)行處理:

usage: collapse_isoforms_by_sam.py [-h]

[--input INPUT] [--fq] -s SAM -o PREFIX [-c MIN_ALN_COVERAGE] [-i MIN_ALN_IDENTITY] [--max_fuzzy_junction MAX_FUZZY_JUNCTION] [--flnc_coverage FLNC_COVERAGE] [--dun-merge-5-shorter]

比對(duì)處理和去冗余:

gmap -D <gmap_db_location> -d hg38 -f samse -n 0 -t 12? -z sense_force hq_isoforms.fastq > hq_isoforms.fastq.sam

sort -k 3,3 -k 4,4n hq_isoforms.fastq.sam > hq_isoforms.fastq.sorted.sam

collapse_isoforms_by_sam.py --input hq_isoforms.fastq --fq -s hq_isoforms.fastq.sorted.sam --dun-merge-5-shorter -o test -c 0.95 -i 0.85

后續(xù)可以通過(guò)再IGV中觀察hq_isoforms.fastq.bam和生成的去冗余后的test.collapsed.gff文件。

另外,

test.group.txt為記錄合并冗余后的對(duì)應(yīng)文件,可以知道一共保留了多少個(gè)非冗余轉(zhuǎn)錄本。test.ignored_ids.txt為沒有比對(duì)上而被丟棄的轉(zhuǎn)錄本編號(hào)。




參考:

https://github.com/Magdoll/cDNA_Cupcake/wiki/Best-practice-for-aligning-Iso-Seq-to-reference-genome:-minimap2,-GMAP,-STAR,-BLAT#refgmap

https://github.com/Magdoll/cDNA_Cupcake/wiki/Cupcake-ToFU:-supporting-scripts-for-Iso-Seq-after-clustering-step#collapse

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容