Minimap2比對隨筆

Minimap2是李恒大牛在2018年開發(fā)的針對于三代測序數(shù)據(jù)進(jìn)行比對的工具,minimap2的優(yōu)勢是速度快,而且聽說比對的結(jié)果也比較不錯,不知道甩samtools幾條街;缺點(diǎn)呢,就是耗費(fèi)內(nèi)存。


李恒大神實(shí)在是太牛了。
minimap2的主要思想是:首先將基因組序列的minimizer存儲在哈希表中(minimizer指一段序列內(nèi)最小哈希值的種子);然后對于每一條待比對序列, 找到待比對序列所有的minimizer,通過哈希表找出其在基因組中的位置, 并利用chaining算法尋找待比對區(qū)域;最后將非種子區(qū)域用動態(tài)規(guī)劃算法進(jìn)行比對,得到比對結(jié)果。minimap2方法只對最小哈希值的種子進(jìn)行存儲,可有效降低時(shí)間復(fù)雜度。

01 Minimap2的安裝

由于我們學(xué)校的管理員很勤奮,所有很多軟件都不用我們手動安裝。直接module 加載即可。

module load minimap2/v2.17
# 簡簡單單

看GitHub上,要自行安裝的話也不麻煩。參考:https://github.com/lh3/minimap2

git clone https://github.com/lh3/minimap2
cd minimap2 && make

很簡單,應(yīng)該沒有什么坑。

02Minimap2的使用

其實(shí)看了李恒的GitHub的話,基本上已經(jīng)很明白了(突然感覺寫這個帖子毫無意義),而且get start特別簡單。

Minimap2基本使用

跑一下我的數(shù)據(jù)。

minimap2 -ax map-pb azyz.genome.fasta azyz.flnc.fasta > aln.sam

03結(jié)果分析

比對結(jié)果,和samtools的格式是一樣的,這點(diǎn)沒有什么好說的。我這里的主要目的是通過全長轉(zhuǎn)錄組,來看一下我找到的那個基因(40kb,成精了呢)是否是一個真的基因。


比對結(jié)果

我的做法是在IGV上找一下那個基因,是否有ISO的read達(dá)到那么長。那么接下來就是轉(zhuǎn)bam,igv導(dǎo)入數(shù)據(jù)就完事了。

samtools view -Sb aln.sam > aln.bam

所以本次的筆記就到這里。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容