最近打算測一些干燥材料和標(biāo)本材料的淺層基因組,有些材料降解嚴(yán)重,拼接的過程可能會比較困難。由于我們的目標(biāo)主要是轉(zhuǎn)錄組的數(shù)據(jù),所以試試看能不能在拼接之前將與轉(zhuǎn)錄組無關(guān)的序列直接在原始測序數(shù)據(jù)中刪除。
minimap2和samtools安裝都比較簡單,這里就不行詳細(xì)介紹了。
1.參考數(shù)據(jù)建庫
首先我們選擇一個轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行建庫作為參考的比對序列
minimap2 -d 007.min 007_trinity.fasta
# 007.min為建立的索引庫的名稱, 007_trinity.fasta為準(zhǔn)備的參考fasta序列文件
這樣就建立了一個參考庫
2.比對
minimap2 -ax map-ont 007.min 128_1.fq.gz -o 128_1.sam
# 007.min 是參考庫, 128_1.fq.gz是需要篩選的基因組原始數(shù)據(jù),128_1.sam 是輸出的文件
minmap2 的常用參數(shù)
主要分成五大類,索引(Indexing),回帖(Mapping),比對(Alignment),輸入/輸出(Input/Output),預(yù)設(shè)值(Preset)。
-x :非常中要的一個選項,軟件預(yù)測的一些值,針對不同的數(shù)據(jù)選擇不同的值
map-pb/map-ont: pb或者ont數(shù)據(jù)與參考序列比對;
ava-pb/ava-ont: 尋找pd數(shù)據(jù)或者ont數(shù)據(jù)之間的overlap關(guān)系;
asm5/asm10/asm20: 拼接結(jié)果與參考序列進(jìn)行比對,適合~0.1/1/5% 序列分歧度;
splice: 長reads的切割比對
sr: 短reads比對
-d :創(chuàng)建索引文件名
-a :指定輸出格式為sa格式,默認(rèn)為PAF
-Q :sam文件中不輸出堿基質(zhì)量
-R :reads Group信息,與bwa比對中的-R一致
-t:線程數(shù),默認(rèn)為3
-o: 輸出文件
3使用samtools處理sam文件
sam文件(上一步得到的那種文件)是一種列表格式,用來記錄reads比對到參考基因組上的信息,包括哪一條reads,比對到哪條基因組上的哪個位置,是一對一比對還是一對多比對,有無錯配,錯配是怎樣的。因此就需要包含很多列的信息,下面具體展示sam格式。
第一列:是reads ID
第二列:是flag標(biāo)記的總和
第三列:比對到參考序列上的染色體號。
第四列:為在參考序列上的位置
第五列:比對的質(zhì)量值,MAPQ
第六列:代表比對結(jié)果的CIGAR字符串
第七列:mate比對到的染色體號,若是沒有mate,則是*
第八列:比對到參考序列上的第一個堿基位置
第九列:Template的長度,
第十列:為read的序列
第十一列:為ASCII碼格式的序列質(zhì)量;
比對得到的sam或者bam不能直接用于下游的數(shù)據(jù)處理,需要進(jìn)行很多處理。主要包括轉(zhuǎn)換為bam,排序,合并不同lane的數(shù)據(jù),對bam文件加頭部信息等操作。而這些工作都可以使用samtools工具來進(jìn)行操作。samtools顧名思義,是處理sam格式的工具合集。samtools主要包含以下幾大功能:Indexing 建立索引,Editing 編輯文件,F(xiàn)ile operations,Statistics,統(tǒng)計相關(guān)功能;Viewing,查看,等
常用參數(shù):
samtools選項參數(shù):
-o:輸出結(jié)果文件
-O:輸出文件格式
-@:線程數(shù)目
--reference:參考序列
詳細(xì)操作不講了,直接提取需要的目標(biāo)序列
samtools fasta -F 4 128_1.sam > 128_1.minimap2.fasta
# -F 4 參數(shù)表示提取出比對上的序列, -f 4 則是提取未比對上的序列。
最后得到一個fasta文件,使用這個fasta文件就可以進(jìn)行下一步的序列拼接了。
之后使用Trinity進(jìn)行拼接測試,但是總是運(yùn)行一段時間就莫名其妙的斷掉了,也沒有任何報錯信息,后來將輸出的fasta文件改成fastq文件之后可以正常拼接,輸出fastq的命令問
samtools fastq -F 4128_1.sam > 128_1.minimap2.fastq