此文章是用以查看操作步驟簡(jiǎn)化版,詳細(xì)解釋可見文章
全基因組重測(cè)序流程【超細(xì)致!!】 - 簡(jiǎn)書 (jianshu.com)
使用這些命令時(shí),只要輸入該命令就可以看到該命令如何使用,比如輸入bwa index,就可以看到具體如何使用
一、比對(duì)
1、建立索引
對(duì)參考序列構(gòu)建索引
bwa軟件所在路徑/bwa index 參考序列FASTA文件

2、比對(duì)及排序
$ bwa mem -t 4 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name' /path/to/human.fasta read_1.fq.gz read_2.fq.gz | samtools view -S -O bam -o - | samtools sort -@ 4 -m 4G -O bam -o demo3_name.sorted.bam
查看bam格式文件
samtools view demo.bam | less -S
以下是補(bǔ)充說(shuō)明:
輸入bwa men可以看到這個(gè)算法怎么使用,具體如下圖)

代碼解釋:
-t,線程數(shù),我們?cè)谶@里使用4個(gè)線程:線程數(shù)是由電腦的內(nèi)核決定的,一般這種簡(jiǎn)單的用4個(gè)線程就夠了

此處的 -t 嗄 代表的是處理線程,越多速度越快。,該步驟處理時(shí)間較長(zhǎng)。
具體可以設(shè)置多少線程視服務(wù)器而定??赏ㄟ^(guò)下列代碼查詢,設(shè)置相關(guān)值。
grep 'physical id' /proc/cpuinfo | sort -u 查看CPU個(gè)數(shù)
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看核心數(shù)量
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看線程
cat /proc/meminfo 查看服務(wù)器內(nèi)存(引自:対MS特技兵)
(\t)代表tab分隔符(\n則表示換行符)
-R read group header line 讀取組標(biāo)題行 用于后續(xù)區(qū)分這些樣本
foo(第幾泳道)可以從PE的fastq文件中找到
SM自己命名
二、比對(duì)文件的處理
1、標(biāo)記重復(fù)
picard MarkDuplicates I=sample_name.sorted.bam O=sample_name.sorted.markdup.bam M=sample_name.markdup_metrics.txt
2、創(chuàng)建索引
a.為bam文件創(chuàng)建索引
讓我們可以隨機(jī)訪問(wèn)這個(gè)文件中的任意位置,后面的“局部重比對(duì)”步驟也要求這個(gè)BAM文件一定要有索引
生成的索引后綴是.bai
samtools index sample_name.sorted.markdup.bam
b.為參考序列創(chuàng)建索引
準(zhǔn)備參考基因組.fai和.dict文件,局部重比需要這兩個(gè)文件
gatk CreateSequenceDictionary -R genome.fa -O genome.dict && samtools faidx genome.fa
作者:対MS特技兵
鏈接:http://www.itdecent.cn/p/473a6208d7e5
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
作者:家和建材廣場(chǎng)
鏈接:http://www.itdecent.cn/p/2cca13963293
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。