首先使用bowtie2軟件自帶的測試數(shù)據(jù)生成sam/bam文件,還有vcf文件
代碼如下:
mkdir -p ~/biosoft
cd ~/biosoft
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
conda create -y -n test
conda activate test
conda install -y samtools bcftools
wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.4.3/bowtie2-2.3.4.3-linux-x86_64.zip
unzip bowtie2-2.3.4.3-linux-x86_64.zip
cd ~/biosoft/bowtie2-2.3.4.3-linux-x86_64/example/reads
../../bowtie2 -x ../index/lambda_virus -1 reads_1.fq -2 reads_2.fq | samtools sort -@ 5 -o tmp.bam -
bcftools mpileup -f ../reference/lambda_virus.fa tmp.bam |bcftools call -vm > tmp.vcf
linux練習(xí)題
- 把突變記錄的vcf文件區(qū)分成 INDEL和SNP條目
- 統(tǒng)計INDEL和SNP條目的各自的平均測序深度
- 把INDEL條目再區(qū)分成insertion和deletion情況
- 統(tǒng)計SNP條目的突變組合分布頻率
- 找到基因型不是
1/1的條目,個數(shù) - 篩選測序深度大于20的條目
- 篩選變異位點質(zhì)量值大于30的條目
- 組合篩選變異位點質(zhì)量值大于30并且深度大于20的條目
- 理解
DP4=4,7,11,18這樣的字段,就是 Number of high-quality ref-forward , ref-reverse, alt-forward and alt-reverse bases 計算每個變異位點的 AF - 在前面步驟的bam文件里面找到這個vcf文件的某一個突變位點的測序深度表明的那些reads,并且在IGV里面可視化bam和vcf定位到該變異位點。
其它思考題
- vcf的全稱是什么?是用來記錄什么信息的標(biāo)準(zhǔn)格式的文本?
- 一般選用哪個指令查看vcf文件,為什么不用vim?
- vcf文件以’##’開頭的是什么信息?請認(rèn)真查看這些信息。’#’開頭的是什么信息?
- Vcf文件除頭信息,每行有多少列,請詳細(xì)敘述每行的含義!請準(zhǔn)確記憶。
- 理解format列和樣本列的對應(yīng)關(guān)系以及GT AD DP的含義。
- Vcf文件第三列如果不是’.’,出現(xiàn)的rs號的id是什么?
- Vcf文件的ref,alt列和樣本列的0/1 1/1 或者1/2的聯(lián)系?
- Vcf文件一般用什么軟件生成?請至少說出兩個軟件。請注意不同軟件生成的vcf格式的稍有不同的地方。
- Vcf文件一般都比較大,壓縮后的.gz文件用什么指令直接查看而不用解壓后查看?
- 了解gvcf是什么格式,gvcf全稱是什么?他與vcf有什么前后聯(lián)系?
- 把alt列出現(xiàn)’,’的行提取出來
- 請將chrid、postion、ref、alt、format、樣本列切割出來生成一個文本
- 將一個含snp,indel信息的vcf拆成一個只含snp,一個只含indel信息的2個vcf文件??山梃b軟件
- 用指令操作indel的vcf文件,提取indel長度>4的變異行數(shù),存成一個文本。
- 用Vcftools過濾vcf文件,如maf 設(shè)置成0.05, depth設(shè)置成5-20,統(tǒng)計過濾前后的變異位點的總個數(shù)
- 利用vcftools提取每個樣本每一個位點的變異信息和深度信息,生成一個矩陣的文件,至少含義以下信息
Eg:
| chrid | postion | sample_DP | sample_GT |
|---|---|---|---|
| chr1 | 1010 | 5 | AA |
- 提取出變異位點上樣本有純和突變的行數(shù)
- 統(tǒng)計一下1號染色體上的變異總個數(shù)。
- 提取一下BRCA1基因上發(fā)生變異的行數(shù),如果是人類wes變異結(jié)果文件
- 統(tǒng)計vcf文件各樣本的缺失率,如果是多個樣本的群體call結(jié)果。
進階思考題:可視化vcf中變異位點質(zhì)量值,橫坐標(biāo)是質(zhì)量值,縱坐標(biāo)是百分比或者該質(zhì)量值時的變異位點的總個數(shù),可以化成線圖或者點圖(可能需要學(xué)一些代碼,還有R畫圖)