VCF格式文件的shell小練習(xí)

首先使用bowtie2軟件自帶的測試數(shù)據(jù)生成sam/bam文件,還有vcf文件
代碼如下:

mkdir -p ~/biosoft
cd ~/biosoft
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh 
bash Miniconda3-latest-Linux-x86_64.sh 
source ~/.bashrc 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
conda create -y -n test
conda activate test
conda install -y samtools bcftools

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.4.3/bowtie2-2.3.4.3-linux-x86_64.zip 
unzip bowtie2-2.3.4.3-linux-x86_64.zip 
cd ~/biosoft/bowtie2-2.3.4.3-linux-x86_64/example/reads

../../bowtie2 -x ../index/lambda_virus -1 reads_1.fq -2 reads_2.fq | samtools sort -@ 5 -o tmp.bam - 
bcftools mpileup -f ../reference/lambda_virus.fa tmp.bam |bcftools call -vm > tmp.vcf

linux練習(xí)題

  1. 把突變記錄的vcf文件區(qū)分成 INDEL和SNP條目
  2. 統(tǒng)計INDEL和SNP條目的各自的平均測序深度
  3. 把INDEL條目再區(qū)分成insertion和deletion情況
  4. 統(tǒng)計SNP條目的突變組合分布頻率
  5. 找到基因型不是1/1的條目,個數(shù)
  6. 篩選測序深度大于20的條目
  7. 篩選變異位點質(zhì)量值大于30的條目
  8. 組合篩選變異位點質(zhì)量值大于30并且深度大于20的條目
  9. 理解DP4=4,7,11,18這樣的字段,就是 Number of high-quality ref-forward , ref-reverse, alt-forward and alt-reverse bases 計算每個變異位點的 AF
  10. 在前面步驟的bam文件里面找到這個vcf文件的某一個突變位點的測序深度表明的那些reads,并且在IGV里面可視化bam和vcf定位到該變異位點。

其它思考題

  1. vcf的全稱是什么?是用來記錄什么信息的標(biāo)準(zhǔn)格式的文本?
  1. 一般選用哪個指令查看vcf文件,為什么不用vim?
  1. vcf文件以’##’開頭的是什么信息?請認(rèn)真查看這些信息。’#’開頭的是什么信息?
  1. Vcf文件除頭信息,每行有多少列,請詳細(xì)敘述每行的含義!請準(zhǔn)確記憶。
  1. 理解format列和樣本列的對應(yīng)關(guān)系以及GT AD DP的含義。
  1. Vcf文件第三列如果不是’.’,出現(xiàn)的rs號的id是什么?
  1. Vcf文件的ref,alt列和樣本列的0/1 1/1 或者1/2的聯(lián)系?
  1. Vcf文件一般用什么軟件生成?請至少說出兩個軟件。請注意不同軟件生成的vcf格式的稍有不同的地方。
  1. Vcf文件一般都比較大,壓縮后的.gz文件用什么指令直接查看而不用解壓后查看?
  1. 了解gvcf是什么格式,gvcf全稱是什么?他與vcf有什么前后聯(lián)系?
  1. 把alt列出現(xiàn)’,’的行提取出來
  1. 請將chrid、postion、ref、alt、format、樣本列切割出來生成一個文本
  1. 將一個含snp,indel信息的vcf拆成一個只含snp,一個只含indel信息的2個vcf文件??山梃b軟件
  1. 用指令操作indel的vcf文件,提取indel長度>4的變異行數(shù),存成一個文本。
  1. 用Vcftools過濾vcf文件,如maf 設(shè)置成0.05, depth設(shè)置成5-20,統(tǒng)計過濾前后的變異位點的總個數(shù)
  1. 利用vcftools提取每個樣本每一個位點的變異信息和深度信息,生成一個矩陣的文件,至少含義以下信息

Eg:

chrid postion sample_DP sample_GT
chr1 1010 5 AA
  1. 提取出變異位點上樣本有純和突變的行數(shù)
  1. 統(tǒng)計一下1號染色體上的變異總個數(shù)。
  1. 提取一下BRCA1基因上發(fā)生變異的行數(shù),如果是人類wes變異結(jié)果文件
  1. 統(tǒng)計vcf文件各樣本的缺失率,如果是多個樣本的群體call結(jié)果。

進階思考題:可視化vcf中變異位點質(zhì)量值,橫坐標(biāo)是質(zhì)量值,縱坐標(biāo)是百分比或者該質(zhì)量值時的變異位點的總個數(shù),可以化成線圖或者點圖(可能需要學(xué)一些代碼,還有R畫圖)

本文作者:生信技能樹團隊

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容