各種常用的處理命令

●在fastq-dump拆分SRA文件時遇到報錯

image.png
解決方案:

因為NCBI上的下載鏈接從http變?yōu)榱薶ttps,所以安裝最新版sratoolkit即可解決問題

●使用fasterq-dump拆分SRA文件,速度更快

fasterq-dump --split-files SRR934398.sra -e 10 -p

##--split-files最好是--split-3,但是有些特殊情況--split-3拆分不開雙端數(shù)據(jù)就用--split-files。

●遇到報錯error while loading shared libraries: libcrypto.so.1.0.0: cannot open shared object file: No such file or directory

1、先查看libcrypto.so.1.0所在目錄
image.png

發(fā)現(xiàn)沒有libcrypto.so.1.0.0這個文件,因此,嘗試建立一個叫libcrypto.so.1.0.0的符號鏈接向/usr/lib64/libcrypto.so.1.0.2k

2、建立軟鏈接
ln -s /usr/lib64/libcrypto.so.1.0.2k ~/miniconda3/lib/libcrypto.so.1.0.0

●統(tǒng)計測序深度,使用vcf文件

vcftools --vcf test.vcf \
         --depth -c \
         > depth_summary.txt

●提取染色體片段

       vcftools --gzvcf Duroc.vcf.gz \
                --chr NC_010484.4 \
                --from-bp 181225 \
                --to-bp 182187 \
                --out MC1R-Duroc.vcf \
                --recode \
                --recode-INFO-all 

●提取文件中的某幾列

awk '{print$1,$2}' fileame.vcf > filename.txt
##$1代表第一列

●根據(jù)位置提取vcf文件對應(yīng)位點(diǎn)的信息

vcftools --vcf 12_28.filter.snps.indels.vcf --positions test.txt --out test --recode

●提取某一列數(shù)值滿足條件的列

awk -F'\t' '{if ($3 == 1) print $1\t$2\t$3}' t.txt > 1.txt

#以Tab鍵分割
awk 'BEGIN{IFS='\t'}{if ($5 > 0) print $1,$2,$2+1,$5}' 12.26-CHINA.freq.frq > 12.26-CHINA.maf0.frq.txt

●提取某些樣本

bcftools view -S id.txt 20211005_sheep_222_total.vcf.gz > tibetan_36.vcf 

###●其中 id.txt 為一列樣本id

●去除vcf文件中帶*的等位基因

grep -v "*" JBC-geno005-maf005.vcf > JBC-geno005-maf005.filter.vcf

●格式轉(zhuǎn)化

1 bed、bim、fam轉(zhuǎn)vcf
plink --allow-extra-chr \
      --chr-set 26 \
      -bfile xll \
      --recode vcf-iid \
      --out xll
2 bed、bim、fam轉(zhuǎn)map、ped
plink --allow-extra-chr \
      --chr-set 26 \
      -bfile filename \
      --recode \
      --out filename
3 ped、map轉(zhuǎn)bed、bim、fam
plink --allow-extra-chr \
      --chr-set 26 \
      --file tibetan_36 \
      --make-bed \
      --out tibetan_36
4 map、ped轉(zhuǎn)為vcf
plink --allow-extra-chr \
      --chr-set 26 \
      -file xll \
      --recode vcf-iid \
      --out xll
5 vcf轉(zhuǎn)ped、map
plink --allow-extra-chr \
      --chr-set 26 \
      --vcf tibetan_36.vcf \
      --recode \
      --double-id \   
      --out tibetan_36
###double-id兩個family id 和idividual id一樣,所以加上了這個代碼
6 vcf轉(zhuǎn)bed、bim、fam
plink --allow-extra-chr \
      --chr-set 26 \ 
      -vcf XXX.vcf \
      --make-bed \
      --double-id \
      --out XXX

●缺失率統(tǒng)計

## 按照位點(diǎn)統(tǒng)計
vcftools --gzvcf test.vcf.gz \
         --missing-site \
         --out test.SNP_missing 
## 按照個體統(tǒng)計
vcftools --vcf  test.vcf   \
         --missing-indv \
         --out test.SNP_missing

●過濾indel和snp

## INDEL
vcftools --remove-indels \
         --recode \
         --recode-INFO-all \
         --vcf test.vcf \
         --stdout \
         > test.snp.vcf
## SNP
vcftools --keep-only-indels  \
         --recode \
         --recode-INFO-all \
         --vcf test.vcf \
         --stdout \
         > test.indel.vcf

●去除多等位基因及indel

bcftools view -m 2 \
              -M 2 \
              --type "snps"  test.vcf.gz \
              -Ov \
              -o test.record.snps.vcf.gz

## 注意一下:-O為輸出文件的格式,其中z為壓縮的vcf文件,v為正常的vcf文件,
vcftools --vcf   test.vcf \
         --remove-indels \
         --min-alleles 2 \
         --max-alleles 2 \
         --recode \
         --recode-INFO-all \
         --stdout \
         > test.miss.snp.vcf
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 3010份亞洲稻群體重測序項目是由中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所牽頭,聯(lián)合國際水稻研究所、華大基因等16家單位共同完...
    Nuvolar閱讀 12,696評論 14 19
  • 按照前人的教程,跑了跑GWAS流程,作為初學(xué)者,歡迎大家提問,指教。 數(shù)據(jù)來源:A new regulator o...
    1yon閱讀 4,254評論 0 10
  • #########################################################...
    bettermaan閱讀 3,295評論 1 7
  • 自己找了一些文章和視頻,先總結(jié)了一部分,后面再做補(bǔ)充和實(shí)操 一. 相關(guān)概念理解 (1)GWAS: 全稱“全基因組關(guān)...
    奔跑的Forrest閱讀 20,175評論 2 39
  • PLINK語法體驗 by張成龍 郵箱:yianquanwl@qq.com[mailto:yianquanwl@qq...
    超級宇航員閱讀 8,035評論 0 20

友情鏈接更多精彩內(nèi)容