一個超簡單的轉錄組項目全過程--iMac+RNA-Seq(三)Alignment 比對

前期文章

一個超簡單的轉錄組項目全過程--iMac+RNA-Seq(一)
一個超簡單的轉錄組項目全過程--iMac+RNA-Seq(二)QC

3 Alignment

有很多軟件都可以比對到參考基因組,hisat2,bowtie2,STAR等等(手上這臺iMac不夠內存跑STAR)

首先學一下hisat2的用法
hisat2 --help  ## 主要要學會使用--help等參數調用幫助文檔(軟件說明書)
Usage:
hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | 
-U <r> | --sra-acc <SRA accession number>} [-S <sam>]

-p/--threads <int> number of alignment threads to launch (1)
用法一,一步一個腳印
## 用“指鹿為馬“的方法,將會重復出現的路徑等縮略
wkd=/Users/Desktop/project

## 比對
cd $wkd/clean 

ls *gz|cut -d"_" -f 1,2 |sort -u |\
while read id; 
do 
   ls -lh ${id}R1_val_1.fq.gz ${id}R2_val_2.fq.gz 
   hisat2 -p 4 -x \
          /Users/Desktop/project/reference/hg38/hisat2 \ 
          -1 ${id}1_val_1.fq.gz \
          -2 ${id}2_val_2.fq.gz -S ${id}.hisat.sam 
done 

## 轉為二進制文件sam to bam
ls *.bam| while read id; 
do 
(samtools sort -@ 4 -o $(basename ${id}".sam").bam ${id});
done
rm *.sam  # 移除sam文件
用法二:一步到位
vim align.sh ## 創(chuàng)建一個腳本,寫入以下內容

#!/bin/bash
set -e
set -u
set -o pipefail

# source activate rna

# set PATH
HISAT2=/Users/Desktop/project/reference/hg38/hisat2

pwd

ls *gz | cut -d"_" -f 1,2 | sort -u |\
while read id
do
     echo "processing  ${id}_R1_val_1.fq.gz ${id}_R2_val_2.fq.gz"
     hisat2 -p 4 -x \
            $HISAT2/hg38.ht2 \ 
            -1 ${id}_R1_val_1.fq.gz \
            -2 ${id}_R2_val_2.fq.gz |\
            samtools sort -@ 4 > ${id}.hisat.bam


done
# source deactivate

運行腳本

nohup bash align.sh &

查看結果

請關注比對報告中的aligned concordantly exactly 1 time這一項內容,至少要80 %以上。

小彩蛋:洲更老師的錦囊 jobs and disown的使用

當我忘記nohup腳本的時候,但我又要離開實驗室了,這時候使用disown幫助把跑到一半的任務丟到后臺,驚呆了!神仙走位!

小結:本章所需知識背景

(1)什么是比對,比對前后數據的變化;

(2)fasta,fastq文件的規(guī)則以及包含的信息;

(3)比對結果的查看,比對率的由來。

以上知識點均可以在網上查到,建議在進行著一部分項目的時候,一定要補充上最基本的知識點。

問題集錦

收到了幾個小問題,不過我?guī)缀醵紵o法解答,但我可以找到答案~

  1. 我的怎么QC怎么回事?跑著跑著跑著就停了呀。


    QC報錯?

問了代碼才知道問題可能出在input上,過濾結束后的樣本名是val.fq.gz ,出現這樣結果的原因,應該是過濾出錯了。

for id in {xx1,xx2,xxx3};
do 
echo "Processin sample ${id}"
hisat2 -p 5 -x /data1/reference/index/hisat2/hg19/hg19 \
-1 /data1/projects/clean/${id}_R1_trimmed.fq.gz \
-2 /data1projects/clean/${id}_R2_trimmed.fq.gz \
-S /data1/projects/align1/${id}.hisat.sam
done 
  1. 為什么比對率這么低?


    image.png

    解答:


    image.png
  2. 比對率的計算好像不對?
    怎么加起來都不等于96.7%呀?
    這樣的問題,一般我都解決不了,我會直接放棄,然后尋求幫助。


解答:
具體請看簡書:2018-12-04 Hisat2 map 結果與 samtools flagstat 結果不一致

感謝洲更

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容