2026版RNA-seq入門實戰(zhàn)(一):GEO數(shù)據下載、格式轉化和質控清洗

本節(jié)概覽:
1.在文章中找到 GEO accession number, 從NCBI獲取數(shù)據SRR號
2.在linux中使用prefetch命令根據SRR號下載SRA文件
3.使用fasterq-dump/fastq-dump命令將SRA文件轉為FASTQ格式,pigz軟件多線程壓縮(可選)
4.使用fastqcmultiqc進行測序數(shù)據的質控查看
5.使用fastp去除低質量堿基和接頭

承接上節(jié)2026最新版RNA-seq入門實戰(zhàn)(零):RNA-seq上游流程前的準備——Linux環(huán)境創(chuàng)建 - 簡書


一、從NCBI獲取數(shù)據SRR號

數(shù)據的文章來源:
Formative pluripotent stem cells show features of epiblast cells poised for gastrulation | Cell Research (nature.com) ,該文章建立了一種處于3D環(huán)境穩(wěn)定傳代的處于活化態(tài)的小鼠多能干細胞系(mouse formative pluripotent stem cells , mfPSC),并比較了fPSC和其他多能態(tài)細胞:mESC、EpiLC和EpiSC的轉錄組數(shù)據,因此我們可以利用該數(shù)據下載比較常規(guī)的處于原始態(tài)naive的mESCs和處于始發(fā)態(tài)primed的EpiSC數(shù)據作為示范。
首先我們在文章的Data availability 下找到 GEO accession number: GSE154290

進入NCBI官網搜索GSE154290,選擇相應結果進入


找到Supplementary file 下的SRA Run Select選項

Common Fields下介紹了數(shù)據的基本信息,例如表中的PAIRED表示雙端測序數(shù)據。此次實戰(zhàn)選擇勾選 Found 27 Items下的RNA_mESCsRNA_EpiSCs各兩個數(shù)據,再選中Select下的Selected選項,下載Accession List后復制數(shù)據的SRR號


二、SRA數(shù)據下載

1. 進入分析環(huán)境與下載ID

首先激活進入我們上節(jié)中創(chuàng)建的分析環(huán)境rna_p3,

conda activate rna_p3

創(chuàng)建和進入test項目文件夾,idname文件,

mkdir test ;cd test
cat > idname

將SRR號粘貼導入

SRR12207279
SRR12207280
SRR12207283
SRR12207284

然后鍵盤ENTER鍵換行,再CTR+C終止輸入,即可得到包含下載ID的idname文件,運行效果如下

2.創(chuàng)建下載SRA數(shù)據的腳本文件

VIM編輯器是linux中最常用于編輯文件的軟件,linux系統(tǒng)自帶無需下載,使用方法很簡單,可以先嘗試熟悉操作,注意要切換為英文輸入法,基本操作如下:


首先我們用VIM編輯器編寫一個腳本文件:

vim 00_prefetch.sh 

輸入i,進入腳本編輯INSERT模式,先復制粘貼下面內容,

###############sh內容################################
echo -e "\n \n \n prefetch sra !!! \n \n \n "
date
mkdir -p ~/test/raw/sra/
cd ~/test/raw/sra/
pwd

cat  ~/test/idname | while read id ; \
do
      ( prefetch -O ./ $id & )
done             

再輸入鍵盤Esc鍵進入默認模式,輸入:wq退出并保存該腳本文件,以上腳本主要利用了sra-tools中的 prefetch命令來下載idname文件中數(shù)據ID的sra數(shù)據

3.運行數(shù)據下載腳本

通過nohup 與 & 命令使得腳本能夠在服務器保持后臺運行,所有運行情況將保存在log_00日志文件中

nohup bash 00_prefetch.sh >log_00 2>&1 &

輸入ps查看一下系統(tǒng)任務運行情況,


我們還可以下載tree軟件,它能夠展示樹狀目錄結構,便于我們后續(xù)便捷查看目錄下的文件

sudo apt-get install tree

安裝完成后再輸入tree看看當前test項目下的文件結構,查看當前目錄下文件大小可用du -h命令

任務運行沒問題,等待數(shù)據下載完畢,暫時去relax一下吧ヽ( ̄▽ ̄)?
cat log_00出現(xiàn)以下downloaded successfully字樣時表示下載完成,再輸入tree檢查數(shù)據下載情況,確認下載完成沒問題后就可以進行下一步文件格式轉化啦


三、 SRA文件轉為FASTQ格式

主要利用了sra-tool中的fasterq-dump命令轉化格式為fastq,之后用pigz軟件多線程壓縮為.gz文件節(jié)省空間(可略過),再用fastqc和multiqc進行原始數(shù)據的質控和質控匯總~


同上,先創(chuàng)建 01_sra2fq_qc1.sh 腳本文件

vim 01_sra2fq_qc1.sh 
###########################################
#移動sra子文件夾下的文件并刪除子文件夾
date
echo  -e "\n \n \n  111#  move files !!! \n \n \n  "
cd ~/test/raw/sra/
cat ~/test/idname | while read id
do
mv $id/*  ./
rm -rf $id/
done
date

echo  -e "\n \n \n  111#  sra>>>fq !!! \n \n \n  "
mkdir -p ~/test/raw/fq/
cd ~/test/raw/fq/
pwd
ls  ~/test/raw/sra/*.sra |while read id 
do
echo " PROCESS $(basename $id) "
fasterq-dump -3 -e 12 -O ./ $id
pigz -p 12   ~/test/raw/fq/*q
done
date

echo -e " \n \n \n  111# qc 1 !!! \n \n \n "       
mkdir ~/test/raw/qc1/
cd  ~/test/raw/qc1/
pwd
ls ~/test/raw/fq/* | xargs fastqc -t 12 -o  ./
multiqc ./

echo -e  " \n 111#  ALL  Work Done!!! \n "
date

運行01_sra2fq_qc1.sh 腳本文件

nohup bash 01_sra2fq_qc1.sh >log_01 2>&1 &

等待任務完成,查看一下raw文件夾下數(shù)據



四、質控清洗

1. 原始數(shù)據質量查看

查看上一步qc1文件夾下的multiqc_report.html質控匯總網頁文件,主要關注測序質量與測序接頭這兩項內容,可以發(fā)現(xiàn)該數(shù)據質量較好,平均質量均在30以上,接頭含量也很低,可能上傳的fastq已經是清洗過的了。但為了保險起見,我們一般還是會跑一遍數(shù)據清洗流程,保證后續(xù)數(shù)據質量能萬無一失,達到我們的要求。



2. 質控清洗數(shù)據

fastp 是一款高效的高通量測序數(shù)據質控工具,集成了質量過濾、接頭去除、UMI處理、低復雜度序列過濾等功能,支持多線程處理,適用于 Illumina 等平臺數(shù)據。使用fastp去除低質量堿基和接頭,相比于傳統(tǒng)的trim-galore會更快一些。
常用的基本使用參數(shù)如下:

#基本輸入輸出 
-i/-I 輸入 R1/R2 文件,-o/-O 輸出處理后的 R1/R2 文件。 -h/-j 分別生成 HTML 和 JSON 格式的質控報告。
#質量過濾
-q 堿基質量閾值(默認15),低于此值為不合格堿基。
-u 不合格堿基比例閾值(默認40%),超過則丟棄該 read。
-Q 禁用質量過濾。
#長度過濾
-l 最小長度(默認15bp),短于此值丟棄。
--length_limit 最大長度限制(默認0為不限制)。
#低復雜度過濾
-Y 復雜度閾值(默認30%),低于則丟棄。
-y 禁用復雜度過濾。
#接頭去除
-a 指定 R1 接頭序列,--adapter_sequence_r2 指定 R2 接頭。
--adapter_fasta 從 fasta 文件加載接頭序列。
-A 禁用接頭去除。
#UMI 處理
--umi 啟用,--umi_loc 指定位置(如 read1、index1)。
--umi_len 設置長度,--umi_prefix 添加前綴。
#整體切除
-f/-t 去除 R1 起始/末端若干 bp,-F/-T 對 R2 同理。
-b/-B 限制最大長度。

同樣的,我們寫一段fastp去除低質量堿基和接頭的腳本:

vim 2_cleanfq_qc2.sh 
##############################################
echo -e " \n \n \n 222# Clean ! fastp is ready to Work !!! \n \n \n"
date
mkdir ~/test/clean/
cd ~/test/clean/
pwd
##############paired#################################
## 將文件_1、_2的路徑文件名分別存儲,再合并成兩列的格式,存為config#########
ls ~/test/raw/fq/*_*1*q.gz  >1
ls ~/test/raw/fq/*_*2*q.gz  >2
 paste 1 2 >config
 cat config | while read id ;
 do
    arr=($id)
    fq1=${arr[0]}
    fq2=${arr[1]}
    (fastp -w 4 -i $fq1 -I $fq2 \
         -o ./$(basename $fq1 '.fastq.gz')_fastp_val_1.fq.gz  \
         -O ./$(basename $fq2 '.fastq.gz')_fastp_val_2.fq.gz )
 done
################single####################################
#ls ${projPath}/raw/fq/*.fastq.gz | while read id ; \
#do
#    (fastp -w 14 \
#     -i $id -o ./$(basename $id '.fastq.gz')_fastp_trimmed.fq.gz )
#done
##################################################################
echo -e "\n \n \n 222# qc2 檢查clean清洗結果!!! \n \n \n"
mkdir  ~/test/clean/qc2
cd ~/test/clean/qc2
pwd
ls ~/test/clean/*f*.gz | xargs fastqc -t 4 -o   ~/test/clean/qc2
multiqc   ./
echo -e " \n 222# ALL  Work Done !!! \n "
date

繼續(xù)后臺運行該文件即可:

nohup bash  2_cleanfq_qc2.sh >log_2 2>&1 &

3. 清洗后數(shù)據質量查看

數(shù)據清洗完成后,可以和之前一樣查看~/test/clean/qc2下的multiqc_report.html質控匯總網頁文件,我們也可以查看log_2日志,可以看到fastp對低質量堿基的處理情況及處理時間,可以看到僅需不到3分鐘就能處理一個樣品,速度相比其他軟件是相當快了:



最后查看一下我們目錄下的文件,最終在clean文件夾下面獲得了fastp數(shù)據清洗后的 fastq文件:

ll -h clean/

到此,我們完成了RNAseq原始數(shù)據的下載、格式轉化和質控清洗步驟,得到了經過質控后存放于clean文件夾下的fastq文件,接下來就可以利用這些cleaned fastq文件進行下一步的比對、計數(shù)(hisat2+feature_counts 或 salmon),最終得到我們想要的counts文件

本實戰(zhàn)教程基于以下生信技能樹分享的視頻:
【生信技能樹】轉錄組測序數(shù)據分析_嗶哩嗶哩_bilibili
【生信技能樹】GEO數(shù)據庫挖掘_嗶哩嗶哩_bilibili


?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容