本節(jié)概覽：
1.在文章中找到 GEO accession number, 從NCBI獲取數(shù)據SRR號
2.在linux中使用prefetch命令根據SRR號下載SRA文件
3.使用fasterq-dump/fastq-dump命令將SRA文件轉為FASTQ格式，pigz軟件多線程壓縮（可選）
4.使用fastqc和multiqc進行測序數(shù)據的質控查看
5.使用fastp去除低質量堿基和接頭

一、從NCBI獲取數(shù)據SRR號

數(shù)據的文章來源：
Formative pluripotent stem cells show features of epiblast cells poised for gastrulation | Cell Research (nature.com) ，該文章建立了一種處于3D環(huán)境穩(wěn)定傳代的處于活化態(tài)的小鼠多能干細胞系（mouse formative pluripotent stem cells ， mfPSC），并比較了fPSC和其他多能態(tài)細胞：mESC、EpiLC和EpiSC的轉錄組數(shù)據，因此我們可以利用該數(shù)據下載比較常規(guī)的處于原始態(tài)naive的mESCs和處于始發(fā)態(tài)primed的EpiSC數(shù)據作為示范。
首先我們在文章的Data availability 下找到 GEO accession number: GSE154290

進入NCBI官網搜索GSE154290，選擇相應結果進入

找到Supplementary file 下的SRA Run Select選項

Common Fields下介紹了數(shù)據的基本信息，例如表中的PAIRED表示雙端測序數(shù)據。此次實戰(zhàn)選擇勾選 Found 27 Items下的RNA_mESCs和RNA_EpiSCs各兩個數(shù)據，再選中Select下的Selected選項，下載Accession List后復制數(shù)據的SRR號

二、SRA數(shù)據下載

1. 進入分析環(huán)境與下載ID

首先激活進入我們上節(jié)中創(chuàng)建的分析環(huán)境rna_p3,

conda activate rna_p3

創(chuàng)建和進入test項目文件夾，idname文件，

mkdir test ;cd test
cat > idname

將SRR號粘貼導入

SRR12207279
SRR12207280
SRR12207283
SRR12207284

然后鍵盤ENTER鍵換行，再CTR+C終止輸入，即可得到包含下載ID的idname文件，運行效果如下

2.創(chuàng)建下載SRA數(shù)據的腳本文件

VIM編輯器是linux中最常用于編輯文件的軟件，linux系統(tǒng)自帶無需下載，使用方法很簡單，可以先嘗試熟悉操作，注意要切換為英文輸入法，基本操作如下：

首先我們用VIM編輯器編寫一個腳本文件：

vim 00_prefetch.sh

輸入i，進入腳本編輯INSERT模式，先復制粘貼下面內容，

###############sh內容################################
echo -e "\n \n \n prefetch sra !!! \n \n \n "
date
mkdir -p ~/test/raw/sra/
cd ~/test/raw/sra/
pwd

cat  ~/test/idname | while read id ; \
do
      ( prefetch -O ./ $id & )
done

再輸入鍵盤Esc鍵進入默認模式，輸入:wq退出并保存該腳本文件，以上腳本主要利用了sra-tools中的 prefetch命令來下載idname文件中數(shù)據ID的sra數(shù)據

3.運行數(shù)據下載腳本

通過nohup 與 & 命令使得腳本能夠在服務器保持后臺運行，所有運行情況將保存在log_00日志文件中

nohup bash 00_prefetch.sh >log_00 2>&1 &

輸入ps查看一下系統(tǒng)任務運行情況，

我們還可以下載tree軟件，它能夠展示樹狀目錄結構，便于我們后續(xù)便捷查看目錄下的文件

sudo apt-get install tree

安裝完成后再輸入tree看看當前test項目下的文件結構，查看當前目錄下文件大小可用du -h命令

任務運行沒問題，等待數(shù)據下載完畢，暫時去relax一下吧ヽ(￣▽￣)?
當cat log_00出現(xiàn)以下downloaded successfully字樣時表示下載完成，再輸入tree檢查數(shù)據下載情況，確認下載完成沒問題后就可以進行下一步文件格式轉化啦

三、 SRA文件轉為FASTQ格式

主要利用了sra-tool中的fasterq-dump命令轉化格式為fastq，之后用pigz軟件多線程壓縮為.gz文件節(jié)省空間（可略過），再用fastqc和multiqc進行原始數(shù)據的質控和質控匯總~

同上，先創(chuàng)建 01_sra2fq_qc1.sh 腳本文件

vim 01_sra2fq_qc1.sh

###########################################
#移動sra子文件夾下的文件并刪除子文件夾
date
echo  -e "\n \n \n  111#  move files !!! \n \n \n  "
cd ~/test/raw/sra/
cat ~/test/idname | while read id
do
mv $id/*  ./
rm -rf $id/
done
date

echo  -e "\n \n \n  111#  sra>>>fq !!! \n \n \n  "
mkdir -p ~/test/raw/fq/
cd ~/test/raw/fq/
pwd
ls  ~/test/raw/sra/*.sra |while read id 
do
echo " PROCESS $(basename $id) "
fasterq-dump -3 -e 12 -O ./ $id
pigz -p 12   ~/test/raw/fq/*q
done
date

echo -e " \n \n \n  111# qc 1 !!! \n \n \n "       
mkdir ~/test/raw/qc1/
cd  ~/test/raw/qc1/
pwd
ls ~/test/raw/fq/* | xargs fastqc -t 12 -o  ./
multiqc ./

echo -e  " \n 111#  ALL  Work Done!!! \n "
date

運行01_sra2fq_qc1.sh 腳本文件

nohup bash 01_sra2fq_qc1.sh >log_01 2>&1 &

等待任務完成，查看一下raw文件夾下數(shù)據

四、質控清洗

1. 原始數(shù)據質量查看

查看上一步qc1文件夾下的multiqc_report.html質控匯總網頁文件，主要關注測序質量與測序接頭這兩項內容，可以發(fā)現(xiàn)該數(shù)據質量較好，平均質量均在30以上，接頭含量也很低，可能上傳的fastq已經是清洗過的了。但為了保險起見，我們一般還是會跑一遍數(shù)據清洗流程，保證后續(xù)數(shù)據質量能萬無一失，達到我們的要求。

2. 質控清洗數(shù)據

fastp 是一款高效的高通量測序數(shù)據質控工具，集成了質量過濾、接頭去除、UMI處理、低復雜度序列過濾等功能，支持多線程處理，適用于 Illumina 等平臺數(shù)據。使用fastp去除低質量堿基和接頭，相比于傳統(tǒng)的trim-galore會更快一些。
常用的基本使用參數(shù)如下：

#基本輸入輸出 
-i/-I 輸入 R1/R2 文件，-o/-O 輸出處理后的 R1/R2 文件。 -h/-j 分別生成 HTML 和 JSON 格式的質控報告。
#質量過濾
-q 堿基質量閾值（默認15），低于此值為不合格堿基。
-u 不合格堿基比例閾值（默認40%），超過則丟棄該 read。
-Q 禁用質量過濾。
#長度過濾
-l 最小長度（默認15bp），短于此值丟棄。
--length_limit 最大長度限制（默認0為不限制）。
#低復雜度過濾
-Y 復雜度閾值（默認30%），低于則丟棄。
-y 禁用復雜度過濾。
#接頭去除
-a 指定 R1 接頭序列，--adapter_sequence_r2 指定 R2 接頭。
--adapter_fasta 從 fasta 文件加載接頭序列。
-A 禁用接頭去除。
#UMI 處理
--umi 啟用，--umi_loc 指定位置（如 read1、index1）。
--umi_len 設置長度，--umi_prefix 添加前綴。
#整體切除
-f/-t 去除 R1 起始/末端若干 bp，-F/-T 對 R2 同理。
-b/-B 限制最大長度。

同樣的，我們寫一段fastp去除低質量堿基和接頭的腳本：

vim 2_cleanfq_qc2.sh

##############################################
echo -e " \n \n \n 222# Clean ! fastp is ready to Work !!! \n \n \n"
date
mkdir ~/test/clean/
cd ~/test/clean/
pwd
##############paired#################################
## 將文件_1、_2的路徑文件名分別存儲，再合并成兩列的格式，存為config#########
ls ~/test/raw/fq/*_*1*q.gz  >1
ls ~/test/raw/fq/*_*2*q.gz  >2
 paste 1 2 >config
 cat config | while read id ;
 do
    arr=($id)
    fq1=${arr[0]}
    fq2=${arr[1]}
    (fastp -w 4 -i $fq1 -I $fq2 \
         -o ./$(basename $fq1 '.fastq.gz')_fastp_val_1.fq.gz  \
         -O ./$(basename $fq2 '.fastq.gz')_fastp_val_2.fq.gz )
 done
################single####################################
#ls ${projPath}/raw/fq/*.fastq.gz | while read id ; \
#do
#    (fastp -w 14 \
#     -i $id -o ./$(basename $id '.fastq.gz')_fastp_trimmed.fq.gz )
#done
##################################################################
echo -e "\n \n \n 222# qc2 檢查clean清洗結果!!! \n \n \n"
mkdir  ~/test/clean/qc2
cd ~/test/clean/qc2
pwd
ls ~/test/clean/*f*.gz | xargs fastqc -t 4 -o   ~/test/clean/qc2
multiqc   ./
echo -e " \n 222# ALL  Work Done !!! \n "
date

繼續(xù)后臺運行該文件即可：

nohup bash  2_cleanfq_qc2.sh >log_2 2>&1 &

3. 清洗后數(shù)據質量查看

數(shù)據清洗完成后，可以和之前一樣查看~/test/clean/qc2下的multiqc_report.html質控匯總網頁文件，我們也可以查看log_2日志，可以看到fastp對低質量堿基的處理情況及處理時間,可以看到僅需不到3分鐘就能處理一個樣品，速度相比其他軟件是相當快了：

最后查看一下我們目錄下的文件，最終在clean文件夾下面獲得了fastp數(shù)據清洗后的 fastq文件：

ll -h clean/

到此，我們完成了RNAseq原始數(shù)據的下載、格式轉化和質控清洗步驟，得到了經過質控后存放于clean文件夾下的fastq文件，接下來就可以利用這些cleaned fastq文件進行下一步的比對、計數(shù)（hisat2+feature_counts 或 salmon），最終得到我們想要的counts文件

本實戰(zhàn)教程基于以下生信技能樹分享的視頻：
【生信技能樹】轉錄組測序數(shù)據分析_嗶哩嗶哩_bilibili
【生信技能樹】GEO數(shù)據庫挖掘_嗶哩嗶哩_bilibili

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2026版RNA-seq入門實戰(zhàn)（一）：GEO數(shù)據下載、格式轉化和質控清洗

2026版RNA-seq入門實戰(zhàn)（一）：GEO數(shù)據下載、格式轉化和質控清洗

一、從NCBI獲取數(shù)據SRR號

二、SRA數(shù)據下載

1. 進入分析環(huán)境與下載ID

2.創(chuàng)建下載SRA數(shù)據的腳本文件

3.運行數(shù)據下載腳本

三、 SRA文件轉為FASTQ格式

四、質控清洗

1. 原始數(shù)據質量查看

2. 質控清洗數(shù)據

3. 清洗后數(shù)據質量查看

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2026版RNA-seq入門實戰(zhàn)（一）：GEO數(shù)據下載、格式轉化和質控清洗

一、從NCBI獲取數(shù)據SRR號

二、SRA數(shù)據下載

1. 進入分析環(huán)境與下載ID

2.創(chuàng)建下載SRA數(shù)據的腳本文件

3.運行數(shù)據下載腳本

三、 SRA文件轉為FASTQ格式

四、質控清洗

1. 原始數(shù)據質量查看

2. 質控清洗數(shù)據

3. 清洗后數(shù)據質量查看

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2026版RNA-seq入門實戰(zhàn)（一）：GEO數(shù)據下載、格式轉化和質控清洗

一、從NCBI獲取數(shù)據SRR號

二、SRA數(shù)據下載

四、質控清洗