零基礎(chǔ)入門轉(zhuǎn)錄組上游分析——第二章(數(shù)據(jù)的準(zhǔn)備)

轉(zhuǎn)錄組上游分析的全部流程:軟件安裝——數(shù)據(jù)準(zhǔn)備——質(zhì)控——序列比對——表達(dá)定量。

俗話說的好,工欲善其事,必先利其器,要想做上游定量的小伙伴首先要學(xué)會準(zhǔn)備自己的測序數(shù)據(jù),要不然大家分析什么?

本文將手把手教你做轉(zhuǎn)錄組上游分析——第二章(數(shù)據(jù)的準(zhǔn)備)

目錄如下:

1.?準(zhǔn)備原始數(shù)據(jù)

2. 準(zhǔn)備參考基因組

3.?準(zhǔn)備參考基因組注釋文件

4. 結(jié)語


前置條件:

虛擬機(jī):vmwarewokstation,版本16.0.0,?

linux系統(tǒng):ubantu64位,版本20.04.3

模式生物:C57BL/6J(需要明確自己的樣本屬于哪一種模式生物

原始數(shù)據(jù):公司測序返回的fq文件(目前測序通常是雙端測序



1. 準(zhǔn)備原始數(shù)據(jù)

?原始數(shù)據(jù)一般是送樣給公司檢測后得到XXX.fq.gz文件,如下圖所示(Windows界面):

并且我這里是雙端測序數(shù)據(jù),因此在.fq.gz前面還會有1/2的數(shù)字標(biāo)識(原始數(shù)據(jù)的命名方式跟公司有關(guān),不同的公司命名不同,后期可以自己修改命名)。

如下圖所示,為修改命名后的文件(Windows界面):紅線以上是藥物處理組6個樣本,紅線以下是對照組6個樣本(再次注意:由于是雙端測序數(shù)據(jù),因此一個樣本會有兩個fq數(shù)據(jù)

現(xiàn)在我們已經(jīng)有了修改命名后的原始數(shù)據(jù),需要將這些文件復(fù)制到linux系統(tǒng)中供后續(xù)分析使用,接下來打開linux操作系統(tǒng),如下圖所示,我們可以看到桌面下什么文件夾都沒有。

點(diǎn)擊上圖中紅線指向的地方,打開終端,通過cd Desktop/指令,切換到桌面目錄下(如下圖所示

輸入如下指令,創(chuàng)建兩個文件夾

mkdir00_raw_datamkdir 01_ref

(1)raw_data文件夾用來存放原始數(shù)據(jù)

(2)ref文件夾用來存放參考基因組。

關(guān)閉終端,這時(shí)如下圖所示,我們就能看到桌面下多了兩個新的文件夾。

之后雙擊中打開00_raw_data文件夾,如下圖所示,直接將windows系統(tǒng)里的原始文件拖拽到00_raw_data文件夾中


2. 準(zhǔn)備參考基因組

這里我們選用Ensembl數(shù)據(jù)庫(ftp://ftp.ensembl.org/pub),打開網(wǎng)址后,我們可以看到一大堆英文命名的文件夾,對應(yīng)每個物種的英文名,我們用的是C57BL/6J,對應(yīng)的英文名是:Mus musculus,因此往下找到名為mus_musculus/的文件夾(如下圖所示)。

點(diǎn)開文件夾后,接下來我們打開dna文件夾(這個文件夾里會存放C57BL/6J小鼠每條染色體參考基因組,以及所有染色體匯總的參考基因組文件)

這里我們選擇所有染色體匯總的參考基因組,如下圖所示

文件下載的兩種方式:

(1)鼠標(biāo)左鍵點(diǎn)擊一下這個藍(lán)色的鏈接就能獲取下載(這種下載方式會下載到windows本地存儲中)。

(2)另一種下載方式是右鍵點(diǎn)擊藍(lán)色鏈接后有一個復(fù)制鏈接地址,復(fù)制到轉(zhuǎn)到linux終端中輸入如下指令,可直接下載到Linux中。

wget 復(fù)制的鏈接

????如果是第一種下載方式,跟準(zhǔn)備原始數(shù)據(jù)一樣,直接拖拽到Linux桌面下創(chuàng)建的01_ref文件夾中即可。

如果選擇第二種下載方式,最好先切換到**01_ref文件夾路徑**下再輸入wget指令,如下圖所示。


3. 準(zhǔn)備參考基因組注釋文件

這里我們還是選用Ensembl數(shù)據(jù)庫(ftp://ftp.ensembl.org/pub),打開網(wǎng)址后,我們先回退到上級目錄(如下圖所示

在上級目錄中,我們重點(diǎn)關(guān)注兩個文件夾,一個是fasta文件夾,這個就是剛才下載參考基因組的文件夾,另外一個就是gtf文件夾,這里存放著物種參考基因組注釋文件(也就是我們這一步需要的),我們點(diǎn)擊圖中gtf文件夾。

點(diǎn)開后摁ctrl+f搜索mus_musculus/即可找到C57小鼠的參考基因組注釋文件夾,如下圖所示點(diǎn)開文件夾后我們可以看到有5個文件,第四個文件就是我們所需要的參考基因組注釋文件。

文件下載的同樣是兩種方式:

(1)直接下載到本地,下載到本地的也需要拖拽到linux中01_ref文件夾下。

(2)在linux系統(tǒng)中切換到01_ref目錄下用wget指令下載(前面講過)。


4. 結(jié)語:

以上就是零基礎(chǔ)入門轉(zhuǎn)錄組上游分析——第二章(數(shù)據(jù)的準(zhǔn)備)的所有過程,如果有什么需要補(bǔ)充或不懂的地方,大家可以私聊我或者在下方評論。

如果覺得本教程對你有所幫助,希望廣大學(xué)習(xí)者能夠點(diǎn)贊,收藏,加關(guān)注

祝大家能夠開心學(xué)習(xí),輕松學(xué)習(xí),在學(xué)習(xí)的路上少一些坎坷~~~

原文參考鏈接:(原文可視化效果更好)

零基礎(chǔ)入門轉(zhuǎn)錄組上游分析——第二章(數(shù)據(jù)的準(zhǔn)備)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容