
轉(zhuǎn)錄組上游分析的全部流程:軟件安裝——數(shù)據(jù)準(zhǔn)備——質(zhì)控——序列比對——表達(dá)定量。
俗話說的好,工欲善其事,必先利其器,要想做上游定量的小伙伴首先要學(xué)會準(zhǔn)備自己的測序數(shù)據(jù),要不然大家分析什么?
本文將手把手教你做轉(zhuǎn)錄組上游分析——第二章(數(shù)據(jù)的準(zhǔn)備)
目錄如下:
1.?準(zhǔn)備原始數(shù)據(jù)
2. 準(zhǔn)備參考基因組
3.?準(zhǔn)備參考基因組注釋文件
4. 結(jié)語
前置條件:
虛擬機(jī):vmwarewokstation,版本16.0.0,?
linux系統(tǒng):ubantu64位,版本20.04.3
模式生物:C57BL/6J(需要明確自己的樣本屬于哪一種模式生物)
原始數(shù)據(jù):公司測序返回的fq文件(目前測序通常是雙端測序)
1. 準(zhǔn)備原始數(shù)據(jù)
?原始數(shù)據(jù)一般是送樣給公司檢測后得到XXX.fq.gz文件,如下圖所示(Windows界面):

并且我這里是雙端測序數(shù)據(jù),因此在.fq.gz前面還會有1/2的數(shù)字標(biāo)識(原始數(shù)據(jù)的命名方式跟公司有關(guān),不同的公司命名不同,后期可以自己修改命名)。
如下圖所示,為修改命名后的文件(Windows界面):紅線以上是藥物處理組6個樣本,紅線以下是對照組6個樣本(再次注意:由于是雙端測序數(shù)據(jù),因此一個樣本會有兩個fq數(shù)據(jù))

現(xiàn)在我們已經(jīng)有了修改命名后的原始數(shù)據(jù),需要將這些文件復(fù)制到linux系統(tǒng)中供后續(xù)分析使用,接下來打開linux操作系統(tǒng),如下圖所示,我們可以看到桌面下什么文件夾都沒有。

點(diǎn)擊上圖中紅線指向的地方,打開終端,通過cd Desktop/指令,切換到桌面目錄下(如下圖所示)

輸入如下指令,創(chuàng)建兩個文件夾
mkdir00_raw_datamkdir 01_ref
(1)raw_data文件夾用來存放原始數(shù)據(jù)
(2)ref文件夾用來存放參考基因組。
關(guān)閉終端,這時(shí)如下圖所示,我們就能看到桌面下多了兩個新的文件夾。

之后雙擊中打開00_raw_data文件夾,如下圖所示,直接將windows系統(tǒng)里的原始文件拖拽到00_raw_data文件夾中

2. 準(zhǔn)備參考基因組
這里我們選用Ensembl數(shù)據(jù)庫(ftp://ftp.ensembl.org/pub),打開網(wǎng)址后,我們可以看到一大堆英文命名的文件夾,對應(yīng)每個物種的英文名,我們用的是C57BL/6J,對應(yīng)的英文名是:Mus musculus,因此往下找到名為mus_musculus/的文件夾(如下圖所示)。

點(diǎn)開文件夾后,接下來我們打開dna文件夾(這個文件夾里會存放C57BL/6J小鼠每條染色體參考基因組,以及所有染色體匯總的參考基因組文件)。

這里我們選擇所有染色體匯總的參考基因組,如下圖所示:

文件下載的兩種方式:
(1)鼠標(biāo)左鍵點(diǎn)擊一下這個藍(lán)色的鏈接就能獲取下載(這種下載方式會下載到windows本地存儲中)。
(2)另一種下載方式是右鍵點(diǎn)擊藍(lán)色鏈接后有一個復(fù)制鏈接地址,復(fù)制到轉(zhuǎn)到linux終端中輸入如下指令,可直接下載到Linux中。
wget 復(fù)制的鏈接
????如果是第一種下載方式,跟準(zhǔn)備原始數(shù)據(jù)一樣,直接拖拽到Linux桌面下創(chuàng)建的01_ref文件夾中即可。
如果選擇第二種下載方式,最好先切換到**01_ref文件夾路徑**下再輸入wget指令,如下圖所示。

3. 準(zhǔn)備參考基因組注釋文件
這里我們還是選用Ensembl數(shù)據(jù)庫(ftp://ftp.ensembl.org/pub),打開網(wǎng)址后,我們先回退到上級目錄(如下圖所示)

在上級目錄中,我們重點(diǎn)關(guān)注兩個文件夾,一個是fasta文件夾,這個就是剛才下載參考基因組的文件夾,另外一個就是gtf文件夾,這里存放著物種參考基因組注釋文件(也就是我們這一步需要的),我們點(diǎn)擊圖中gtf文件夾。

點(diǎn)開后摁ctrl+f搜索mus_musculus/即可找到C57小鼠的參考基因組注釋文件夾,如下圖所示點(diǎn)開文件夾后我們可以看到有5個文件,第四個文件就是我們所需要的參考基因組注釋文件。

文件下載的同樣是兩種方式:
(1)直接下載到本地,下載到本地的也需要拖拽到linux中01_ref文件夾下。
(2)在linux系統(tǒng)中切換到01_ref目錄下用wget指令下載(前面講過)。
4. 結(jié)語:
以上就是零基礎(chǔ)入門轉(zhuǎn)錄組上游分析——第二章(數(shù)據(jù)的準(zhǔn)備)的所有過程,如果有什么需要補(bǔ)充或不懂的地方,大家可以私聊我或者在下方評論。
如果覺得本教程對你有所幫助,希望廣大學(xué)習(xí)者能夠點(diǎn)贊,收藏,加關(guān)注
祝大家能夠開心學(xué)習(xí),輕松學(xué)習(xí),在學(xué)習(xí)的路上少一些坎坷~~~