隨著測序成本的不斷下降,轉(zhuǎn)錄組測序分析已然成為生物學及醫(yī)學研究不可或缺的技術手段。
重點介紹一下轉(zhuǎn)錄組測序分析的相關知識。
Question and Answer
1、什么是轉(zhuǎn)錄組測序?
轉(zhuǎn)錄組廣義上指在某一生理條件下,細胞內(nèi)所有轉(zhuǎn)錄組產(chǎn)物的集合,包括:mRNA、ncRNA、rRNA等;狹義上指所有mRNA的集合。
轉(zhuǎn)錄組測序的研究對象為特定細胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,主要包括mRNA和ncRNA。
轉(zhuǎn)錄組具有時間特異性、組織特異性、空間特異性等特點。
2、無參轉(zhuǎn)錄組和有參轉(zhuǎn)錄組的區(qū)別?
如果所研究的物種有組裝注釋質(zhì)量較好基因組序列,且和該基因組序列比對效率較高,那么可以采用有參轉(zhuǎn)錄組的分析策略,直接進行分析。反之,則需要按照無參轉(zhuǎn)錄組的分析策略進行轉(zhuǎn)錄本組裝,構建unigene庫,然后進行后續(xù)分析。
3、普通轉(zhuǎn)錄組測序適用于哪些情況?
普通轉(zhuǎn)錄組測序主要適用于兩大類:一是不同的生長階段或者發(fā)育過程;二是不同的環(huán)境、藥物、病原菌等逆境脅迫處理。
4、轉(zhuǎn)錄組測序推薦的測序數(shù)據(jù)量?
轉(zhuǎn)錄組測序所需數(shù)據(jù)量與所研究物種的基因組大小有關,基因組越大,則所需數(shù)據(jù)量越大。按照我們的經(jīng)驗來說:
常規(guī)物種一般建議6G數(shù)據(jù)即可;
基因組較大的物種推薦8G以上數(shù)據(jù),比如:小麥建議10G數(shù)據(jù)起,甘蔗、甘薯建議至少8G數(shù)據(jù)。
5、轉(zhuǎn)錄組測序的取樣建議?
取樣要遵守三個原則:代表性和一致性原則、迅速性原則、低溫原則。具體可以參考小編之前發(fā)的一篇推文《高通量測序及蛋白組學相關樣品準備須知》藍字為鏈接可點擊。
6、轉(zhuǎn)錄組測序必須做生物學重復么?需要幾個重復?
生物學重復是生物實驗所必須的,轉(zhuǎn)錄組測序也不例外,至少3 次生物學重復。
準備生物重復樣品時,通過對實驗的預先設計和控制,盡可能將與實驗處理無關的背景條件控制在同一水平,減少批次效應對結果的影響。
7、轉(zhuǎn)錄組測序可以同時測到mRNA、lncRNA、micRNA以及circRNA么?
我們通常所講的轉(zhuǎn)錄組測序只能測到mRNA。但是全轉(zhuǎn)錄組測序通過構建兩個測序文庫(一是小RNA測序文庫、二是lncRNA測序文庫)是可以測到以上4種RNA的。
8、有參轉(zhuǎn)錄組測序分析中,與參考基因組的比對效率多高才能夠滿足后續(xù)分析?
與參考基因組的比對效率與多個因素有關,包括基因組組裝質(zhì)量、測序質(zhì)量、有無污染等;一般來說,與參考基因組的比對效率在70%以上時,該基因組可以滿足后續(xù)的分析需求。當比對效率低于60%時,需要考慮換參考基因組或者按照無參轉(zhuǎn)錄組分析策略進行分析。
9、所研究物種有參考基因組時,必須按照有參的來分析么?
按照有參或者無參進行轉(zhuǎn)錄組分析,取決于基因組的質(zhì)量、所研究物種與參考基因組的比對效率。具體如下:
若參考基因組質(zhì)量較差,則可以選擇按照無參轉(zhuǎn)錄組分析策略進行分析;
若所研究物種與參考基因組比對效率比較低,則需要按照無參轉(zhuǎn)錄組分析策略進行分析。
10、做完轉(zhuǎn)錄組之后一定要進行Q-PCR驗證么?一般驗證多少個差異基因合適?
目前來說,Q-PCR驗證是轉(zhuǎn)錄組測序分析必不可少的補充驗證實驗,發(fā)文章必須。一般驗證15-20個差異基因比較合適。
11、Q-PCR與轉(zhuǎn)錄組測序結果的吻合度一般多高是合適的?為什么會出現(xiàn)不吻合的現(xiàn)象?
Q-PCR與有參轉(zhuǎn)錄組分析結果的吻合度在80%以上;Q-PCR與無參轉(zhuǎn)錄組分析結果的吻合度在70%以上。
出現(xiàn)結果不吻合現(xiàn)象的原因如下:實驗所用樣本弄混;沒有使用與轉(zhuǎn)錄組測序同一批的樣本進行Q-PCR驗證;挑選的基因表達量較低或差異不顯著。
12、轉(zhuǎn)錄組測序的后續(xù)補充分析有哪些?
做完轉(zhuǎn)錄組測序可以考慮以下分析內(nèi)容做為補充,用于提高文章檔次和深度。
可變剪接的深入分析(對生信基礎要求較高)
基因家族分析(基因家族分析發(fā)SCI-多、快、好、省!)藍字為鏈接可點擊
WGCNA分析(你距離SCI文章只差一個WGCNA分析)藍字為鏈接可點擊
其他分析(參考其他人的高分文章,整理自己的個性化分析思路)
13、有參轉(zhuǎn)錄組測序分析的結果文件中有全部基因的cds序列么?在哪個文件中?
一般來說結果文件中有全部基因的cds序列。我公司有參轉(zhuǎn)錄組分析結果中的基因cds序列信息位于Gene_Func_Anno文件夾下面的NewGene中的All.longest_transcript.fa文件里。
14、轉(zhuǎn)錄組測序分析常用的數(shù)據(jù)庫有哪些?重點關注哪些注釋信息?
Nr:NCBI非冗余蛋白數(shù)據(jù)庫,包含的信息很全面,?注釋到的基因較多。
COG?:中文釋義即“同源蛋白簇”。COG?分為兩類,一類是原核生物的,另一類是真核生物。原核生物的一般稱為?COG?數(shù)據(jù)庫;真核生物的一般稱為?KOG?數(shù)據(jù)庫。
SWISS-PROT:經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,數(shù)據(jù)庫中的蛋白質(zhì)的功能經(jīng)過了試驗驗證,注釋是精確的;
TrEMBL:數(shù)據(jù)庫全稱“Translation of EMBL”,是從EMBL中的cDNA序列翻譯得到的,其中TrEMBL收錄的是未經(jīng)人工注釋的編碼DNA序列翻譯數(shù)據(jù);
KEGG:翻譯成中文是京都基因與基因組百科全書,是一個整合了基因組、化學和系統(tǒng)功能信息的數(shù)據(jù)庫,旨在揭示生命現(xiàn)象的遺傳與化學藍圖。它是由人工創(chuàng)建的一個知識庫,KEGG數(shù)據(jù)庫最優(yōu)的地方在于擁有描繪已知通路的代謝通路圖。另外KEGG中有一個“專有名詞”KO(KEGG Orthology),它是蛋白質(zhì)(酶)的一個分類體系,序列高度相似,并且在同一條通路上有相似功能的蛋白質(zhì)被歸為一組,然后打上KO(或K)標簽,一般用字母K后面加5個數(shù)字表示。KEGG_ID?是pathway的ID,表示方法是2-4個字母,后面跟上5個數(shù)字;
GO(gene ontology):是基因本體聯(lián)合會(Gene Onotology Consortium)所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,對基因和蛋白質(zhì)功能進行限定和描述的數(shù)據(jù)庫。按照三大類別BP(生物學過程)、 MF((分子功能)、CC(細胞組分)對基因的產(chǎn)物-蛋白質(zhì)進行了分類,并能隨著研究不斷深入而更新的語言詞匯標準。在GO數(shù)據(jù)庫中,本質(zhì)上是一個有向無環(huán)圖的數(shù)據(jù)結構,在三大類別之下,又有小的分類層級,一層一層的分類下去。對于某個具體的GO號來說,代表一組同源蛋白,擁有相似的結構和功能;
Pfam:是一個被廣泛使用的蛋白家族數(shù)據(jù)庫,它有兩個數(shù)據(jù)庫,高質(zhì)量,手工確定的Pfam-A,自動注釋的Pfam-B數(shù)據(jù)庫。
15、差異分析的篩選標準默認是多少?是固定不變的么?
差異分析的篩選標準默認為:Fold Change≥2且FDR<0.01。篩選條件要靈活,要根據(jù)情況進行參數(shù)調(diào)整,數(shù)據(jù)是死的,人是活的,要靈活變通。
16、unigene和轉(zhuǎn)錄本的區(qū)別?
unigene是轉(zhuǎn)錄本的子集。首先通過triniy組裝出來的視為轉(zhuǎn)錄本,然后挑選最長的一條轉(zhuǎn)錄本作為unigene。
17、差異基因太多,注釋信息太雜亂,怎么挑選目標基因?
可以根據(jù)KEGG和GO富集分析結果,挑選富集程度較高的代謝通路和GO terms,進而查看相關的差異基因;
對不同的差異組合進行維恩圖分析,挑選共有或者特有的差異基因作為后續(xù)的研究對象;
根據(jù)前人的文獻報道,挑選相關差異基因,不要局限在自己研究的物種上。
18、為什么原核物種只能做有參轉(zhuǎn)錄組分析?
由于原核生物的基因組中存在大量基因重疊區(qū)域、操縱子及多順反子,如果按照無參轉(zhuǎn)錄組分析策略進行組裝的話,難度較大,組裝結果存在較大風險。
19、差異基因數(shù)目多少比較合理?