2019年7月24日,Nature Reviews Genetics上發(fā)表了一篇了RNA-seq的綜述,文獻信息如下所示:
Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.
摘要:在過去的十年中,RNA測序(RNA-seq)已經(jīng)成為在全轉錄組范圍內(nèi)分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發(fā)展,RNA-seq技術也在不斷發(fā)展。現(xiàn)在,RNA-seq用于研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構體,structurome)。其它的應用也在開發(fā)中,例如 空間轉錄學(Spatialomics)。加上新的長片段 (long-read)和直接RNA-seq技術以及用于數(shù)據(jù)分析的更好的計算工具的整合,RNA-seq技術的創(chuàng)新有助于人們更全面地理解RNA生物學,例如從何時何地轉錄發(fā)生到控制RNA功能的折疊和分子間相互作用等問題。
這篇綜述信息密度很高,我正在翻譯,過幾天翻譯完了放上來,先把文獻旁邊的名詞解釋給譯了一下,如下所示:
- 差異基因表達:Differential gene expression, 即DGE,一種分析方法,目標是使研究者們找出不同實驗組之間的變化的基因。
- 讀長深度:Read depth,一個樣本測序后所獲得的所有測序讀長(reads),注意與測試深度進行區(qū)分。
- 短讀長:short-read:一種測序技術,產(chǎn)生的讀長(read)的長度為500bp,但更常見的是100-300bp,它測的是打斷后的mRNA。
- 長讀長:long-read,一種測序技術,能夠沒到1000bp,它代表的全長或接近全長的mRNA。
- 直接RNA測序:Direct RNA sequencing,dRNA-seq,一種測序技術,在不用打斷RNA以及反轉錄的情況下,對RNA進行直接測序,其目標通常是為了檢測全長或接近全長的RNAs。6. 多重回貼讀長:multi-mapped reads:來源于轉錄組的同源區(qū)(homologous region)的測序讀長,這些讀長無法明確地回貼到基因組上或轉錄組上。
- 合成長讀長:synthetic long reads:一種方法,能夠通過組裝來對多個短讀長進行合成,生長長讀長。
- 唯一分子標簽:Unique molecular identifiers,UMIs,一種短的序列或編碼標簽(barcodes),這些短序列通常會在RNA-seq文庫制備過程中進行添加(在進行PCR之前),這種序列能夠?qū)σ粋€特定的起始分子進行標記。此方法通用用于校正RNA-seq數(shù)據(jù)的定量偏差,在少量RNA進行測序或單細胞測序中使用尤為廣泛。
9 。讀長長度:read length:每個測序讀長的長度,在短讀長RNA測序過程中,這個長度通常是50-150bp。 - 靈敏度:Sensitivity,一種指標,它表示在每個樣本中,能夠檢測到轉錄本的比例。樣本處理,文庫制備,測序以及數(shù)據(jù)分析都會影響這個指標。
- 特異性:specificity:一種檢測指標,它表示的是差異表達的轉錄本在檢測到的轉錄本中的比例。樣本處理,文庫制備,測序和數(shù)據(jù)分析都會影響這個指標。
- 標簽讀長:Tag read,對于一個轉錄本來說,一個標簽讀長是唯一,它通常來源于mRNA的3‘末端,這種讀長用于分析差異表達轉錄本,或者是來源于5'端,這種通常用于分析轉錄起始位點和啟動子。
- 重復率:duplication rates,在一個RNA測序樣本中,回貼到轉錄本上同一位置的測序讀長的比例。在RNA-seq文庫中,對于一些轉錄本來說,重復率是比較高的,這是因為它們在樣本中的的表達水平比較高,同時低表達的轉錄本重復率很低。在RNA-seq中,重復率一個重要問題,因為多數(shù)情況下,重復的讀長或許代了真正高表達的轉錄本,而一些重復讀長則是有可能來源于測序偏倚。
14:單端測序:single-end squencing,只測cDNA片段的一端的短讀長測序手段,它通常用于基因表達分析實驗,優(yōu)勢就是便宜。 - 雙端測序:paired-end sequencing,同時測cDNA片段的兩端短讀長測序手段,通常用于基因表達分析實驗,如果是要研究剪接,則需要最大的靈敏度,因為每個cDNA的更多堿基會被檢測到。
- 生物學重復:Biological replicates:同時檢測生物學意義上的不同樣本,例如來源于3個研究對象的組織,生物學重復可以發(fā)現(xiàn)生物學偏差,這要么代表了自身的一種研究駨,要么代表了噪音。相比之下,技術重復則是對同一個樣本進行重復的要檢測,例如同一個組織檢測3次。
- 表達矩陣:Expression matrix,RNA-seq中差異表達基因的數(shù)值矩陣。行代表RNA特征,例如基因名或轉錄本名,列表示測序樣本。這些值通常用與每個RNA特征相關在的讀長數(shù)目表示,表達矩陣可以用于估計異構體特征,在進行下游分析之前,通常要經(jīng)過歸一化處理(normalization)。
- 外參控制(spike-in control),處理樣本之前,將已知濃度的外源核酸混合物添加到一個樣本中。它們通常是各種濃度的人工合成的RNA序列,會被提前混合,用于監(jiān)測反應效率,并確定方法學的偏倚處理以及用于監(jiān)測假陰性。
- 空間轉錄組學, Spatialomics, 一種轉錄組分析方法,它能保留一個樣本中每個轉錄本的空間信息,例如一個組織的不同區(qū)域。
- 初始RNA,Nascent RNA,剛開始被轉錄的RNA,這些RNA與那些已經(jīng)被處理后,輸送到細胞質(zhì)的RNA不同。
- 4-硫尿核苷,4-Thiouridine, 4 sU,含有一個硫原子的核苷,通常不并存在于真核生物的mRNA中,它很容易整合進核酸中,用于初始RNA分析。
- 翻譯組:Translatome,一個細胞,組織或機體中,所有從mRNA翻譯到蛋白質(zhì)的總和。
- 結構組:Structurome, 一個細胞,組織或機體中,所有二級和三級結構的RNA總和。
- 相互作用組:Interactome,一個細胞,組織或機體中,所有分子之間相互作用的總和,包括RNA-RNA,RNA-蛋白質(zhì)之間的相互作用。