匯總 | 轉(zhuǎn)錄本表達(dá)矩陣 到 基因表達(dá)矩陣

寫在前面

前天,我寫了一個 TBtools 插件,意在讓所有人都能自主分析轉(zhuǎn)錄組測序數(shù)據(jù),進(jìn)而獲得 基因表達(dá)量矩陣(TPM) 和 基因讀段計數(shù)矩陣(Count)。已經(jīng)提過了,TPM 就直接可用,而 Count 矩陣本身可以在網(wǎng)絡(luò)上找到各類差異表達(dá)基因分析平臺,上傳矩陣就可以做各種差異表達(dá)分析。
不過很多人可能還是沒意識到,前述的 Kallisto 插件或者流程出來的結(jié)果,其實(shí)是 轉(zhuǎn)錄本水平的表達(dá)矩陣 而不是 基因表達(dá)矩陣。基于 Kallisto 的算法實(shí)現(xiàn),我們不應(yīng)該只分析基因的某個或者某幾個代表轉(zhuǎn)錄本,因?yàn)檫@樣可能會影響 Kmer Counts 的正確計算。
而事實(shí)上,不少人關(guān)注的還是基因水平,而不是轉(zhuǎn)錄本水平(取決于實(shí)驗(yàn)設(shè)計,精度,深度云云)。于是 ,我有寫了一個小功能,可以用于匯總 轉(zhuǎn)錄本表達(dá)矩陣 為 基因表達(dá)矩陣 。

Trans Value Sum

想不到一個合適的名字,按照我的習(xí)慣,那么所以寫一個。



從界面來看,輸入文件有二:

  1. 轉(zhuǎn)錄本表達(dá)矩陣
  2. 轉(zhuǎn)錄本歸屬基因的信息表,格式為“轉(zhuǎn)錄本ID 基因ID”,注意,以制表符分隔。

輸入輸出均支持 文件 或 文本直接輸入。為方便演示,下述直接使用文本輸入輸出模式。示例如下



可以看到,Tran1 和 Tran2 歸屬于 Gene1 ,于是值被加和,作為Gene1 的表達(dá)量。

一切看起來如此順暢。那么問題可能就出現(xiàn)了。
轉(zhuǎn)錄本表達(dá)矩陣,我們當(dāng)然可以輕松獲得,但是轉(zhuǎn)錄本ID 和 基因ID 的對應(yīng)關(guān)系,怎么搞?

GXF Position Extract

很久很久以前,我已經(jīng)寫過這個功能了。這里使用擬南芥的 GFF3 文件為示例。



只需要輸入一個GFF3或者GTF文件,設(shè)置兩個輸出文件路徑



點(diǎn)擊 Start 可得

于是,在Excel里面或者使用 TBtools 表格工具就可以快速獲得對應(yīng)表格。

寫在最后

輕輕松松,半小時寫工具,半小時寫推文...
今天也算周末,祝大伙科研順利。
另,最近的推文閱讀量似乎明顯下載,一直保持在1000+。。。
我還是直白一點(diǎn)吧,該在看的就點(diǎn)再看,該轉(zhuǎn)發(fā)的就轉(zhuǎn)發(fā)。寫著寫著沒多少人看了,我就不寫了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容