寫在前面
前天,我寫了一個 TBtools 插件,意在讓所有人都能自主分析轉(zhuǎn)錄組測序數(shù)據(jù),進(jìn)而獲得 基因表達(dá)量矩陣(TPM) 和 基因讀段計數(shù)矩陣(Count)。已經(jīng)提過了,TPM 就直接可用,而 Count 矩陣本身可以在網(wǎng)絡(luò)上找到各類差異表達(dá)基因分析平臺,上傳矩陣就可以做各種差異表達(dá)分析。
不過很多人可能還是沒意識到,前述的 Kallisto 插件或者流程出來的結(jié)果,其實(shí)是 轉(zhuǎn)錄本水平的表達(dá)矩陣 而不是 基因表達(dá)矩陣。基于 Kallisto 的算法實(shí)現(xiàn),我們不應(yīng)該只分析基因的某個或者某幾個代表轉(zhuǎn)錄本,因?yàn)檫@樣可能會影響 Kmer Counts 的正確計算。
而事實(shí)上,不少人關(guān)注的還是基因水平,而不是轉(zhuǎn)錄本水平(取決于實(shí)驗(yàn)設(shè)計,精度,深度云云)。于是 ,我有寫了一個小功能,可以用于匯總 轉(zhuǎn)錄本表達(dá)矩陣 為 基因表達(dá)矩陣 。
Trans Value Sum
想不到一個合適的名字,按照我的習(xí)慣,那么所以寫一個。

從界面來看,輸入文件有二:
- 轉(zhuǎn)錄本表達(dá)矩陣
- 轉(zhuǎn)錄本歸屬基因的信息表,格式為“轉(zhuǎn)錄本ID 基因ID”,注意,以制表符分隔。
輸入輸出均支持 文件 或 文本直接輸入。為方便演示,下述直接使用文本輸入輸出模式。示例如下

可以看到,Tran1 和 Tran2 歸屬于 Gene1 ,于是值被加和,作為Gene1 的表達(dá)量。
一切看起來如此順暢。那么問題可能就出現(xiàn)了。
轉(zhuǎn)錄本表達(dá)矩陣,我們當(dāng)然可以輕松獲得,但是轉(zhuǎn)錄本ID 和 基因ID 的對應(yīng)關(guān)系,怎么搞?
GXF Position Extract
很久很久以前,我已經(jīng)寫過這個功能了。這里使用擬南芥的 GFF3 文件為示例。

只需要輸入一個GFF3或者GTF文件,設(shè)置兩個輸出文件路徑

點(diǎn)擊 Start 可得

于是,在Excel里面或者使用 TBtools 表格工具就可以快速獲得對應(yīng)表格。
寫在最后
輕輕松松,半小時寫工具,半小時寫推文...
今天也算周末,祝大伙科研順利。
另,最近的推文閱讀量似乎明顯下載,一直保持在1000+。。。
我還是直白一點(diǎn)吧,該在看的就點(diǎn)再看,該轉(zhuǎn)發(fā)的就轉(zhuǎn)發(fā)。寫著寫著沒多少人看了,我就不寫了。