EXCEL是常用的查看表格的工具,提供了很好的數(shù)據(jù)篩選、繪圖等功能,不少基因表達(dá)數(shù)據(jù)也會在EXCEL中打開查看、篩選和排序。還有 3 個超贊的 EXCEL 插件,讓你 5 分鐘從小白變大神。
但是EXCEL也會出現(xiàn)比較尷尬的事情,如基因名字的轉(zhuǎn)換。比如gene symbols SEPT2 (Septin 2)、MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 會被轉(zhuǎn)為2-Sep、1-Mar和4-Oct. RIKEN 識別符因為E的存在會被識別為科學(xué)計數(shù)法,如2310009E13轉(zhuǎn)為2.31E+13。

這一事情在2014年的BMC Bioinformatics上就有報道。下圖所示12個月份開頭的基因名字都不可逆的轉(zhuǎn)換為了日期。

這些數(shù)據(jù)不只是存在于Excel表中,還威脅到了公共數(shù)據(jù)庫,如NCBI LocusLink。

2016年Genome biology對2005-2015期間發(fā)表在18個雜志的文章附表中基因名字做了分析,發(fā)現(xiàn)Nature中有附表的文章里面,有30%以上出現(xiàn)了EXCEL引起的基因名字轉(zhuǎn)換錯誤,受影響的文章有74篇,影響的基因1375個。并且出現(xiàn)基因名字轉(zhuǎn)換錯誤的附表錯誤的文章逐年增加,這一定程度上也是因為大規(guī)?;蜓芯康难杆匍_展使得總上傳的附件數(shù)增多引起的。
并且作者還做了相關(guān)性分析,影響因子越高,受影響的基因列表比例越大。這可能是因為高影響力的文章涉及了更多的數(shù)據(jù)集。
BMC bioinformatics雖然首先提出這個問題,后續(xù)受影響比例也比較大,有政策,無實施。

為此,Eric A. Welsh特意開發(fā)了一款工具阻止此類轉(zhuǎn)換,提供了在線版本,Excel插件,Perl腳本和Galaxy訪問接口,也是煞費苦心。軟件發(fā)布在Github上,https://github.com/pstew/escape_excel,文章發(fā)表在Plos One。
Excel插件也很好安裝,下載解壓,escape_excel-master\release\2017-06-28\EscapeExcelAddin目錄中有setupEscapeExcel.exe, 雙擊安裝即可。

這個插件可以解決以下幾種問題,解決方式是在原字符串前加上=,并用"括起。(只在最開始加個'看上去也可以解決問題,沒細(xì)看作者為啥采用相對復(fù)雜的方式)。但是轉(zhuǎn)換后的數(shù)據(jù)在使用EXCEL的函數(shù)時需要注意匹配方式的變化。
常見受影響基因列表
- 2310009E13
- FEB2
- MAR1
- DEC1
- 2310009E13
- OCT4
- APR1
- SEP2
- SEP-1
- FEB1–FEB11
- MARCH1–MARCH11
- SEPT1–SEPT14
生信分析中經(jīng)常會做的根據(jù)基因名字提取序列、表達(dá)量和注釋,都會受到這些名字轉(zhuǎn)換的影響,也會受到另外一個常見的換行符的影響^M,所以做分析需要謹(jǐn)慎、謹(jǐn)慎、再謹(jǐn)慎。一定多檢查結(jié)果是否前后一致。
除了要求細(xì)心之外,還要求有一定的程序基礎(chǔ),可以從多個角度查看、驗證和解決問題,保證一致性。
市面上Linux和Python的課程很多,但真正面向生物數(shù)據(jù)和生物信息分析的不多。近來頻頻收到不少朋友說看了我們的生信程序視頻課開竅了、入門了,對程序基礎(chǔ)的應(yīng)用理解更深了,我們的課程在http://bioinfo.ke.qq.com/可以獲取,歡迎更多朋友觀看。
- https://www.nature.com/articles/ng.3690
- http://blogs.nature.com/naturejobs/2017/02/27/escape-gene-name-mangling-with-escape-excel/
- https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80
- https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0185207
- http://www.theallium.com/biology/scientific-community-capitulates-microsoft-officially-changes-gene-names-dates/
系列教程
- 生物信息之程序?qū)W習(xí)
- 關(guān)于編程學(xué)習(xí)的一些思考
- 該如何自學(xué)入門生物信息學(xué)
- 如何優(yōu)雅的提問
- 生信寶典視頻教程
- 好色之旅-畫圖三字經(jīng)
- 轉(zhuǎn)錄組分析的正確姿勢
- 生信的系列教程
- 生信的系列書籍
- 文章用圖的修改和排版 (1)
- 文章用圖的修改和排版 (2)
- 簡單強大的在線繪圖
- 簡單強大的在線繪圖-升級版
- 論文圖表基本規(guī)范
- 學(xué)術(shù)圖表的基本配色方法
- 數(shù)據(jù)可視化基本套路總結(jié)
- 英語寫作常見錯誤總結(jié)和學(xué)習(xí)視頻
- 教育部推出首批490門"國家精品在線開放課程"
- 你該知道的雜志分區(qū)和影響因子及最新表格下載
- 你和PPT高手之間,就只差一個iSlide
- 推薦 3 個超贊的 EXCEL 插件,讓你 5 分鐘從小白變大神
- 史上最全的圖表色彩運用原理
- 生信寶典一周年福利第一波 - 電子書贈送
- 測序發(fā)展史:150年的風(fēng)雨歷程
- 生信老司機以中心法則為主線講解組學(xué)技術(shù)的應(yīng)用和生信分析心得