Excel改變了你的基因名,30% 相關(guān)Nature文章受影響,NCBI也受波及

EXCEL是常用的查看表格的工具,提供了很好的數(shù)據(jù)篩選、繪圖等功能,不少基因表達(dá)數(shù)據(jù)也會在EXCEL中打開查看、篩選和排序。還有 3 個超贊的 EXCEL 插件,讓你 5 分鐘從小白變大神。

但是EXCEL也會出現(xiàn)比較尷尬的事情,如基因名字的轉(zhuǎn)換。比如gene symbols SEPT2 (Septin 2)、MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 會被轉(zhuǎn)為2-Sep、1-Mar4-Oct. RIKEN 識別符因為E的存在會被識別為科學(xué)計數(shù)法,如2310009E13轉(zhuǎn)為2.31E+13。

image

這一事情在2014年的BMC Bioinformatics上就有報道。下圖所示12個月份開頭的基因名字都不可逆的轉(zhuǎn)換為了日期。

image

這些數(shù)據(jù)不只是存在于Excel表中,還威脅到了公共數(shù)據(jù)庫,如NCBI LocusLink。

image

2016年Genome biology對2005-2015期間發(fā)表在18個雜志的文章附表中基因名字做了分析,發(fā)現(xiàn)Nature中有附表的文章里面,有30%以上出現(xiàn)了EXCEL引起的基因名字轉(zhuǎn)換錯誤,受影響的文章有74篇,影響的基因1375個。并且出現(xiàn)基因名字轉(zhuǎn)換錯誤的附表錯誤的文章逐年增加,這一定程度上也是因為大規(guī)?;蜓芯康难杆匍_展使得總上傳的附件數(shù)增多引起的。

并且作者還做了相關(guān)性分析,影響因子越高,受影響的基因列表比例越大。這可能是因為高影響力的文章涉及了更多的數(shù)據(jù)集。

BMC bioinformatics雖然首先提出這個問題,后續(xù)受影響比例也比較大,有政策,無實施。

image

為此,Eric A. Welsh特意開發(fā)了一款工具阻止此類轉(zhuǎn)換,提供了在線版本,Excel插件,Perl腳本和Galaxy訪問接口,也是煞費苦心。軟件發(fā)布在Github上,https://github.com/pstew/escape_excel,文章發(fā)表在Plos One。

Excel插件也很好安裝,下載解壓,escape_excel-master\release\2017-06-28\EscapeExcelAddin目錄中有setupEscapeExcel.exe, 雙擊安裝即可。

image

這個插件可以解決以下幾種問題,解決方式是在原字符串前加上=,并用"括起。(只在最開始加個'看上去也可以解決問題,沒細(xì)看作者為啥采用相對復(fù)雜的方式)。但是轉(zhuǎn)換后的數(shù)據(jù)在使用EXCEL的函數(shù)時需要注意匹配方式的變化。

image

常見受影響基因列表

  • 2310009E13
  • FEB2
  • MAR1
  • DEC1
  • 2310009E13
  • OCT4
  • APR1
  • SEP2
  • SEP-1
  • FEB1–FEB11
  • MARCH1–MARCH11
  • SEPT1–SEPT14

生信分析中經(jīng)常會做的根據(jù)基因名字提取序列、表達(dá)量和注釋,都會受到這些名字轉(zhuǎn)換的影響,也會受到另外一個常見的換行符的影響^M,所以做分析需要謹(jǐn)慎、謹(jǐn)慎、再謹(jǐn)慎。一定多檢查結(jié)果是否前后一致。

除了要求細(xì)心之外,還要求有一定的程序基礎(chǔ),可以從多個角度查看、驗證和解決問題,保證一致性。

市面上Linux和Python的課程很多,但真正面向生物數(shù)據(jù)和生物信息分析的不多。近來頻頻收到不少朋友說看了我們的生信程序視頻課開竅了、入門了,對程序基礎(chǔ)的應(yīng)用理解更深了,我們的課程在http://bioinfo.ke.qq.com/可以獲取,歡迎更多朋友觀看。

  1. https://www.nature.com/articles/ng.3690
  2. http://blogs.nature.com/naturejobs/2017/02/27/escape-gene-name-mangling-with-escape-excel/
  3. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80
  4. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0185207
  5. http://www.theallium.com/biology/scientific-community-capitulates-microsoft-officially-changes-gene-names-dates/

系列教程

小技巧系列

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • “我喜歡喝維他奶,幾乎每天都喝,最喜歡小麥味 原味的”“我是竇靖童,我很好,希望你們都很好,有時間來喝咖啡”“我和...
    是迷妹啊閱讀 232評論 0 0
  • 我想說,如果你是微商人,請耐心的看完這篇文章,因為這對你來說,絕對有好處,倘若能有所反思的話,也許,還能在今后的微...
    天冷好個冬閱讀 730評論 0 0
  • 候車兩小時,頓覺意迷離。幸有機隨手,尋詩樂不支。
    萬峰智叟閱讀 127評論 0 0

友情鏈接更多精彩內(nèi)容