再也不用擔(dān)心Excel基因名變成日期了

前一段時(shí)間處理數(shù)據(jù)發(fā)現(xiàn)Excel里面的差異基因有一部分變成日期了,直接想到了之前在生信技能樹看到博文?,F(xiàn)在轉(zhuǎn)發(fā)出來。

聽說Excel表格動(dòng)了你的基因名?

原創(chuàng) 生信技能樹 生信技能樹

很簡單啊,修改回來啊?。。?/p>

幫同學(xué)處理一下他從公司拿到的差異分析結(jié)果,當(dāng)然,給我的是Excel表格,老規(guī)矩,導(dǎo)出csv然后讀入R,然后準(zhǔn)備順手畫個(gè)火山圖,PCA圖,熱圖,做個(gè)GO/KEGG富集分析。下意識(shí)的看了看數(shù)據(jù)結(jié)構(gòu),然后順手按照基因名排序了一下,哈哈哈~

image

這是一個(gè)大坑。

就因?yàn)檫@個(gè)還有兩篇文章;

  • Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics 2004年

  • Gene name errors are widespread in the scientific literature 2016年

也有人在論壇上面發(fā)問,高達(dá)2K的閱讀量: https://www.biostars.org/p/211861/

Some gene names start with APR/MARC/SEPT* etc default converted into date format.

我們生信技能樹論壇也有人分享過: Excel-坑你的基因名沒商量!

隨意篡改20%的遺傳學(xué)論文!可就在今年8月份,三位科學(xué)家在《Genome Biology》期刊上發(fā)表論文,稱他們發(fā)現(xiàn)20%的遺傳學(xué)論文包含了Excel軟件導(dǎo)致的基因名轉(zhuǎn)換錯(cuò)誤。他們對(duì)論文進(jìn)行的掃描顯示,科學(xué)文獻(xiàn)中的基因名錯(cuò)誤十分普遍,在默認(rèn)設(shè)置下Excel軟件會(huì)將基因的名字轉(zhuǎn)換成日期或浮點(diǎn)數(shù)。舉例來說,基因名字SEPT2和MARCH1會(huì)被分別轉(zhuǎn)換成2-Sep和1-Mar;標(biāo)識(shí)符2310009E1被轉(zhuǎn)換成浮點(diǎn)數(shù)2.31E+13。

但是,如果你會(huì)編程的話,事情就很簡單咯,一句話搞定!

a$Gene.Symbol=unlist(lapply(as.character(a$gene_assignment),function(x){trimws(strsplit(x,'//')[[1]][2])}))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容