前一段時(shí)間處理數(shù)據(jù)發(fā)現(xiàn)Excel里面的差異基因有一部分變成日期了,直接想到了之前在生信技能樹看到博文?,F(xiàn)在轉(zhuǎn)發(fā)出來。
聽說Excel表格動(dòng)了你的基因名?
原創(chuàng) 生信技能樹 生信技能樹
很簡單啊,修改回來啊?。。?/p>
幫同學(xué)處理一下他從公司拿到的差異分析結(jié)果,當(dāng)然,給我的是Excel表格,老規(guī)矩,導(dǎo)出csv然后讀入R,然后準(zhǔn)備順手畫個(gè)火山圖,PCA圖,熱圖,做個(gè)GO/KEGG富集分析。下意識(shí)的看了看數(shù)據(jù)結(jié)構(gòu),然后順手按照基因名排序了一下,哈哈哈~
image
這是一個(gè)大坑。
就因?yàn)檫@個(gè)還有兩篇文章;
Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics 2004年
Gene name errors are widespread in the scientific literature 2016年
也有人在論壇上面發(fā)問,高達(dá)2K的閱讀量: https://www.biostars.org/p/211861/
Some gene names start with APR/MARC/SEPT* etc default converted into date format.
我們生信技能樹論壇也有人分享過: Excel-坑你的基因名沒商量!
隨意篡改20%的遺傳學(xué)論文!可就在今年8月份,三位科學(xué)家在《Genome Biology》期刊上發(fā)表論文,稱他們發(fā)現(xiàn)20%的遺傳學(xué)論文包含了Excel軟件導(dǎo)致的基因名轉(zhuǎn)換錯(cuò)誤。他們對(duì)論文進(jìn)行的掃描顯示,科學(xué)文獻(xiàn)中的基因名錯(cuò)誤十分普遍,在默認(rèn)設(shè)置下Excel軟件會(huì)將基因的名字轉(zhuǎn)換成日期或浮點(diǎn)數(shù)。舉例來說,基因名字SEPT2和MARCH1會(huì)被分別轉(zhuǎn)換成2-Sep和1-Mar;標(biāo)識(shí)符2310009E1被轉(zhuǎn)換成浮點(diǎn)數(shù)2.31E+13。
但是,如果你會(huì)編程的話,事情就很簡單咯,一句話搞定!
a$Gene.Symbol=unlist(lapply(as.character(a$gene_assignment),function(x){trimws(strsplit(x,'//')[[1]][2])}))