如“為什么學(xué)習(xí)生物信息學(xué)”這篇筆記所言,“二十一世紀(jì)是生命科學(xué)的世紀(jì)”,隨著基因測(cè)序技術(shù)以及多種組學(xué)(其中包括基因組、蛋白質(zhì)組等)技術(shù)的不斷發(fā)展,生物數(shù)據(jù)迅速增長(zhǎng),對(duì)于這些數(shù)據(jù)的解讀卻已進(jìn)入瓶頸期。如何來(lái)對(duì)這些數(shù)據(jù)進(jìn)行合理、有效的分析和解讀,就是生物信息學(xué)要做的事情。
一名合格的生物信息學(xué)從業(yè)人員,首先要懂CS,然后還要懂生物學(xué)知識(shí),還需要懂測(cè)序的原理。計(jì)算機(jī)相關(guān)的技能主要包括Linux基本操作(會(huì)高級(jí)操作更好),R語(yǔ)言必須掌握,Python是目前生信領(lǐng)域主流的編程語(yǔ)言。其他編程語(yǔ)言如C、C++、perl等,可以錦上添花,但是作為初學(xué)者,需要集中精力在最短的時(shí)間內(nèi)最高效的學(xué)習(xí),推薦首先從Linux、R和Python入手。我也是新手,我也是這么做的。對(duì)于生物學(xué)知識(shí),盡管本人醫(yī)學(xué)專業(yè)出身,但是有很多基礎(chǔ)知識(shí)也需要補(bǔ),建議把遺傳學(xué)書(shū)好好翻翻,基因的各個(gè)功能分區(qū)、外顯子、內(nèi)含子、UTR、motif等等一系列專業(yè)名詞,還需要了解怎么和測(cè)序數(shù)據(jù)進(jìn)行對(duì)應(yīng)。測(cè)序原理就相對(duì)簡(jiǎn)單咯,多看看Illumina、PacBio官方的教學(xué)視頻,重點(diǎn)理解測(cè)序原理。
生信分析電腦硬件配置,自行百度解決吧,就不重復(fù)造輪子了。以下是一些可供參考的網(wǎng)址:
生信初學(xué)者如何優(yōu)雅地組裝一臺(tái)屬于自己的工作站
學(xué)習(xí)生物信息學(xué),需要怎樣配置的電腦?
軟件配置,能用conda搞定的就用conda,conda不提供的,就參考官方教程安裝咯。
為了保證結(jié)果的可重復(fù)性,可以從以下幾個(gè)方面下功夫:1. 原始數(shù)據(jù)的注釋、留存,這個(gè)是最基本的工作,加注釋有助于以后對(duì)原始數(shù)據(jù)進(jìn)行查找,要有MD5值記錄,數(shù)據(jù)傳輸過(guò)程中也有可能出現(xiàn)丟包情況;2. 原始數(shù)據(jù)清洗過(guò)程的代碼以及使用軟件的版本,要詳細(xì)記錄,不同版本以及不同代碼參數(shù)處理得到的clean data可能會(huì)有差異,而且這些差異會(huì)一級(jí)一級(jí)傳遞;3. 數(shù)據(jù)分析的pipeline,要詳細(xì)記錄,包括代碼以及使用軟件的版本,對(duì)于代碼要進(jìn)行注釋,有助于自己和同事理解代碼都做了什么工作,也可以在后期的debug中有幫助。記錄、注釋代碼也是實(shí)現(xiàn)可重復(fù)性的一項(xiàng)重要內(nèi)容。未經(jīng)注釋的代碼,就像一團(tuán)亂麻,雖然自己可以解開(kāi)這團(tuán)亂麻,還是需要浪費(fèi)自己和同事寶貴的時(shí)間。
遇到問(wèn)題,提煉成中英文關(guān)鍵詞,然后谷歌必應(yīng)加百度,一般來(lái)說(shuō),經(jīng)過(guò)這一步,90%以上的問(wèn)題都可以得到解決。如果有一些三個(gè)搜索引擎都搜不到答案的話,就需要找學(xué)習(xí)小組或去網(wǎng)上發(fā)帖求助了。
我也是生信菜鳥(niǎo),進(jìn)步空間很大,希望和大家共同學(xué)習(xí),共同進(jìn)步!