作業(yè)要求
最好是有mac或者linux系統(tǒng),8G+的內(nèi)存,500G的存儲(chǔ)即可。需要安裝的軟件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
來(lái)源于生信技能樹(shù):http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
計(jì)算機(jī)資源的準(zhǔn)備
需要Linux系統(tǒng):只能選擇Ubuntu 16.04 LTS ,這個(gè)版本是長(zhǎng)期支持的,而且是開(kāi)源系統(tǒng),并且有很好的GUI,很適合菜鳥(niǎo)入門(mén)的系統(tǒng)。
8G內(nèi)存:沒(méi)有錢(qián)換新的電腦,只能把手頭2009年至今的y450改裝升級(jí)一下。原本只有2G內(nèi)存,我全部卸下,在某寶購(gòu)買(mǎi)了兩根DRR3 1600 16芯的4G的內(nèi)存條,我的小y已經(jīng)是極限了,升級(jí)到8G的內(nèi)存。
存儲(chǔ)500G:本來(lái)的小y只有320G的西數(shù)HDD 5200轉(zhuǎn)的硬盤(pán),讀取速度和開(kāi)機(jī)速度均不行,我就索性將HDD換成了120G的特科芯的SSD(也是在某寶購(gòu)買(mǎi)的),然后在光驅(qū)位買(mǎi)了一個(gè)1T的希捷的5200轉(zhuǎn)的HDD,容量問(wèn)題解決了。
內(nèi)存:因?yàn)橐鼙容^大的數(shù)據(jù),我就索性將CPU也升級(jí)一下吧,當(dāng)然還是在某寶購(gòu)買(mǎi)的,我原來(lái)的是T4200,實(shí)在是吃不消了,我就度娘了一下,結(jié)果很多人都推薦換成P9600,性能提升很多,而且發(fā)熱比T9600少很多,所以?xún)?nèi)存也差不多了,已經(jīng)是極限了。顯卡我是沒(méi)有辦法了,因?yàn)楸缓杆涝谥靼迳狭恕?br>
到此計(jì)算機(jī)資源算是勉強(qiáng)可以了,好像真的是有點(diǎn)慘,說(shuō)到底就是科研狗比較慘,缺錢(qián),要不然,我早就買(mǎi)蘋(píng)果電腦了,哪來(lái)那么多的事情呢。能夠做到這種程度,還是挺佩服我自己的哈。
以下軟件安裝的內(nèi)容,是參考簡(jiǎn)書(shū)作者hoptop的內(nèi)容進(jìn)行,在此進(jìn)行說(shuō)明。因?yàn)樽约菏峭耆率秩腴T(mén),很多東西沒(méi)有辦法很快入門(mén),作者的內(nèi)容對(duì)我的幫助非常大,感謝。當(dāng)然在這過(guò)程中,自己也是折騰了很久,有些地方采用了自己的方法,對(duì)于植物學(xué)的實(shí)驗(yàn)者來(lái)說(shuō),真是不容易呢。
軟件的安裝
在這之前,我們需要替換Ubuntu的鏡像源,方法如下(參考鏈接):
# 備份源列表文件并將默認(rèn)鏡像源改為清華鏡像源
$ perl -pi.bak -e 's/cn.archive.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
$ perl -pi -e 's/http/https/g' /etc/apt/source.list
$ perl -pi -e 's/security.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
# 更新升級(jí)索引
$ sudo apt-get update
$ sudo apt-get upgrade
# 創(chuàng)建軟件下載目錄src和軟件目錄biosoft(也是從別人那里學(xué)來(lái)的,我也就這么常規(guī)的干了)
$ cd && mkdir src && mkdir biosoft
1.SRA Toolkit
官網(wǎng):https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
$ cd ~/src
# 選擇適合自己系統(tǒng)的軟件,這里選擇的是Ubuntu版本。
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
# 解壓并將解壓后的文件剪切到biosoft目錄下
$ tar -zxvf sratoolkit.2.8.2-1-ubuntu64.tar.gz && mv sratoolkit.2.8.2-1-ubuntu64 ~/biosoft
# vim編輯器直接編輯~/.bashrc文件,將該軟件加入環(huán)境變量中,可以全局運(yùn)行,不用在運(yùn)行的時(shí)候切換到當(dāng)前目錄
$ vim ~/.bashrc
# 在文件最后增加如下內(nèi)容
PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-ubuntu64/bin
# 更新
$ source ~/.bashrc
# 嘗試運(yùn)行軟件,出現(xiàn)幫助信息,就說(shuō)明成功安裝
$ fastq-dump -h
功能:能夠?qū)⑾螺d的SRA格式的測(cè)序結(jié)果轉(zhuǎn)換成fastq格式,便于下一步的測(cè)序數(shù)據(jù)質(zhì)控。
參考中文說(shuō)明:http://blog.sina.com.cn/s/blog_8034ba040101e7ru.html
官方詳細(xì)文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
2.Fastqc
官網(wǎng):http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
因?yàn)閒astqc運(yùn)行需要Java環(huán)境,所以在安裝之前需要檢測(cè)一下Java環(huán)境
# 看是否安裝了Java
$ java -version
# 若不存在,則進(jìn)行安裝,但是Java的版本要適合。我在裝了Java9之后,fastqc沒(méi)法正常運(yùn)行,之后降到8版本之后,就能正常運(yùn)行。
$ sudo apt-get install openjdk-8-jdk
$ cd ~/src
# 下載二進(jìn)制包,對(duì)自己Linux有信心的同志,可以下載源碼包,自己編譯
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
$ unzip fastqc_v0.11.5.zip && mv FastQC ~/biosoft
$ vim ~/.bashrc
# 加入環(huán)境變量
PATH=$PATH:~/biosoft/FastQC
$ source ~/.bashrc
# 測(cè)試軟件,出現(xiàn)幫助信息
$ fastqc -h
功能:可視化測(cè)序結(jié)果質(zhì)量的軟件
中文教程:https://www.plob.org/article/5987.html
3.HISAT2
官網(wǎng):http://ccb.jhu.edu/software/hisat2/index.shtml
$ cd ~/src
# 直接下載二進(jìn)制包,免去自己進(jìn)行編譯安裝
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
$ unzip hisat2-2.1.0-Linux_x86_64.zip && mv hisat2-2.1.0 ~/biosoft
# 添加環(huán)境變量
$ vim ~/.bashrc
PATH=$PATH:~/biosoft/hisat2-2.1.0
$ source ~/.bashrc
# 測(cè)試軟件
$ hisat2 -h
功能:將RNA-Seq的結(jié)果比對(duì)到基因組。
使用:http://bioinformatics.xtbg.ac.cn/hello-world-2/
官方使用手冊(cè):http://ccb.jhu.edu/software/hisat2/manual.shtml
4.HTSeq
網(wǎng)站:http://samtools.sourceforge.net/
# 首先安裝pip
$ sudo apt-get install python-pip
$ pip install HTSeq
# 直接安裝完成,測(cè)試
$ python
>>> import HTSeq
# 如果沒(méi)有出現(xiàn)報(bào)錯(cuò)信息,說(shuō)明能夠正常使用
功能:用來(lái)計(jì)數(shù)多種mapping軟件輸出文件reads
使用說(shuō)明:http://www.dengfeilong.com/post/htseq-count.html
5.SAMtools
網(wǎng)站:http://samtools.sourceforge.net/
$ cd ~/src
$ sudo apt-get libz-dev libbz2-dev liblzma-dev libssl-dev
# 環(huán)境要求:Samtools requires the zlib library <http://zlib.net>, the bzip2
library <http://bzip.org/>, liblzma <http://tukaani.org/xz/> and (optionally)
a curses or GNU ncurses library <http://www.gnu.org/software/ncurses/>
## zlib安裝
$ wget http://zlib.net/zlib-1.2.11.tar.gz
$ tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11
$ ./configure && make && make install
## bzip
$ wget http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
$ tar -zxvf bzip2-1.0.6 && cd bzip2-1.0.6
$ ./configure && make && make install
## curses(編譯過(guò)程可能會(huì)出錯(cuò),忘記解決了,總之是百度)
$ wget ftp://ftp.gnu.org/gnu/ncurses/ncurses-6.0.tar.gz
$ tar -zxvf ncurses-6.0.tar.gz && cd ncurses-6.0
$ ./configure && make && make install
# htslib(可能編譯過(guò)程中,libbz2.a出現(xiàn)問(wèn)題,需要?jiǎng)h除,然后進(jìn)入zlib目錄,make clean,再重新編譯)
$ git clone git://github.com/samtools/htslib.git
$ cd htslib
$ ./configure && make && make install
# samtools(編譯老是出問(wèn)題,總是要靠度娘)
$ git clone git://github.com/samtool/samtools.git
$ cd samtools
$ ./configure && make && make install
# bcftools
$ git clone git://github.com/samtools/bcftools.git
$ cd bcftools
$ ./configure && make && make install
## 測(cè)試
$ samtools --help
功能:生成存放高通量測(cè)序比對(duì)結(jié)果及其他轉(zhuǎn)換格式,融合文件
參考網(wǎng)站:http://www.cnblogs.com/freemao/p/3763498.html
6.R
# 添加README文檔說(shuō)的鏡像源到source.list,這里我選擇中國(guó)科技大學(xué)的。
$ vim /etc/apt/source.list
deb https://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu xenial/
deb https://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe
# 還有需要添加密鑰到電腦,secure APT
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
$ sudo apt-get update
$ sudo apt-get install r-base
$ sudo apt-get install r-base-dev
# 測(cè)試
$ R
# 會(huì)出現(xiàn)r的開(kāi)啟提示語(yǔ)
## 這里還有個(gè)額外的工作,提高安裝R包速度,要在家目錄下新建.Rprofile,添加如下內(nèi)容
$ vim ~/.Rprofile
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
功能:統(tǒng)計(jì)分析
使用手冊(cè):https://www.w3cschool.cn/r/
7.Rstudio
官網(wǎng):https://www.rstudio.com/
# 桌面版本Ubuntu,使用Rstudio比較方便
$ cd ~/src
$ wget https://download1.rstudio.org/rstudio-1.0.143-amd64.deb
# 安裝,也可以直接點(diǎn)擊deb包,直接可以安裝,不用命令行也方便
$ dpkg -i rstudio-1.0.143-amd64.deb
8.感想
這是第一次用簡(jiǎn)書(shū)的markdown來(lái)寫(xiě)筆記,而且是帶有代碼的,一次嶄新的開(kāi)始。因?yàn)檫@一篇是后面補(bǔ)上的,剛開(kāi)始的時(shí)候沒(méi)有特別察覺(jué)到做筆記這件事,后來(lái)覺(jué)得還是有必要的,因此我就開(kāi)始補(bǔ)起來(lái),而且因?yàn)椴皇沁呑鰧?shí)驗(yàn)邊進(jìn)行記錄,所以代碼還要自己重新敲,重新確認(rèn)能否使用,真是折騰死了。痛不欲生啊,尤其是需要編譯軟件的時(shí)候,那是真的需要耐心,不然是真的會(huì)瘋掉的,總是會(huì)出錯(cuò),一個(gè)接著一個(gè)的出錯(cuò)。不管怎么樣,第一步算是成功的邁開(kāi)了,接下來(lái)還是需要記錄一下代碼,及時(shí)整理。