萬事開頭難,從前都是碎片化的學(xué)習(xí)生信,一些基本的概念還是能粗略的理解,但知識始終無法結(jié)構(gòu)化,更別說在公開的場合寫下文字記錄自己的學(xué)習(xí)心得。這次在徐班長的帶領(lǐng)下,終于鼓起勇氣記錄下學(xué)習(xí)過程。以下是我對這次作業(yè)淺顯的解答,望各位達人斧正。
學(xué)習(xí)的過程本身就是解決問題的過程,那么重點在于“過程”如何實現(xiàn),在于如何解決學(xué)習(xí)過程中遇到的問題。接觸電腦開始,當(dāng)我遇到問題的時候,我相信我不會是第一個遇到這個問題的人,總有人遇到了相同或者類似的問題,那么就要求我們?nèi)绾胃玫恼莆账阉饕孢@把利器。當(dāng)然,如果搜索不到你想要的答案還可以到一些熱門的論壇進行提問,其實我知道的也就是生信技能術(shù)和Biostar。
生物學(xué)基礎(chǔ)
DNA
定義:它是一種攜帶生物體的發(fā)育,功能和繁殖所需的遺傳指令的大分子,真核生物中,其存在于細胞核;原核生物中,它存在于細胞漿。
核苷酸:A、T、C、G;其配對原則為A-T,C-G;
組成:由兩股小分子相互纏繞組成的雙螺旋結(jié)構(gòu)。
forward strain(+ortop strainorwaston strain)(正向鏈)和reverse strain(-orbottom strainorcirck strain)(反向鏈)僅是一種標(biāo)簽,并不是由DNA的內(nèi)在屬性所決定的,這是在研究者研究某DNA時就定義好的,雖然是該決定是隨意的,但必須保持前后一致。
DNA鏈?zhǔn)蔷哂蟹较蛐缘模瑂ense strain/antisense strain與forward strain/reverse strain是完全不同的概念,后者體現(xiàn)的序列方向性。DNA的轉(zhuǎn)錄是不對稱的,基因轉(zhuǎn)錄只能以雙鏈DNA分子中的一條鏈作為模板,其中與mRNA具有相同序列的DNA單鏈稱為sense strain,作為轉(zhuǎn)錄模板的單鏈稱為模板鏈,也叫antisense strain。
RNA
RNA與DNA的主要區(qū)別:RNA含核糖,DNA含脫氧核糖;RNA的堿基 A-U、C-G;
RNA的種類:rRNA、mRNA、tRNA、hnRNA、lncRNA、snRNA、SiRNA等。
RNA降解速度快
DNA測序
是指獲得DNA序列的技術(shù)。獲得原始文件格式為FASTA、FASTQ、uBAM
中心法則

CpG islands
在人類基因組內(nèi),GC的含量大約為40%;這些GC并不是平均分布在基因組內(nèi),在某些DNA片段上其含量可高達60%以上,而在另一些區(qū)域則只有33%左右。這種GC含量的差別,在基因表達的調(diào)控和基因突變上都可能扮演著重要的角色。例如,在基因的末端和啟動子區(qū)域通常存在一些富含雙核苷酸“CG”的區(qū)域,稱為“CpG島”(CpG island),這些CpG島不僅是基因的一種標(biāo)志,而且還參與基因表達的調(diào)控和影響染色質(zhì)的結(jié)構(gòu)通常這些位點很容易發(fā)生甲基化。正常細胞的CpG島由于被保護而處于非甲基化狀態(tài).全基因組低甲基化,維持甲基化模式酶的調(diào)節(jié)失控和正常非甲基化CpG島的高甲基化是人類腫瘤中普遍存在的現(xiàn)象. 以往的研究證明啟動子區(qū)的高甲基化導(dǎo)致抑癌基因失活是人類腫瘤所具有的共同特征之一,而且這種高甲基化是導(dǎo)致抑癌基因失活的又一個機制.
來源:http://www.dxy.cn/bbs/topic/1487479
啟動子(promoter)
又稱啟動基因,是DNA分子可與RNA聚合酶特異結(jié)合,并使轉(zhuǎn)錄起始地一段DNA序列,本身不被轉(zhuǎn)錄。
增強子(enhancer)
沉默子(silencer)
SNV
單核苷酸位點變異(single nucleotide variants, SNV)。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。
InDel
(insertion-deletion) 插入缺失標(biāo)記,指的是兩種親本中在全基因組中的差異,相對另一個親本而言,其中一個親本的基因組中有一定數(shù)量的核苷酸插入或缺失(Jander et al., 2002)。根據(jù)基因組中插入缺失位點,設(shè)計一些擴增這些插入缺失位點的PCR 引物,這就是InDel標(biāo)記。
CNV
拷貝數(shù)目變異也稱拷貝數(shù)目多態(tài),是一種長度大于1kb的DNA片段的變異,在人類基因組中廣泛分布,CNV位點的突變率遠高于SNP(Single nucleotide polymorphism),是人類疾病的重要致病因素之一。
SV
Structure Variation(染色體)結(jié)構(gòu)變異。包括插入、缺失、倒位、易位及重復(fù)等,長度在1kb~3Mb。
同源性
Ubuntu16.04LTS安裝
網(wǎng)上教程很多
安裝后第一步
sudo apt-get update
sudo apt-get upgrade -y
安裝所需的庫文件
sudo apt-get install -y curl unzip build-essential ncurses-dev
sudo apt-get install -y byacc zlib1g-dev python-dev git cmake
sudo apt-get install -y default-jdk ant
Miniconda的安裝
'''
wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
'''
可用conda -h了解conda命令的用法。
之前徐班長在微信公眾號上有過添加國內(nèi)鏡像的代碼,直接拿過來
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels bioconda
conda config --add channels r
conda config --set show_channel_urls yes
不過在今年的8月22日,bioconda已經(jīng)有國內(nèi)鏡像了
第四行可以改為:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
創(chuàng)建名為bioinfo的環(huán)境
conda create -y --name bioinfo python=3
激活bioinfo環(huán)境
source activate bioinfo
為bioinfo安裝書上所需的生信軟件,作者將軟件列表存在http://data.biostarhandbook.com/install/conda.txt
(entrez-direct bwa htslib bowtie2 emboss bedtools samtools bamtools bwa sra-tools cutadapt seqtk datamash bcftools freebayes subread bioawk hisat2 bbmap trimmomatic fastqc snpeff picard blast perl-list-moreutils)
curl http://data.biostarhandbook.com/install/conda.txt | xargs conda install -y
數(shù)據(jù)的可重復(fù)性分析
目前沒有正在開始一個項目,暫時也不具備這種能力,但我想如想讓自己分析的項目讓別人重復(fù)出來必須遵循一些基本原則:
統(tǒng)一的分析思路
詳細數(shù)據(jù)的處理方法說明
關(guān)于系統(tǒng)版本、配置、所用軟件的版本的詳細說明。