生物學(xué)基礎(chǔ)及環(huán)境準(zhǔn)備--The learning notes of the biostar handbook(1)

萬事開頭難,從前都是碎片化的學(xué)習(xí)生信,一些基本的概念還是能粗略的理解,但知識始終無法結(jié)構(gòu)化,更別說在公開的場合寫下文字記錄自己的學(xué)習(xí)心得。這次在徐班長的帶領(lǐng)下,終于鼓起勇氣記錄下學(xué)習(xí)過程。以下是我對這次作業(yè)淺顯的解答,望各位達人斧正。

學(xué)習(xí)的過程本身就是解決問題的過程,那么重點在于“過程”如何實現(xiàn),在于如何解決學(xué)習(xí)過程中遇到的問題。接觸電腦開始,當(dāng)我遇到問題的時候,我相信我不會是第一個遇到這個問題的人,總有人遇到了相同或者類似的問題,那么就要求我們?nèi)绾胃玫恼莆账阉饕孢@把利器。當(dāng)然,如果搜索不到你想要的答案還可以到一些熱門的論壇進行提問,其實我知道的也就是生信技能術(shù)和Biostar。

生物學(xué)基礎(chǔ)

DNA

定義:它是一種攜帶生物體的發(fā)育,功能和繁殖所需的遺傳指令的大分子,真核生物中,其存在于細胞核;原核生物中,它存在于細胞漿。

核苷酸:A、T、C、G;其配對原則為A-T,C-G;

組成:由兩股小分子相互纏繞組成的雙螺旋結(jié)構(gòu)。

forward strain+ortop strainorwaston strain)(正向鏈)和reverse strain(-orbottom strainorcirck strain)(反向鏈)僅是一種標(biāo)簽,并不是由DNA的內(nèi)在屬性所決定的,這是在研究者研究某DNA時就定義好的,雖然是該決定是隨意的,但必須保持前后一致。

DNA鏈?zhǔn)蔷哂蟹较蛐缘模瑂ense strain/antisense strain與forward strain/reverse strain是完全不同的概念,后者體現(xiàn)的序列方向性。DNA的轉(zhuǎn)錄是不對稱的,基因轉(zhuǎn)錄只能以雙鏈DNA分子中的一條鏈作為模板,其中與mRNA具有相同序列的DNA單鏈稱為sense strain,作為轉(zhuǎn)錄模板的單鏈稱為模板鏈,也叫antisense strain。

RNA

RNA與DNA的主要區(qū)別:RNA含核糖,DNA含脫氧核糖;RNA的堿基 A-U、C-G;

RNA的種類:rRNA、mRNA、tRNA、hnRNA、lncRNA、snRNA、SiRNA等。

RNA降解速度快

DNA測序

是指獲得DNA序列的技術(shù)。獲得原始文件格式為FASTA、FASTQ、uBAM

中心法則


CpG islands

在人類基因組內(nèi),GC的含量大約為40%;這些GC并不是平均分布在基因組內(nèi),在某些DNA片段上其含量可高達60%以上,而在另一些區(qū)域則只有33%左右。這種GC含量的差別,在基因表達的調(diào)控和基因突變上都可能扮演著重要的角色。例如,在基因的末端和啟動子區(qū)域通常存在一些富含雙核苷酸“CG”的區(qū)域,稱為“CpG島”(CpG island),這些CpG島不僅是基因的一種標(biāo)志,而且還參與基因表達的調(diào)控和影響染色質(zhì)的結(jié)構(gòu)通常這些位點很容易發(fā)生甲基化。正常細胞的CpG島由于被保護而處于非甲基化狀態(tài).全基因組低甲基化,維持甲基化模式酶的調(diào)節(jié)失控和正常非甲基化CpG島的高甲基化是人類腫瘤中普遍存在的現(xiàn)象. 以往的研究證明啟動子區(qū)的高甲基化導(dǎo)致抑癌基因失活是人類腫瘤所具有的共同特征之一,而且這種高甲基化是導(dǎo)致抑癌基因失活的又一個機制.

來源:http://www.dxy.cn/bbs/topic/1487479

啟動子(promoter)

又稱啟動基因,是DNA分子可與RNA聚合酶特異結(jié)合,并使轉(zhuǎn)錄起始地一段DNA序列,本身不被轉(zhuǎn)錄。

增強子(enhancer)

沉默子(silencer)

SNV

單核苷酸位點變異(single nucleotide variants, SNV)。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。

InDel

(insertion-deletion) 插入缺失標(biāo)記,指的是兩種親本中在全基因組中的差異,相對另一個親本而言,其中一個親本的基因組中有一定數(shù)量的核苷酸插入或缺失(Jander et al., 2002)。根據(jù)基因組中插入缺失位點,設(shè)計一些擴增這些插入缺失位點的PCR 引物,這就是InDel標(biāo)記。

CNV

拷貝數(shù)目變異也稱拷貝數(shù)目多態(tài),是一種長度大于1kb的DNA片段的變異,在人類基因組中廣泛分布,CNV位點的突變率遠高于SNP(Single nucleotide polymorphism),是人類疾病的重要致病因素之一。

SV

Structure Variation(染色體)結(jié)構(gòu)變異。包括插入、缺失、倒位、易位及重復(fù)等,長度在1kb~3Mb。

同源性

Ubuntu16.04LTS安裝

網(wǎng)上教程很多

安裝后第一步

sudo apt-get update

sudo apt-get upgrade -y

安裝所需的庫文件

sudo apt-get install -y curl unzip build-essential ncurses-dev

sudo apt-get install -y byacc zlib1g-dev python-dev git cmake

sudo apt-get install -y default-jdk ant

Miniconda的安裝

'''

wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh

bash Miniconda3-latest-Linux-x86_64.sh

'''

可用conda -h了解conda命令的用法。

之前徐班長在微信公眾號上有過添加國內(nèi)鏡像的代碼,直接拿過來

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/

conda config --add channels bioconda

conda config --add channels r

conda config --set show_channel_urls yes

不過在今年的8月22日,bioconda已經(jīng)有國內(nèi)鏡像了

第四行可以改為:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

創(chuàng)建名為bioinfo的環(huán)境

conda create -y --name bioinfo python=3

激活bioinfo環(huán)境

source activate bioinfo

為bioinfo安裝書上所需的生信軟件,作者將軟件列表存在http://data.biostarhandbook.com/install/conda.txt

(entrez-direct bwa htslib bowtie2 emboss bedtools samtools bamtools bwa sra-tools cutadapt seqtk datamash bcftools freebayes subread bioawk hisat2 bbmap trimmomatic fastqc snpeff picard blast perl-list-moreutils)

curl http://data.biostarhandbook.com/install/conda.txt | xargs conda install -y

數(shù)據(jù)的可重復(fù)性分析

目前沒有正在開始一個項目,暫時也不具備這種能力,但我想如想讓自己分析的項目讓別人重復(fù)出來必須遵循一些基本原則:

統(tǒng)一的分析思路

詳細數(shù)據(jù)的處理方法說明

關(guān)于系統(tǒng)版本、配置、所用軟件的版本的詳細說明。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容