R plus 生物~Bioconductor

劉小澤寫于18.9.7

各行各業(yè)數(shù)據(jù)呈爆炸式增長,大量的數(shù)據(jù)等待被處理,R語言就是一個(gè)利器,可以說是做數(shù)據(jù)分析必備的編程語言。當(dāng)強(qiáng)大的R與包羅萬象的生物結(jié)合,再一次刺激了R的迅猛發(fā)展。隨著NGS測(cè)序的普及,R語言的生信專業(yè)社區(qū)Bioconductor誕生,開啟了生物信息的R語言時(shí)代。
好工具,用起來,首先要了解生物數(shù)據(jù)與R之間的關(guān)聯(lián)

生物知識(shí)回顧

  • 基因有三類:第一類編碼序列,編碼蛋白【轉(zhuǎn)錄+翻譯功能】;第二類只有轉(zhuǎn)錄沒有翻譯功能【tRNA+rRNA】;第三類不轉(zhuǎn)錄基因,調(diào)控基因表達(dá)【啟動(dòng)子、操縱子】
  • 基因組:單倍體細(xì)胞中包含編碼序列和非編碼序列的全部DNA【核基因組+線粒體基因組+葉綠體基因組】
  • 狹義轉(zhuǎn)錄組:mRNA,代表樣本整體基因表達(dá)水平,一般稱為“表達(dá)譜”【真正的表達(dá)譜是蛋白質(zhì)組信息,研究手段是質(zhì)譜】。通常用基因芯片、RNA-seq
  • 廣義轉(zhuǎn)錄組:
    • 非編碼ncRNA:有三類【按長度劃分】
      • 小于50nt的small RNA【長度單位:單鏈叫nt,雙鏈叫bp】:miRNA、siRNA、piRNA【small RNA序列短,同源性高,一般采用二代測(cè)序檢測(cè)】
      • 50-500nt:rRNA、tRNA、snRNA、snoRNA
      • 大于500nt:mRNA-like ncRNA、不帶polyA尾的ncRNA
    • microRNA:也叫miRNAs,20-25nt,初級(jí)轉(zhuǎn)錄物-》核酸酶剪切加工-〉組裝進(jìn)RNA誘導(dǎo)的沉默復(fù)合體-》互補(bǔ)配對(duì)識(shí)別靶mRNA-〉根據(jù)互補(bǔ)程度不同指導(dǎo)沉默復(fù)合體降解靶mRNA或者阻遏mRNA翻譯
  • DNA、蛋白互作:Chromatin immuopre-cipitation, ChIP,主要應(yīng)用于:DNA序列轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Binding sites)識(shí)別 ,如啟動(dòng)子、增強(qiáng)子等順式作用文件(Cis-acting element)的識(shí)別;DNA甲基化、組蛋白修飾、核小體定位
  • DNA甲基化:甲基化DNA免疫共沉淀測(cè)序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA(蛋白)結(jié)合域測(cè)序(Methylated DNA binding domain sequencing, MBD-seq)和亞硫酸氫鹽測(cè)序(Bisulfite sequencing, BS-seq)

基因表達(dá)分析

基因表達(dá)檢測(cè)方法

  • 實(shí)時(shí)熒光定量PCR(Quantitative real time PCR, qRT-PCR)
  • 基因(表達(dá)譜)芯片(Microarray)
  • 表達(dá)序列標(biāo)簽(Expressed Sequence Tag, EST)
  • 基因表達(dá)系列分析(Serial Analysis of Gene Expression, SAGE)
  • 轉(zhuǎn)錄組測(cè)序

PCR技術(shù)應(yīng)用最為成熟,靈敏度高,特異性強(qiáng),但其缺點(diǎn)是通量較??;基因芯片方便快捷,適合臨床診斷及個(gè)體基因組分析;基因測(cè)序技術(shù)通量高,但周期長、成本高

基因芯片是什么

基因芯片又稱DNA微陣列,按照檢測(cè)物的不同,可分為DNA芯片、RNA芯片等,其中DNA芯片又可分為單核苷酸多肽性(SNP)芯片、比較基因組雜交(CGH)芯片等。

原理:基于A、T;C、G互補(bǔ)理論,將已知序列的核酸探針與未知序列的核酸序列進(jìn)行雜交檢測(cè)DNA,并且DNA探針以顯微打印的方式大規(guī)模集成于芯片(類似于計(jì)算機(jī)的硅芯片)表面。雜交后通過計(jì)算機(jī)對(duì)雜交信號(hào)的檢測(cè)分析,得出樣品的遺傳信息(基因序列及表達(dá)的信息)。分析單核苷酸變異多態(tài)性性價(jià)比較高。
基因芯片原理

主流寡聚核苷酸芯片主要有:Affymetric、Agilen、Illumina公司

基因表達(dá)數(shù)據(jù)

矩陣表示:行名代表一個(gè)基因不同條件/樣本的表達(dá),列名代表某個(gè)條件/樣本的所有基因表達(dá)。數(shù)據(jù)代表表達(dá)水平。那么一般分析什么?

  • 不同樣本/處理中哪些基因表達(dá)有顯著差異?
  • 基因之間有什么共有的功能,或者參與哪些共同代謝途徑?
  • 不同的處理中,哪些基因變化一致,它們受到上游哪些基因的調(diào)節(jié),或者它們控制下游哪些基因的表達(dá)?
  • 哪些基因表達(dá)存在樣本特異性,也就是說通過他們的表達(dá)可以判斷樣本的狀態(tài)(如:細(xì)胞的增殖、分化、凋亡、應(yīng)激、癌變等)

主要的分析

主要有差異顯著性分析和時(shí)間序列分析,后者主要是測(cè)定基因多個(gè)時(shí)間點(diǎn)的表達(dá)量,然后聚類+主成分分析尋找共調(diào)控基因

表達(dá)顯著性分析就是為了找差異基因(DEG)。那么怎樣判斷基因間是有差異的呢?常用的有3種算法:一是倍數(shù)分析(無統(tǒng)計(jì)假設(shè)),計(jì)算每個(gè)基因在不同條件/樣本的比值,再與閾值比較;二是用統(tǒng)計(jì)模型T檢驗(yàn)等方法,計(jì)算差異表達(dá)的置信度p值,以0.05或者0.01作為閾值;三是機(jī)器學(xué)習(xí)方法,利用貝葉斯模型、隨機(jī)森林等。分析的結(jié)果從來不用擔(dān)心沒有差異基因,而是要考慮差異基因可能存在很多,從幾十個(gè)到上百個(gè)不等,那么如何展示他們呢,一張簡單粗暴的大表格嗎?肯定是不行的!

需要把上游的這些差異基因再進(jìn)行注釋、分組,一個(gè)類別就相當(dāng)于一個(gè)GO term,然后看這幾大類的區(qū)別,肯定比看幾十甚至上百個(gè)基因或蛋白的差異要更加直觀,這就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重點(diǎn)研究的基因集叫做前景基因,需要比對(duì)的所有基因集叫背景基因,前景是背景的子集。例如轉(zhuǎn)錄組數(shù)據(jù)中的對(duì)照組和處理組,處理與對(duì)照之間的差異基因就是前景基因,兩組所有的表達(dá)基因就是背景基因。富集分析的目的就是根據(jù)不同功能,把各個(gè)分子進(jìn)行分類,然后使用超幾何分布檢驗(yàn)進(jìn)行分析。當(dāng)然使用不同工具,得到的結(jié)果不同,現(xiàn)在clusterProfiler要比DAVID的結(jié)果更多。

GO分析(Gene Ontology)

包括GO terms(標(biāo)簽)+GO annotations(注釋)。

  • GO terms存在于由基因本體聯(lián)合會(huì)(Gene Ontology Consortium)建立的數(shù)據(jù)庫中,對(duì)基因和蛋白功能進(jìn)行限定和描述,每個(gè)注釋信息都有一個(gè)GO ID。它由兩部分構(gòu)成,第一部分都是GO,第二部分是以0開頭的7位數(shù)字,例如GO:0016021 。

    GO是一個(gè)情報(bào)員,他負(fù)責(zé)調(diào)查:包括基因的分子功能:“干啥的”(molecular function,MF),指分子所執(zhí)行的任務(wù)【如與碳水化合物結(jié)合或ATP水解酶活性等】、細(xì)胞組分:“活動(dòng)區(qū)域”即產(chǎn)物發(fā)揮作用的位置(cellular component,CC)【如核仁、端粒和識(shí)別起始的復(fù)合物】、參與的生物過程:“近期有什么動(dòng)靜”(biological process,BP)【嘌呤代謝、有絲分裂等】GO調(diào)查完就給被查對(duì)象貼標(biāo)簽term

  • GO annotations即GO注釋,是針對(duì)基因產(chǎn)物的而不是基因,表示某些基因的產(chǎn)物是是非編碼RNA、蛋白質(zhì)還是大分子等。這里GO就相當(dāng)于一個(gè)中間媒介,它對(duì)基因進(jìn)行定義GO term,然后其他各個(gè)數(shù)據(jù)庫使用GO的定義方法,對(duì)它們的基因產(chǎn)物進(jìn)行標(biāo)注,例如一個(gè)數(shù)據(jù)庫的EntrezID或SYMBOL與GO數(shù)據(jù)庫進(jìn)行ID對(duì)應(yīng),或者用一個(gè)數(shù)據(jù)庫的序列與GO term進(jìn)行對(duì)應(yīng)。

在一個(gè)GO注釋中,例如,一個(gè)基因的產(chǎn)物是細(xì)胞色素c(cytochrome c),那么這個(gè)基因的產(chǎn)物就會(huì)被一個(gè)分子功能術(shù)語(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity ),被生物過程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation ),被細(xì)胞成分(Cellular Component )描述為線性體基質(zhì)(mitochondrial matrix )和線粒體內(nèi)膜(mitochondrial inner membrane )~引用自“讀研筆記”

pathway代謝通路

GO負(fù)責(zé)分門別類,而pathway負(fù)責(zé)把每一類對(duì)應(yīng)到具體的代謝網(wǎng)絡(luò)中。研究pathway的原因是:生物學(xué)問題中設(shè)定一個(gè)“蝴蝶效應(yīng)”假設(shè):1個(gè)Pathway上游基因的改變,會(huì)導(dǎo)致下游相關(guān)基因改變,從而改變通路中大量基因的表達(dá)?,F(xiàn)在常用是KEGG,但是它收錄的都是是已有的研究結(jié)果,而這些信息,還沒有完善

熟悉一下Bioconductor

Bioconductor擁有上千個(gè)擴(kuò)展包,主要有實(shí)驗(yàn)數(shù)據(jù)包、軟件包、注釋數(shù)據(jù)包三大類,例如白血病的ALL包就是利用Affymetrix進(jìn)行芯片分析的數(shù)據(jù)包;但最重要的當(dāng)屬軟件包

軟件包:

  1. 注釋:GO、Pathway等

  2. 微陣列板塊(Assay Domains):處理芯片數(shù)據(jù),Bioconductor支持主流的Affymetrix的商業(yè)化單色寡聚核苷酸芯片,也支持用戶定制的雙色cDNA芯片。芯片數(shù)據(jù)一般流程:數(shù)據(jù)預(yù)處理、差異表達(dá)基因篩選、聚類分析。這里的包有以下幾部分:

    • 比較基因組雜交(Comparative Genomic Hybridization, CGH)
    • 細(xì)胞水平檢測(cè)(Cell Based Assays)
    • 染色質(zhì)免疫共沉淀芯片(ChIPchip)
    • 拷貝數(shù)變異(Copy Number Variants)
    • CpG島(CpGIsland)
    • 差異表達(dá)(Differential Expression)
    • DNA甲基化(DNA Methylation)
    • 外顯子檢測(cè)(Exon Assay)
    • 基因表達(dá)(Gene Expression)
    • 遺傳變異性(Genetic Variability)
    • 單核苷酸多態(tài)性(SNP)
    • 轉(zhuǎn)錄
  3. 測(cè)序技術(shù)(Assay techs)

    • 芯片技術(shù)(Microassay)
    • 微孔板檢測(cè)(Microtitre Plate Assay?)
    • 質(zhì)譜(Mass Spectrometry)
    • 基因表達(dá)系列分析(SAGE)
    • 流式細(xì)胞儀(Flow Cytometry)
    • NGS
  4. 數(shù)據(jù)處理:基因芯片數(shù)據(jù)預(yù)處理(背景矯正、歸一化、質(zhì)控)、芯片分析、基因間關(guān)系、樣本間關(guān)系、識(shí)別差異基因

    聚類分析(Clustering)、分類(Classification)、富集分析(Enrichment)、多組比較(Multiple Comparison)、預(yù)處理(Preprocessing)、質(zhì)控、序列匹配、時(shí)間序列分析(Time Course)、可視化、網(wǎng)絡(luò)分析


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見請(qǐng)后臺(tái)留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 8種特殊建庫測(cè)序 8種特殊建庫測(cè)序 1. RNA-seq 2. 外顯子測(cè)序 3. small RNA-seq 4....
    wangchuang2017閱讀 13,585評(píng)論 2 92
  • 參考學(xué)習(xí)《R語言與Bioconductor生物信息學(xué)應(yīng)用》第六章 前言 Y叔的公眾號(hào)biobabble發(fā)過一篇【聽...
    王詩翔閱讀 14,145評(píng)論 0 49
  • SNP芯片的原理 Illumina的SNP芯片原理Illumina的SNP生物芯片的優(yōu)勢(shì)在于:第1,它的檢測(cè)通量很...
    wangchuang2017閱讀 8,743評(píng)論 0 32
  • 明明午后還與人倚著欄桿安靜交談,轉(zhuǎn)眼幾千公里以外。原來地域和距離只是個(gè)眼神的交換,幾度溫差的改變。分別容易到讓人無...
    伊個(gè)人閱讀 306評(píng)論 0 0
  • at一次性定時(shí)任務(wù) 1:安裝at命令:sudo apt install at 2:啟動(dòng)at:servic...
    隨玉而安_gao閱讀 529評(píng)論 0 0

友情鏈接更多精彩內(nèi)容