Q:功能基因組學(xué)?

功能基因組學(xué)(Functional genomics)是對(duì)基因組中基因與基因間區(qū)域如何參與不同生物學(xué)過(guò)程的研究。在實(shí)際過(guò)程中,我們經(jīng)常從“全基因組”角度(即包含所有或多個(gè)基因/區(qū)域)出發(fā),希望將其范圍縮小到要分析的候選基因或區(qū)域列表。
簡(jiǎn)言之,功能基因組學(xué)就是研究基因產(chǎn)物在特定情況下(如特定發(fā)育階段或疾?。┑膭?dòng)態(tài)表達(dá),并嘗試將開(kāi)發(fā)將我們了解的基因型(功能)與表型聯(lián)系起來(lái)的模型。
根據(jù)憤懣關(guān)注的重點(diǎn),可以分為以下幾種特定的方法:

  • DNA水平(基因組學(xué)和表觀基因組學(xué))
  • RNA水平(轉(zhuǎn)錄組學(xué))
  • 蛋白質(zhì)水平(蛋白質(zhì)組學(xué))
  • 代謝物水平(代謝組學(xué))
功能基因組學(xué)

下面著重學(xué)習(xí)下功能基因組學(xué)常見(jiàn)的分析方法:

1.Microarray

微陣列芯片(Microarray)是DNA探針的集合,探針通常是“噴墨印刷”在載玻片(Agilent)上或原位合成(Affymetrix)的掛衣核苷酸鏈(oligo)。來(lái)自目標(biāo)樣品的標(biāo)記單鏈DNA或反義RNA片段在特定調(diào)節(jié)下與DNA微陣列雜交,隨后檢測(cè)特定探針的雜交量。雜交量與樣品中的核酸片段數(shù)量成正比。
Microarray可分為:?jiǎn)紊碗p色。


單色和雙色芯片

雙色芯片可以在一定程度上抵消偏色效應(yīng)


雙色芯片

技術(shù)重復(fù)和生物學(xué)重復(fù)

重復(fù)

整理分析流程

芯片分析流程

1.1 特征提?。‵eature extration)

特征提取就是將掃描的到信號(hào)轉(zhuǎn)為gene IDs,樣品名稱和其他可用信息的過(guò)程。

特征提取

此過(guò)程通常用芯片制造上提供的軟件進(jìn)行操作,生成原始文件(raw data: unprocessed)這些數(shù)據(jù)通常是binary或text格式。可以用oligo,affy, limmalumi進(jìn)行分析。
原始數(shù)據(jù)文件格式

1.2 質(zhì)量控制(Quality Control)

在Expression Atlas中,使用ArrayQualityMEtricsR包進(jìn)行。只要關(guān)注芯片信號(hào)強(qiáng)度,PCA聚類和密度估計(jì)等信息。

質(zhì)量控制

1.3 標(biāo)準(zhǔn)化(Standardization)

芯片的標(biāo)準(zhǔn)化主要用于控制技術(shù)差異,同時(shí)保留生物學(xué)差異。
標(biāo)準(zhǔn)化的流程是基于:

實(shí)驗(yàn)組中大多數(shù)基因相對(duì)于對(duì)照組不會(huì)差異表達(dá)

常見(jiàn)的標(biāo)準(zhǔn)化方法:

  • Expression Atlas(Affymetrix)→ oligo::rma()
  • Agilent單色芯片: limma::normalizeQuantiles()

1.4 差異分析

差異分析是為了鑒定不同條件下表達(dá)不同的基因,此時(shí)應(yīng)進(jìn)行多次測(cè)試的校正。(因?yàn)閷?duì)少量樣品進(jìn)行數(shù)千次比較時(shí),會(huì)導(dǎo)致假陽(yáng)性的增加)
常見(jiàn)的是應(yīng)用limm包進(jìn)行差異分析

options(digits = 4) #保留4位下數(shù)
library(limma)
group_list <- c(rep("normal",101), rep("tumor",101))
group_list <- factor(group_list, levels=c("nromal", "tumor")
design <- model.matrix(~factor(group_list)) #分組信息
fit <- lmFit(data,design)
fit <- eBayes(fit)
deg <- topTable(fit,coef = 2,adjust="BH",number = Inf) %>%
  arrange(logFC) %>%
  rownames_to_column("id")

2. RNA-seq

RNA測(cè)序是高通量測(cè)序技術(shù)對(duì)cDNA分子的應(yīng)用,通過(guò)從RNA反轉(zhuǎn)錄獲得。


RNA-seq流程

2.1 建庫(kù)(library)

cDNA文庫(kù)的構(gòu)建取決于所用RNA的類型,使用總RNA可以檢測(cè)ncRNA和mRNA,但是可能進(jìn)行相應(yīng)處理(如消耗核糖體RNA)以檢測(cè)低豐度的轉(zhuǎn)錄本。PolyA+ RNA富集適合真核生物的mRNA純化。


配對(duì)末端測(cè)序和比對(duì)

另一個(gè)考慮因素是是否生成保留原始RNA轉(zhuǎn)錄方向的鏈特異性文庫(kù),這對(duì)于鑒定翻譯或非編碼RNA非常重要。

2.2 測(cè)序(sequencing)

從擴(kuò)增的文庫(kù)中獲得核酸序列,以高通量的方式對(duì)每個(gè)分子進(jìn)行測(cè)序,從一端(單端測(cè)序)或兩端(成對(duì)端測(cè)序)獲得數(shù)百萬(wàn)個(gè)短讀序列+相關(guān)的質(zhì)量評(píng)分(如FASTQ文件)。這個(gè)通常由核心機(jī)構(gòu)或外部公司完成。


FASTQ文件

2.3 質(zhì)量控制

  • 去接頭
  • 去除低質(zhì)量reads
  • uncalled bases
  • 過(guò)濾污染物(不是源生物產(chǎn)生的序列)。重要的是要檢查所有樣本的序列質(zhì)量是否相近,并丟棄異常值。
    常用軟件:
  • FastQC:質(zhì)量評(píng)估
  • Trimmomatic:去除PCR引物,銜接子序列,修剪得分較低的堿基和低質(zhì)量的N堿基。

2.4 比對(duì)和排序

比對(duì)和排序

2.5 Quantification

用GTF(gene transfer format)作為參照,獲取RPKM/FPKM/HTSea-count文件。

2.5 差異分析

常用DESeq2、edgeR差異分析。

RNA-seq數(shù)據(jù)分析

參考鏈接:
Functional genomics II Common technologies and data analysis methods

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容