功能基因組學(xué)(Functional genomics)是對(duì)基因組中基因與基因間區(qū)域如何參與不同生物學(xué)過(guò)程的研究。在實(shí)際過(guò)程中,我們經(jīng)常從“全基因組”角度(即包含所有或多個(gè)基因/區(qū)域)出發(fā),希望將其范圍縮小到要分析的候選基因或區(qū)域列表。
簡(jiǎn)言之,功能基因組學(xué)就是研究基因產(chǎn)物在特定情況下(如特定發(fā)育階段或疾?。┑膭?dòng)態(tài)表達(dá),并嘗試將開(kāi)發(fā)將我們了解的基因型(功能)與表型聯(lián)系起來(lái)的模型。
根據(jù)憤懣關(guān)注的重點(diǎn),可以分為以下幾種特定的方法:
- DNA水平(基因組學(xué)和表觀基因組學(xué))
- RNA水平(轉(zhuǎn)錄組學(xué))
- 蛋白質(zhì)水平(蛋白質(zhì)組學(xué))
- 代謝物水平(代謝組學(xué))

下面著重學(xué)習(xí)下功能基因組學(xué)常見(jiàn)的分析方法:
1.Microarray
微陣列芯片(Microarray)是DNA探針的集合,探針通常是“噴墨印刷”在載玻片(Agilent)上或原位合成(Affymetrix)的掛衣核苷酸鏈(oligo)。來(lái)自目標(biāo)樣品的標(biāo)記單鏈DNA或反義RNA片段在特定調(diào)節(jié)下與DNA微陣列雜交,隨后檢測(cè)特定探針的雜交量。雜交量與樣品中的核酸片段數(shù)量成正比。
Microarray可分為:?jiǎn)紊碗p色。

雙色芯片可以在一定程度上抵消偏色效應(yīng)

技術(shù)重復(fù)和生物學(xué)重復(fù)

整理分析流程

1.1 特征提?。‵eature extration)
特征提取就是將掃描的到信號(hào)轉(zhuǎn)為gene IDs,樣品名稱和其他可用信息的過(guò)程。

此過(guò)程通常用芯片制造上提供的軟件進(jìn)行操作,生成原始文件(raw data: unprocessed)這些數(shù)據(jù)通常是binary或text格式。可以用
oligo,affy, limma和lumi進(jìn)行分析。
1.2 質(zhì)量控制(Quality Control)
在Expression Atlas中,使用ArrayQualityMEtricsR包進(jìn)行。只要關(guān)注芯片信號(hào)強(qiáng)度,PCA聚類和密度估計(jì)等信息。

1.3 標(biāo)準(zhǔn)化(Standardization)
芯片的標(biāo)準(zhǔn)化主要用于控制技術(shù)差異,同時(shí)保留生物學(xué)差異。
標(biāo)準(zhǔn)化的流程是基于:
實(shí)驗(yàn)組中大多數(shù)基因相對(duì)于對(duì)照組不會(huì)差異表達(dá)
常見(jiàn)的標(biāo)準(zhǔn)化方法:
- Expression Atlas(Affymetrix)→
oligo::rma() -
Agilent單色芯片:
limma::normalizeQuantiles()
1.4 差異分析
差異分析是為了鑒定不同條件下表達(dá)不同的基因,此時(shí)應(yīng)進(jìn)行多次測(cè)試的校正。(因?yàn)閷?duì)少量樣品進(jìn)行數(shù)千次比較時(shí),會(huì)導(dǎo)致假陽(yáng)性的增加)
常見(jiàn)的是應(yīng)用limm包進(jìn)行差異分析
options(digits = 4) #保留4位下數(shù)
library(limma)
group_list <- c(rep("normal",101), rep("tumor",101))
group_list <- factor(group_list, levels=c("nromal", "tumor")
design <- model.matrix(~factor(group_list)) #分組信息
fit <- lmFit(data,design)
fit <- eBayes(fit)
deg <- topTable(fit,coef = 2,adjust="BH",number = Inf) %>%
arrange(logFC) %>%
rownames_to_column("id")
2. RNA-seq
RNA測(cè)序是高通量測(cè)序技術(shù)對(duì)cDNA分子的應(yīng)用,通過(guò)從RNA反轉(zhuǎn)錄獲得。

2.1 建庫(kù)(library)
cDNA文庫(kù)的構(gòu)建取決于所用RNA的類型,使用總RNA可以檢測(cè)ncRNA和mRNA,但是可能進(jìn)行相應(yīng)處理(如消耗核糖體RNA)以檢測(cè)低豐度的轉(zhuǎn)錄本。PolyA+ RNA富集適合真核生物的mRNA純化。

另一個(gè)考慮因素是是否生成保留原始RNA轉(zhuǎn)錄方向的鏈特異性文庫(kù),這對(duì)于鑒定翻譯或非編碼RNA非常重要。
2.2 測(cè)序(sequencing)
從擴(kuò)增的文庫(kù)中獲得核酸序列,以高通量的方式對(duì)每個(gè)分子進(jìn)行測(cè)序,從一端(單端測(cè)序)或兩端(成對(duì)端測(cè)序)獲得數(shù)百萬(wàn)個(gè)短讀序列+相關(guān)的質(zhì)量評(píng)分(如FASTQ文件)。這個(gè)通常由核心機(jī)構(gòu)或外部公司完成。

2.3 質(zhì)量控制
- 去接頭
- 去除低質(zhì)量reads
- uncalled bases
- 過(guò)濾污染物(不是源生物產(chǎn)生的序列)。重要的是要檢查所有樣本的序列質(zhì)量是否相近,并丟棄異常值。
常用軟件: - FastQC:質(zhì)量評(píng)估
- Trimmomatic:去除PCR引物,銜接子序列,修剪得分較低的堿基和低質(zhì)量的N堿基。
2.4 比對(duì)和排序

2.5 Quantification
用GTF(gene transfer format)作為參照,獲取RPKM/FPKM/HTSea-count文件。
2.5 差異分析
常用DESeq2、edgeR差異分析。

參考鏈接:
Functional genomics II Common technologies and data analysis methods