基因課FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
聽張旭東老師的課
發(fā)展情形
- 蛋白質(zhì)組學(xué)、代謝組學(xué)技術(shù)不成熟,費用高 → 大量做轉(zhuǎn)錄組學(xué)(間接)
- 表達芯片已經(jīng)大部分被轉(zhuǎn)錄組測序替代,表達芯片優(yōu)劣勢,有可能芯片上沒有
簡單的分析流程
測序數(shù)據(jù)(上百G) --標準分析(需要服務(wù)器)→ 表達矩陣(幾M) --數(shù)據(jù)挖掘(PC/R語言)→ 統(tǒng)計圖表(幾M)
表達數(shù)據(jù)挖掘
- 三張表
① 表達矩陣:每行一個gene,每列一個樣本sample(可以在GEO數(shù)據(jù)庫下載)
| g/S | Sample1 | Sample2 | Sample3 |
|---|---|---|---|
| gene1 | 38 | 55 | 76 |
| gene2 | 127 | 41 | 86 |
| gene3 | 46 | 29 | 34 |
| ... | ... | ... | ... |
② 樣本信息表:每行一個樣本,每列一個表型特征(臨床信息、表型特征、生化指標等)
| S/Phenotype | Group | Weight | Age | Stage |
|---|---|---|---|---|
| Sample1 | Cancer | 20 | 10 | I |
| Sample2 | Cancer | 34 | 39 | III |
| Sample3 | Normal | 64 | 49 | IV |
| Sample4 | Normal | 44 | 34 | I |
| ... | ... | ... | ... | ... |
③基因信息表:每行一個基因,每列一個信息
| g/Information | Symbol | Function |
|---|---|---|
| gene1 | KCNA3 | xxx |
| gene2 | NCON3 | Xxx |
| gene3 | DDB1 | xXx |
| ... | ... | ... |
- 研究目的
大多數(shù)為找到表型背后的分子機制 -
注
RNA測序數(shù)據(jù)與芯片測序數(shù)據(jù)可以合并分析,但不能直接合并,相當(dāng)于是個分析各的,再看兩個分析找到的規(guī)律是否一致
分析方法
尋找關(guān)鍵基因和關(guān)鍵樣本
-
差異表達分析:哪些基因在兩組樣本中有明顯表達差異?
- 差異表達分析得到的表格中:
FC(Folder change) 該基因在所檢測的兩組樣品中表達量相差多少倍
log2FC
Pval(P value) 假設(shè)檢驗
Padj 多重假設(shè)矯正之后的P value → 矯正之后的P value小于0.05為有顯著差異- Questions
① 如何篩選差異基因,只用P value<0.05行不行?
不行,還要FC>2 或 |log2FC|>1
② 該設(shè)計多少個生物學(xué)重復(fù)?
最少3個,最好有7、8個
③ 是否生物學(xué)重復(fù)越多,鑒定到的差異表達基因就越多?
是。重復(fù)越多,更多差異小的基因被識別
④ DESeq2 鑒定到500個差異基因,換edgeR有2000個,哪個對?
都對,選擇合適的,不同算法模式不一樣,要選擇適合目標測序結(jié)果的差異表達分析模型。差異表達基因少可以考慮換個模型,換個算法。
- Questions
- 差異表達分析結(jié)果可視化
- 火山圖 左上角、右上角差異越大
- Heatmap 表達量矩陣可視化
- Question
① 是否差異越大的基因越該重點關(guān)注
否,很多是已經(jīng)研究透徹的基因;可能只是結(jié)果,不是原因
② 差異表達基因過多或過少該如何調(diào)整?
差異表達分析的基礎(chǔ)是假設(shè)檢驗(t檢驗),假設(shè)檢驗涉及到概率模型,有可能當(dāng)前假設(shè)的概率模型并不適合當(dāng)前實驗結(jié)果,可以選擇其他分析軟件,或調(diào)整參數(shù),更換概率模型,從而達到這種目的。
- 差異表達分析得到的表格中:
-
樣本聚類分析:探索樣本之間的關(guān)系,鎖定關(guān)鍵樣本,之后再做差異分析。
- 樣本間相關(guān)系數(shù):用來描述樣本表達模式的相似程度
組間差異大,組內(nèi)差異小 → 正常,反之,不正常,可能需要重做。 - 基因間相關(guān)系數(shù):找到與已知基因關(guān)聯(lián)基因
表達模式相似的基因 - 相關(guān)系數(shù):三種常用計算方法
Pearson相關(guān)系數(shù)
Spearman相關(guān)系數(shù)
Kendel相關(guān)系數(shù)
通常會關(guān)心相關(guān)系數(shù)在0.75 - 1 之間的值 -
注:
性別 —— Kendel相關(guān)系數(shù)
腫瘤分期 —— Spearman相關(guān)系數(shù)
- 樣本間相關(guān)系數(shù):用來描述樣本表達模式的相似程度
-
聚類分析和WGCNA:探索基因與表型的關(guān)系
- 基因與表型可以做相關(guān)性分析,但是對于一個表型,不止一個基因與之相關(guān),因此采?。?對所有基因聚類 → 用聚類后的基因簇(cluster)與表型做相關(guān)性分析
- WGCNA分析(加權(quán)共表達分析)
① 模塊構(gòu)建(基因聚類)
② 性狀與模塊相關(guān)分析 —— 篩選出與該表型相關(guān)的gene cluster —— 對于該性狀,cluster中的基因不是同等重要,用Cytoscape繪出網(wǎng)絡(luò)圖,確定在中心位置的為關(guān)鍵gene
③ 鑒定Hub基因 - TOM矩陣(拓撲重疊矩陣)
-
注
大部分人該過程在PC上完成,因為很耗內(nèi)存,很多都不得不濾除一些差異很小的基因
-
主成分分析(PCA)
- 聚類分析和主成分分析都是降維分析
- 對原來數(shù)據(jù)進行PC線性變換,通過n個PC各項加權(quán),將m項降維至n項(n<m)
- 要考慮的問題:
① 哪個PC最能體現(xiàn)樣品的差異?
② 假如你關(guān)心某項功能,應(yīng)該重點關(guān)注哪個PC?
③ 重點關(guān)注哪個PC,可以完成聚類 - 結(jié)果圖:
hub PC:bioplot
hub PC:表型關(guān)聯(lián)
hub genes:loadings plot
功能分析
- 富集分析:差異基因是否顯著集中在某個功能分類上?
- 功能分類:GO分類、Pathway分類
- 富集分析結(jié)果
GO分類ID
Description 分類功能描述
GeneRatio 差異基因中有多少富集在此pathway上
BgRatio 背景,所有基因中有多少富集在此Pathway上
Pvalue 比較以上兩者,得到Pvalue
P.adjust P值矯正 - 最佳實踐:通過ClusterProfiler軟件包做
- 蛋白互作網(wǎng)絡(luò)分析(PPI)
- 通過已有數(shù)據(jù)庫查看基因是否有關(guān)聯(lián)
表達驗證
- 目的:驗證測序、芯片是否靠譜;測序樣本生物學(xué)重復(fù)數(shù)量少,可以在表達驗證掰回來,驗證時多點生物學(xué)重復(fù),增強說服力。
- 方法
qPCR驗證
數(shù)據(jù)庫檢索數(shù)據(jù)驗證(腫瘤數(shù)據(jù)庫TCGA、正常人數(shù)據(jù)庫GTEx、將兩者結(jié)合在一起的數(shù)據(jù)庫) - 功能:證明相關(guān)性,但還不能證明這些基因就有這個功能
功能驗證
- 實驗:
敲除、敲低
過表達 - 人類疾病:生存分析
分子機制
TCGA等多組學(xué)關(guān)聯(lián)分析
- 序列變異
- 表觀遺傳修飾
- 轉(zhuǎn)錄調(diào)控