轉(zhuǎn)錄組數(shù)據(jù)挖掘方法原理

基因課FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
聽張旭東老師的課

發(fā)展情形

  • 蛋白質(zhì)組學(xué)、代謝組學(xué)技術(shù)不成熟,費用高 → 大量做轉(zhuǎn)錄組學(xué)(間接)
  • 表達芯片已經(jīng)大部分被轉(zhuǎn)錄組測序替代,表達芯片優(yōu)劣勢,有可能芯片上沒有

簡單的分析流程

測序數(shù)據(jù)(上百G) --標準分析(需要服務(wù)器)→ 表達矩陣(幾M) --數(shù)據(jù)挖掘(PC/R語言)→ 統(tǒng)計圖表(幾M)

表達數(shù)據(jù)挖掘

  • 三張表

① 表達矩陣:每行一個gene,每列一個樣本sample(可以在GEO數(shù)據(jù)庫下載)

g/S Sample1 Sample2 Sample3
gene1 38 55 76
gene2 127 41 86
gene3 46 29 34
... ... ... ...

② 樣本信息表:每行一個樣本,每列一個表型特征(臨床信息、表型特征、生化指標等)

S/Phenotype Group Weight Age Stage
Sample1 Cancer 20 10 I
Sample2 Cancer 34 39 III
Sample3 Normal 64 49 IV
Sample4 Normal 44 34 I
... ... ... ... ...

③基因信息表:每行一個基因,每列一個信息

g/Information Symbol Function
gene1 KCNA3 xxx
gene2 NCON3 Xxx
gene3 DDB1 xXx
... ... ...
  • 研究目的
    大多數(shù)為找到表型背后的分子機制

  • RNA測序數(shù)據(jù)與芯片測序數(shù)據(jù)可以合并分析,但不能直接合并,相當(dāng)于是個分析各的,再看兩個分析找到的規(guī)律是否一致

分析方法

尋找關(guān)鍵基因和關(guān)鍵樣本

  • 差異表達分析:哪些基因在兩組樣本中有明顯表達差異?

    • 差異表達分析得到的表格中:
      FC(Folder change) 該基因在所檢測的兩組樣品中表達量相差多少倍
      log2FC
      Pval(P value) 假設(shè)檢驗
      Padj 多重假設(shè)矯正之后的P value → 矯正之后的P value小于0.05為有顯著差異
      • Questions
        ① 如何篩選差異基因,只用P value<0.05行不行?
        不行,還要FC>2 或 |log2FC|>1
        ② 該設(shè)計多少個生物學(xué)重復(fù)?
        最少3個,最好有7、8個
        ③ 是否生物學(xué)重復(fù)越多,鑒定到的差異表達基因就越多?
        是。重復(fù)越多,更多差異小的基因被識別
        ④ DESeq2 鑒定到500個差異基因,換edgeR有2000個,哪個對?
        都對,選擇合適的,不同算法模式不一樣,要選擇適合目標測序結(jié)果的差異表達分析模型。差異表達基因少可以考慮換個模型,換個算法。
    • 差異表達分析結(jié)果可視化
      • 火山圖 左上角、右上角差異越大
      • Heatmap 表達量矩陣可視化
      • Question
        ① 是否差異越大的基因越該重點關(guān)注
        否,很多是已經(jīng)研究透徹的基因;可能只是結(jié)果,不是原因
        ② 差異表達基因過多或過少該如何調(diào)整?
        差異表達分析的基礎(chǔ)是假設(shè)檢驗(t檢驗),假設(shè)檢驗涉及到概率模型,有可能當(dāng)前假設(shè)的概率模型并不適合當(dāng)前實驗結(jié)果,可以選擇其他分析軟件,或調(diào)整參數(shù),更換概率模型,從而達到這種目的。
  • 樣本聚類分析:探索樣本之間的關(guān)系,鎖定關(guān)鍵樣本,之后再做差異分析。

    • 樣本間相關(guān)系數(shù):用來描述樣本表達模式的相似程度
      組間差異大,組內(nèi)差異小 → 正常,反之,不正常,可能需要重做。
    • 基因間相關(guān)系數(shù):找到與已知基因關(guān)聯(lián)基因
      表達模式相似的基因
    • 相關(guān)系數(shù):三種常用計算方法
      Pearson相關(guān)系數(shù)
      Spearman相關(guān)系數(shù)
      Kendel相關(guān)系數(shù)
      通常會關(guān)心相關(guān)系數(shù)在0.75 - 1 之間的值

    • 性別 —— Kendel相關(guān)系數(shù)
      腫瘤分期 —— Spearman相關(guān)系數(shù)
  • 聚類分析和WGCNA:探索基因與表型的關(guān)系

    • 基因與表型可以做相關(guān)性分析,但是對于一個表型,不止一個基因與之相關(guān),因此采?。?對所有基因聚類 → 用聚類后的基因簇(cluster)與表型做相關(guān)性分析
    • WGCNA分析(加權(quán)共表達分析)
      ① 模塊構(gòu)建(基因聚類)
      ② 性狀與模塊相關(guān)分析 —— 篩選出與該表型相關(guān)的gene cluster —— 對于該性狀,cluster中的基因不是同等重要,用Cytoscape繪出網(wǎng)絡(luò)圖,確定在中心位置的為關(guān)鍵gene
      ③ 鑒定Hub基因
    • TOM矩陣(拓撲重疊矩陣)

    • 大部分人該過程在PC上完成,因為很耗內(nèi)存,很多都不得不濾除一些差異很小的基因
  • 主成分分析(PCA)

    • 聚類分析和主成分分析都是降維分析
    • 對原來數(shù)據(jù)進行PC線性變換,通過n個PC各項加權(quán),將m項降維至n項(n<m)
    • 要考慮的問題:
      ① 哪個PC最能體現(xiàn)樣品的差異?
      ② 假如你關(guān)心某項功能,應(yīng)該重點關(guān)注哪個PC?
      ③ 重點關(guān)注哪個PC,可以完成聚類
    • 結(jié)果圖:
      hub PC:bioplot
      hub PC:表型關(guān)聯(lián)
      hub genes:loadings plot

功能分析

  • 富集分析:差異基因是否顯著集中在某個功能分類上?
    • 功能分類:GO分類、Pathway分類
    • 富集分析結(jié)果
      GO分類ID
      Description 分類功能描述
      GeneRatio 差異基因中有多少富集在此pathway上
      BgRatio 背景,所有基因中有多少富集在此Pathway上
      Pvalue 比較以上兩者,得到Pvalue
      P.adjust P值矯正
    • 最佳實踐:通過ClusterProfiler軟件包做
  • 蛋白互作網(wǎng)絡(luò)分析(PPI)
    • 通過已有數(shù)據(jù)庫查看基因是否有關(guān)聯(lián)

表達驗證

  • 目的:驗證測序、芯片是否靠譜;測序樣本生物學(xué)重復(fù)數(shù)量少,可以在表達驗證掰回來,驗證時多點生物學(xué)重復(fù),增強說服力。
  • 方法
    qPCR驗證
    數(shù)據(jù)庫檢索數(shù)據(jù)驗證(腫瘤數(shù)據(jù)庫TCGA、正常人數(shù)據(jù)庫GTEx、將兩者結(jié)合在一起的數(shù)據(jù)庫)
  • 功能:證明相關(guān)性,但還不能證明這些基因就有這個功能

功能驗證

  • 實驗:
    敲除、敲低
    過表達
  • 人類疾病:生存分析

分子機制

TCGA等多組學(xué)關(guān)聯(lián)分析

  • 序列變異
  • 表觀遺傳修飾
  • 轉(zhuǎn)錄調(diào)控
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容