10X空間轉(zhuǎn)錄組空間依賴性基因共表達(dá)表征分析之SpaceX

hello,大家好,其實(shí)之前已經(jīng)給大家已經(jīng)分享過很多空間基因共表達(dá)模式的文章,今天給大家介紹一個新的方法,用于評斷在組織中不同空間位置或細(xì)胞類型的基因-基因共表達(dá)的表征能夠描繪空間共調(diào)節(jié)模式,而不是標(biāo)準(zhǔn)的差異單基因分析,參考文章在SpaceX: Gene Co-expression Network Estimation for Spatial Transcriptomics,非常棒的文章,很適合用于分析空間轉(zhuǎn)錄組。

1.png

Abstract

Motivation

空間分辨轉(zhuǎn)錄組的分析有助于了解細(xì)胞環(huán)境和轉(zhuǎn)錄調(diào)控之間的空間相互作用。 特別是,在組織中不同空間位置或細(xì)胞類型的基因-基因共表達(dá)的表征能夠描繪空間共調(diào)節(jié)模式,而不是標(biāo)準(zhǔn)的差異單基因分析。 為了增強(qiáng)空間轉(zhuǎn)錄組學(xué)技術(shù)推動生物發(fā)現(xiàn)的能力和潛力,開發(fā)了一個統(tǒng)計(jì)框架來檢測空間結(jié)構(gòu)化組織中的基因共表達(dá)模式,該組織由細(xì)胞類別或組織域形式的不同cluster組成。

Results

開發(fā)了 SpaceX(空間相關(guān)基因共表達(dá)網(wǎng)絡(luò)),這是一種貝葉斯方法,用于識別跨基因的共享和特定cluster共表達(dá)網(wǎng)絡(luò)。 SpaceX 使用過度分散的空間泊松模型與基于降維技術(shù)的高維因子模型相結(jié)合,以提高計(jì)算效率。 通過模擬顯示,通過考慮(增加)空間相關(guān)性和適當(dāng)?shù)脑肼暦植迹?strong>共表達(dá)網(wǎng)絡(luò)估計(jì)和結(jié)構(gòu)的準(zhǔn)確性提高。 使用SpaceX深入分析小鼠下丘腦和人類乳腺癌的兩個空間轉(zhuǎn)錄組數(shù)據(jù)集,檢測到與下丘腦數(shù)據(jù)認(rèn)知能力相關(guān)的多個hub基因和乳腺癌腫瘤區(qū)域的多個癌基因(如膠原家族) 數(shù)據(jù)。

Introduction

空間轉(zhuǎn)錄組學(xué)的最新技術(shù)進(jìn)步促進(jìn)了生物組織中高通量 RNA 測序數(shù)據(jù)的獲取,同時(shí)也考慮了空間信息。為了破譯組織內(nèi)的空間細(xì)胞結(jié)構(gòu),空間轉(zhuǎn)錄組學(xué)技術(shù)(如 10X Genomics Visium 和 Slide-seq)使用空間索引條碼和 RNA 測序,允許使用單個組織切片中的空間信息對轉(zhuǎn)錄組進(jìn)行定量分析。這些新技術(shù)可以幫助理解包括發(fā)育腦組織和腫瘤微環(huán)境在內(nèi)的許多生物系統(tǒng)的空間組織,并有助于表征細(xì)胞環(huán)境和基因表達(dá)之間的空間相互作用,并描繪健康和患病組織之間的組織組織差異。空間轉(zhuǎn)錄組學(xué)的一個主要興趣點(diǎn)是研究組織中細(xì)胞間信號的空間變化,這可能是疾病病因以及psychological or behavioral patterns的基礎(chǔ)

轉(zhuǎn)錄組分析的一個重要方面集中在基因共表達(dá)模式上,因?yàn)榛蛲ㄟ^生物網(wǎng)絡(luò)彼此自然地相互關(guān)聯(lián)基于網(wǎng)絡(luò)的模型提供了一個簡單且可解釋的框架來表征各種生物系統(tǒng)中復(fù)雜的基因相互作用模式。基因共表達(dá)網(wǎng)絡(luò)通常使用基于圖的表示進(jìn)行表征,其中節(jié)點(diǎn)表示基因,邊表示基因之間的關(guān)聯(lián)或調(diào)節(jié)相互作用。已經(jīng)開發(fā)了幾種網(wǎng)絡(luò)方法來檢測基因共表達(dá)網(wǎng)絡(luò)并識別基因調(diào)控社區(qū)或模塊,以產(chǎn)生與潛在生物和調(diào)控途徑合理相關(guān)的生物學(xué)見解,了解因果組織或細(xì)胞類型,并可能影響疾病風(fēng)險(xiǎn)和結(jié)果。與僅測量單個基因表達(dá)修飾的標(biāo)準(zhǔn)差異表達(dá)分析相比,識別病例和對照等條件之間的網(wǎng)絡(luò)結(jié)構(gòu)變化可以揭示特定疾病的重要補(bǔ)充信息。

在標(biāo)準(zhǔn)單細(xì)胞研究中構(gòu)建基因共表達(dá)網(wǎng)絡(luò)的大多數(shù)現(xiàn)有計(jì)算方法本質(zhì)上都涉及降維步驟,該步驟可實(shí)現(xiàn)兩個目標(biāo):一個是避免維數(shù)災(zāi)難并幫助計(jì)算可行性;其次是在減少噪聲的同時(shí)保留內(nèi)在維度。然而,現(xiàn)有的網(wǎng)絡(luò)方法并沒有包含在空間轉(zhuǎn)錄組學(xué)中至關(guān)重要的空間信息。僅提出了有限數(shù)量的工作來研究空間轉(zhuǎn)錄組學(xué)中的基因相互作用或共表達(dá)模式。提供空間共表達(dá)網(wǎng)絡(luò)、基因圖卷積神經(jīng)網(wǎng)絡(luò)和 Giotto 方法的可視化,特別關(guān)注配體和受體的相互作用。此外,所有這些方法都假設(shè)在給定樣本中具有共同的基因網(wǎng)絡(luò)。然而,人們可能不會期望一個共同的網(wǎng)絡(luò)能夠捕獲所有的空間依賴性,因?yàn)榛蚪M特征可能會表現(xiàn)出基于樣本內(nèi)特定空間位置的區(qū)域特定異質(zhì)性。例如,這些區(qū)域可以是病理學(xué)上不同的區(qū)域(例如腫瘤與癌癥中的正常區(qū)域)或基于不同的細(xì)胞類型,因此這些區(qū)域可以表現(xiàn)出截然不同的共表達(dá)模式

為此,提出:空間依賴性基因共表達(dá) (SpaceX) 網(wǎng)絡(luò)模型,以推斷具有共享和區(qū)域特定組件的空間轉(zhuǎn)錄組數(shù)據(jù)的基因共表達(dá)網(wǎng)絡(luò)。 下圖顯示了pipeline的整體概念流程。 用于分析空間基因表達(dá)的給定組織切片的圖像覆蓋在組織切片上,在空間位置上有(已知的)cluster注釋。 基因表達(dá)矩陣的結(jié)果數(shù)據(jù)矩陣以及組織上每個空間位置的空間定位和聚類注釋信息用作 SpaceX 模型的輸入。 SpaceX 使用過度分散的空間泊松模型和高維因子模型(Panel H)來推斷共享和集群特定的共表達(dá)網(wǎng)絡(luò)。 最后,這些網(wǎng)絡(luò)用于下游網(wǎng)絡(luò)分析,以檢測跨空間區(qū)域的基因模塊和樞紐基因,以進(jìn)行生物學(xué)解釋。

7ZMSJJUCYH~0EW_YJ1Y}`KK.png

簡而言之,SpaceX 使用貝葉斯模型通過在確定網(wǎng)絡(luò)拓?fù)鋾r(shí)結(jié)合空間信息來推斷空間變化的共表達(dá)網(wǎng)絡(luò)。 概率模型能夠量化不確定性,并基于計(jì)算效率的相干降維技術(shù)。 通過嚴(yán)格的模擬,證明SpaceX模型能夠準(zhǔn)確地恢復(fù)網(wǎng)絡(luò)結(jié)構(gòu)并提高不同空間相關(guān)結(jié)構(gòu)的估計(jì)精度。 將 SpaceX 模型應(yīng)用于小鼠大腦成像和乳腺癌數(shù)據(jù)集,以確定特定區(qū)域的網(wǎng)絡(luò)。 進(jìn)一步的下游分析檢測到基因模塊和相關(guān)樞紐基因的多個社區(qū)。 分析能夠識別與小鼠下丘腦數(shù)據(jù)的行為模式和認(rèn)知能力相關(guān)的多個基因。 類似地,從乳腺癌的腫瘤區(qū)域中檢測到多個膠原蛋白和癌癥特異性基因。

SpaceX model

Method overview

在輸入數(shù)據(jù)結(jié)構(gòu)方面,表示觀察到的基因表達(dá)數(shù)據(jù)來自 G (g = 1, . . G) 基因,以及空間索引clusters C (c = 1, . . , C),大小為 Nc (i = 1, ... Nc)。 這些cluster可以是特定于細(xì)胞類型的注釋不同的細(xì)胞類型,也可以是注釋不同空間域的空間連續(xù)cluster。 這里構(gòu)建了一個 G 維網(wǎng)絡(luò),其中 G 基因之間的依賴關(guān)系可以用一組頂點(diǎn) V = {1, . . . , G} 和一組邊 E ∈ V × V 。 兩個節(jié)點(diǎn)之間的邊 (E) 表示它們之間的共表達(dá)水平,這是使用相似性度量定義的,在例子中是相關(guān)系數(shù)。 在 SpaceX 模型中,構(gòu)建了由以下兩個層次組件組成的網(wǎng)絡(luò):

  • A “shared" component representing the global co-expression network among genes across the spatial domain;
  • A “cluster" specific component representing the local or clusterspecific gene co-expression network for a given (c-th) cluster.

這種分解實(shí)現(xiàn)了兩個目標(biāo)。 首先,它能夠精確描述跨空間集群保守和修改的共表達(dá)網(wǎng)絡(luò)components,從而實(shí)現(xiàn)更連貫的解釋。 其次,這有利于降維技術(shù),使整個方法可擴(kuò)展到大型網(wǎng)絡(luò)。SpaceX算法以基因表達(dá)矩陣、空間位置和cluster注釋作為輸入。 在第一步中,該算法使用泊松混合模型估計(jì)潛在基因表達(dá)水平,同時(shí)調(diào)整協(xié)變量和空間定位信息。 在下一步中,它利用潛在基因表達(dá)的稀疏分層因子模型來獲得共享和集群特定的共表達(dá)網(wǎng)絡(luò)

Model construction

1.png

2.png

在模型 (1) 公式中,有效地利用降維技術(shù)來確保基因共表達(dá)網(wǎng)絡(luò)的可擴(kuò)展構(gòu)建。 方法基于潛在因子模型,該模型利用低維結(jié)構(gòu),特別是對于多視圖數(shù)據(jù),同時(shí)識別共享共表達(dá)網(wǎng)絡(luò)并隔離集群特定網(wǎng)絡(luò)。 通過因子模型和協(xié)方差矩陣之間的對應(yīng)關(guān)系,這能夠推斷基因共表達(dá)網(wǎng)絡(luò)的兩個重要且分層的components:
3.png

Bayesian estimation algorithm

為了擬合模型 (1),使用易于處理的貝葉斯估計(jì)程序以及計(jì)算效率高且可擴(kuò)展的算法,如下所述。 與傾向于計(jì)算密集型的全尺度馬爾可夫鏈蒙特卡羅 (MCMC) 算法相反,這里將整個模型估計(jì)解耦為兩個關(guān)鍵components (I) 空間泊松混合模型和 (II) 分層因子分析模型,and the two components are linked in a sequential manner in our algorithm:

1.png

Co-expression network construction and inference

2.png

3.png

Simulation studies

評估了 SpaceX 模型在模擬一系列空間依賴性下的真實(shí)數(shù)據(jù)應(yīng)用的合成數(shù)據(jù)集中的性能。 核心假設(shè)是,通過考慮空間相關(guān)性,隨著空間相關(guān)性的連續(xù)增加,應(yīng)該能夠?qū)崿F(xiàn)更好的估計(jì)和共表達(dá)網(wǎng)絡(luò)恢復(fù)(共享的和特定于clusters的)

Y7(6BM8WV2UUD0DRGX{C84T.png

A%84K$32REDAR1$F1}PE_Y1.png

1.png

ESG4H(W46UWL2QV3W_NFM0O.png

總之,看到 SpaceX 模型在一系列空間依賴關(guān)系中顯著改善了網(wǎng)絡(luò)估計(jì)和結(jié)構(gòu)恢復(fù)。 最高增益是在空間相關(guān)性高時(shí)(例如 0.88)。 這表明有利地考慮空間相關(guān)性以及適當(dāng)?shù)脑肼暦植迹床此赡P停┛梢蕴岣吖脖磉_(dá)估計(jì)的效率。

(7(IN}RBYS4~R1FO876R$B8.png

Gene co-expression networks using spatial transcriptomics data

使用小鼠下丘腦和人類乳腺癌中的兩個空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)集來說明 SpaceX 模型,小鼠下丘腦數(shù)據(jù)集是單細(xì)胞分辨率,空間位置代表細(xì)胞,位置cluster代表細(xì)胞類型。 乳腺癌數(shù)據(jù)集具有區(qū)域分辨率,每個空間位置由多個單細(xì)胞和代表三個組織域(腫瘤、中間和正常)的位置cluster組成。

Hypothalamus data

MERFISH 數(shù)據(jù)集是從小鼠下丘腦的視前區(qū)收集的,該區(qū)域調(diào)節(jié)許多social behaviors。 MERFISH 技術(shù)測量不同細(xì)胞類型的單個細(xì)胞的基因表達(dá),提供對組織中細(xì)胞空間組織的洞察。 該數(shù)據(jù)集由 160 個基因組成,相應(yīng)的基因表達(dá)是在 4812 個空間位置測量的。 這些細(xì)胞已被注釋為 7 種不同的細(xì)胞類型(大?。?,即星形膠質(zhì)細(xì)胞 (724)、內(nèi)皮細(xì)胞 (503)、室管膜細(xì)胞 (314)、興奮性神經(jīng)元 (1024)、抑制性神經(jīng)元 (1694)、未成熟神經(jīng)元 (168) 和 成熟神經(jīng)元 (385)。

所有細(xì)胞類型的空間分布下圖A所示。使用 SpaceX 獲得共享和特定于細(xì)胞類型的網(wǎng)絡(luò)。共享網(wǎng)絡(luò)顯示在中心,其中基因根據(jù)特定細(xì)胞類型的差異表達(dá)進(jìn)行分組和顏色編碼。使用 Wilcoxon 檢驗(yàn)來檢測基因是否在特定細(xì)胞類型中被顯著地表達(dá)。遵循下圖B中的所有網(wǎng)絡(luò)圖,在細(xì)胞類型內(nèi)觀察到更多的基因-基因共表達(dá)邊緣,而不是細(xì)胞類型之間,這與預(yù)期一致。為了總結(jié)連通性水平,提供了一個矩陣的圓形熱圖,每個條目是一個基因相對于特定細(xì)胞類型的基因連接數(shù)。右側(cè)細(xì)胞類型的樹狀圖顯示未成熟細(xì)胞類型中基因之間的聯(lián)系與其他細(xì)胞類型不同。根據(jù)每個基因的連接數(shù),確定了每種細(xì)胞類型的中心基因。

下圖D,發(fā)現(xiàn)跨膜蛋白 108 (Tmem108) 是除內(nèi)皮細(xì)胞外所有細(xì)胞類型的樞紐基因。 Tmem 108 portine 是雙相情感障礙和重度抑郁癥等精神疾病的主要基因。另外兩個檢測到的樞紐基因 CCKAR 和 CCKBR 作為膽囊收縮素 (CCK) 的受體,這些基因與胃腸道疾病有關(guān)。 CCK 受體的缺失可導(dǎo)致皮質(zhì)發(fā)育異常和皮質(zhì)中間神經(jīng)元遷移。在健康和受傷的小鼠大腦中,sema4D(內(nèi)皮、未成熟和興奮性中的另一個中樞基因)缺乏會導(dǎo)致少突膠質(zhì)細(xì)胞數(shù)量增加。 TAC1 調(diào)節(jié)肥胖水平以響應(yīng)生長素釋放肽給藥和性腺功能的變化。沿著這條線,另一個中樞基因 SLN 或肌磷脂的過度表達(dá)是肌肉能量的調(diào)節(jié)器,可以減少疲勞。 TAC1 和 SLN 在共享和特定于細(xì)胞類型的網(wǎng)絡(luò)中高度相關(guān)。這種關(guān)聯(lián)在所有細(xì)胞類型中都是保守的,這兩種基因都是調(diào)節(jié)肥胖和疲勞的重要因素。

2.png

Breast cancer data

人類乳腺癌數(shù)據(jù)是通過對厚度為 16μm 的組織進(jìn)行活檢收集的。 蘇木精和伊紅 (H&E) 染色圖像顯示在下圖A 的左側(cè),其中深色染色代表潛在的腫瘤區(qū)域,其余部分可分為中間區(qū)域和正常區(qū)域。 根據(jù) H&E 染色圖像手動將位置分成三個空間連續(xù)的cluster,包括腫瘤、中間和正常,cluster大小分別為 114、67 和 69 個點(diǎn)。 在下圖A 中提供了連續(xù)cluster的空間分布。 表達(dá)水平是從 250 個點(diǎn)位置的 5262 個基因測量的,使用 SPARK 方法在 p 值上使用 5% FDR 截?cái)嘀祦頇z測 290 個空間表達(dá)的基因用于該分析(看來還是需要先檢測空間高變基因)。

應(yīng)用 SpaceX 方法來檢測下圖B 中的共享和特定于cluster的共表達(dá)網(wǎng)絡(luò)。在共享網(wǎng)絡(luò)中,如果基因在特定cluster中被穩(wěn)定地表達(dá),并且為cluster特定網(wǎng)絡(luò)繼承相同的顏色,則使用不同的配色方案。觀察到共享網(wǎng)絡(luò)比特定于cluster的網(wǎng)絡(luò)密集得多。根據(jù)定義,如果共享結(jié)構(gòu)中的兩個基因在特定cluster的網(wǎng)絡(luò)中關(guān)聯(lián),則它們之間將存在某種程度的關(guān)聯(lián),反之則不然。下圖C 顯示了每個cluster的每個基因的程度(連接節(jié)點(diǎn)數(shù)),cluster之間的樹狀圖(右側(cè))顯示正常cluster中的基因共表達(dá)與腫瘤和中間cluster中的基因共表達(dá)不同,這符合預(yù)期。在相應(yīng)的 circos 圖中提供了特定于基因的層次聚類。接下來,檢測每個cluster的中心基因,并確定所有cluster的中心基因之間是否存在共性。前 5 個hub基因的特定cluster多層維恩圖顯示了其他基因之間的依賴性。下圖D 中相應(yīng)的擾動圖檢測了跨cluster的共同樞紐基因。

從分析中,檢測到多個膠原基因作為腫瘤cluster中的樞紐基因,例如 COL6A2、COL3A1,它們控制涉及轉(zhuǎn)移的腫瘤遷移。與癌癥相關(guān)的轉(zhuǎn)錄因子、信號通路和受體都可以通過膠原蛋白生物合成進(jìn)行調(diào)節(jié)。另一個hub基因 CD24 是一種免疫相關(guān)基因,通常在人類腫瘤中過度表達(dá)并調(diào)節(jié)細(xì)胞遷移。 VIM 基因(下圖D中腫瘤和中間區(qū)域交叉點(diǎn)之間的樞紐基因)可用作癌癥早期檢測的生物標(biāo)志物,因?yàn)樵摶蛟谡^(qū)域轉(zhuǎn)錄失活。在下圖 B 中,提供了基因之間的共享網(wǎng)絡(luò),其中基因根據(jù)它們在每個區(qū)域的差異表達(dá)被標(biāo)記為不同的顏色。 XBP1基因是正常的生物標(biāo)志基因,它與作為腫瘤區(qū)域生物標(biāo)志的基因負(fù)相關(guān)。對于腫瘤網(wǎng)絡(luò),觀察到 LUM 基因與膠原基因相關(guān),因?yàn)?LUM 基因有效調(diào)節(jié)雌激素受體和乳腺癌細(xì)胞的相關(guān)功能特性。

1.png

Discussion

提出了一種新的網(wǎng)絡(luò)建模方法 SpaceX,它允許從具有不同細(xì)胞類型或區(qū)域的空間轉(zhuǎn)錄組數(shù)據(jù)中聯(lián)合估計(jì)共享和特定于cluster的網(wǎng)絡(luò),從而能夠描繪細(xì)胞類型或區(qū)域的共表達(dá)網(wǎng)絡(luò)的空間異質(zhì)性。通過考慮(增加)空間相關(guān)性和適當(dāng)?shù)脑肼暦植?,通過模擬顯示了共表達(dá)網(wǎng)絡(luò)估計(jì)和結(jié)構(gòu)的準(zhǔn)確性增益。利用小鼠下丘腦和人類乳腺癌數(shù)據(jù)集的兩個案例研究,SpaceX 允許檢測在不同細(xì)胞類型和腫瘤區(qū)域中保守或獨(dú)特的頂級共表達(dá)基因和中心基因,這些基因具有重要的生物學(xué)相關(guān)性。特別是,對于小鼠下丘腦數(shù)據(jù),確定了兩個高共表達(dá)基因:TAC1 和 SLN,它們與調(diào)節(jié)體力消耗和體重直接相關(guān)。同樣,確定了多個膠原基因和 LUM 基因作為乳腺癌數(shù)據(jù)集的中心基因,這些基因與癌細(xì)胞的關(guān)鍵功能特性(如腫瘤遷移)有關(guān)。

SpaceX 方法可以推廣到幾個方向。模型可以適用于其他噪聲分布,例如負(fù)二項(xiàng)式或其他穩(wěn)健分布,以推斷不同平臺的空間共表達(dá)網(wǎng)絡(luò)。此外,可以容納多個空間內(nèi)核來對平穩(wěn)和非平穩(wěn)相關(guān)結(jié)構(gòu)進(jìn)行建模,以豐富推理。所提出的方法基于監(jiān)督聚類,未來可以擴(kuò)展到無監(jiān)督聚類技術(shù)。所提出的方法有可能擴(kuò)展到研究不同生物系統(tǒng)中的依賴關(guān)系,例如蛋白質(zhì)之間的結(jié)合或疾病特異性基因共表達(dá)。 SpaceX 采用高效的降維技術(shù),在單 CPU 內(nèi)核的高計(jì)算集群中運(yùn)行乳腺癌和小鼠下丘腦數(shù)據(jù)集大約需要 1.5 和 5 小時(shí)。目前,方法僅限于數(shù)百個基因,隨著技術(shù)的成熟,我們的目標(biāo)是將可擴(kuò)展方法擴(kuò)展到數(shù)千個基因和spot的數(shù)量。

示例代碼,鏈接在SpaceX

devtools::install_github("SatwikAch/SpaceX")
library(SpaceX)
#> Loading required package: PQLseq
#> Registered S3 methods overwritten by 'robust':
#>   method              from      
#>   plot.covfm          fit.models
#>   print.covfm         fit.models
#>   summary.covfm       fit.models
#>   print.summary.covfm fit.models
#> rlm is already registered in the fit.models registry
#> covfm is already registered in the fit.models registry
## Reading the Breast cancer data

## Spatial locations
head(BC_loc)

## Gene expression for data
head(BC_count) 

## Data processing
G <-dim(BC_count)[2] ## number of genes
N <-dim(BC_count)[1] ## number of locations

## Application to SpaceX algorithm
BC_fit <- SpaceX(BC_count,BC_loc[,1:2],BC_loc[,3])

##Output
## SigmaPhi :: Shared Covariance matrix
## SigmaLambda :: Cluster specific Covaraince matrices
2.png

生活很好,有你更好

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容