2021-11-28

Cell | 人類基因組中染色質(zhì)可及性的單細胞圖譜

原創(chuàng)?huacishu?圖靈基因?今天

收錄于話題#前沿生物大數(shù)據(jù)分析

撰文:huacishu

IF=41.581

推薦度:?????

亮點:

1、作者展示的單細胞數(shù)據(jù)資源規(guī)模龐大,整合了來自成人/胎兒人體組織的超過130萬個單細胞染色質(zhì)圖譜,對人類發(fā)育的不同階段進行了較為全面的組織分析,為更好地理解人類發(fā)育中罕見和常見疾病提供信息資源,同時也可為尋找具有細胞類型特異性的致病基因提供支持;

2、后續(xù)研究團隊計劃建立體外模型用于驗證順式作用元件在不同條件的生物活性,進一步揭示其在轉(zhuǎn)錄調(diào)控以及疾病發(fā)生發(fā)展中的重要作用


美國加州大學圣地亞哥分校任兵教授課題組在國際知名期刊Cell在線發(fā)表題為“A single-cell atlas of chromatin accessibility in the human genome”的論文。目前人類基因組中的調(diào)控序列目錄仍然不完整,分析人體不同細胞類型和組織中基因調(diào)控元件的活性具有重要意義。該研究對來自多個供體的30種成人組織類型應用了單細胞染色質(zhì)可及性分析。將這些數(shù)據(jù)集與來自15種胎兒組織類型的先前單細胞染色質(zhì)可及性數(shù)據(jù)相結(jié)合,揭示了在222個不同的細胞類型中約120萬候選順式調(diào)節(jié)元件(CCRE)的開放染色質(zhì)狀態(tài)。使用這些染色質(zhì)可及性圖譜來描繪胎兒和成人CCRE的細胞類型特異性,并系統(tǒng)地解釋與復雜人類特征和疾病相關(guān)的非編碼變體。這種豐富的資源為分析組織、生命階段和器官系統(tǒng)中的人類細胞類型的基因調(diào)控程序提供了基礎(chǔ)。

為了生成成人體內(nèi)cCREs的細胞圖譜,對從死后成人供體30個不同解剖部位采集的原始組織樣本進行了sci ATAC-seq(圖1A)。在篩選出低質(zhì)量的細胞核后,最終獲得了615998個細胞核的高質(zhì)量開放染色質(zhì)圖譜,每個細胞核的平均轉(zhuǎn)錄起始位點(TSS)富集分數(shù)為12.8(±3.2)(圖1B)。分析大型單細胞染色質(zhì)可及性數(shù)據(jù)集一直是一個挑戰(zhàn)。在SnapATAC的最新開發(fā)中,作者進一步改進了其可擴展性以處理數(shù)百萬個單元。使用該算法,首先確定了30個主要細胞組(圖1B),其中22個(73%)在第二輪聚類分析中被發(fā)現(xiàn)由多個子聚類組成??偣舶l(fā)現(xiàn)了111個不同的細胞簇(圖1B-1E)。為了對產(chǎn)生的細胞簇進行注釋,首先從PanglaoDB標記基因數(shù)據(jù)庫中整理出一組與預期人類細胞類型相對應的標記基因。利用啟動子處的染色質(zhì)可及性作為基因活性的代理,并計算111個簇中每個簇的細胞類型富集分數(shù),以創(chuàng)建初始細胞簇注釋。接下來,基于對標記基因可及性的重點考慮,手動回顧了這些分配??傊眉毎愋蜆撕瀸?0個主要細胞組和所有111個不同的簇進行了注釋(圖1E)。例如,在胃腸道上皮細胞的主要細胞群中,更高分辨率的亞聚類和注釋顯示了三簇結(jié)腸上皮細胞,一簇來自小腸的腸上皮細胞,兩簇分別來自結(jié)腸和小腸的杯狀細胞,以及三個具有不同染色質(zhì)可及性特征的罕見群體,包括腸嗜鉻細胞(占總細胞核的0.060%)、簇狀細胞(占總細胞核的0.050%)和Paneth細胞(占總細胞核的0.045%)(圖1B和1C)。令人鼓舞的是,在大多數(shù)組織樣本中檢測到的幾種常見細胞類型,如內(nèi)皮細胞和髓樣細胞,根據(jù)細胞類型而不是來源組織或個體進行聚類(圖1E)。另一方面,存在于組織中的成纖維細胞聚集成七個亞型,每個亞型具有不同的起源組織(圖1E)。值得注意的是,111種細胞類型中的大多數(shù)表現(xiàn)出高度的組織特異性。例如,高度特化的細胞類型,如濾泡細胞、肺細胞和肝細胞,僅限于一種組織類型,反映其組織特異性功能(圖1E)。最后,觀察到sci ATAC-seq鑒定的細胞類型與相應組織的單細胞RNA測序(RNA-seq)實驗鑒定的細胞類型高度一致。

為了確定111種細胞類型中每種細胞的可訪問染色質(zhì)區(qū)域,作者聚集了組成每個細胞簇的所有細胞核的染色質(zhì)可訪問性圖譜,并應用了針對單細胞數(shù)據(jù)優(yōu)化的峰值調(diào)用程序。然后,合并這些可訪問的染色質(zhì)區(qū)域,獲得890130個非重疊CCRE的列表(圖2A)。為了評估這些CCRE的潛在功能,接下來將其與轉(zhuǎn)基因報告驗證的哺乳動物增強子目錄進行比較,發(fā)現(xiàn)驗證的組織特異性增強子在包含相應組織中確定的大部分細胞核的細胞類型中表現(xiàn)出更高的染色質(zhì)可及性(圖2B)。例如,經(jīng)驗證的心臟增強子顯示,與其他細胞相比,心房肌細胞和心室肌細胞的平均染色質(zhì)可及性更高類型(圖2B),表明細胞類型特異性染色質(zhì)可及性和組織特異性增強子活性之間存在良好的相關(guān)性。當前目錄中的大多數(shù)CCRE(80.94%)與注釋TSS的距離超過2000 bp。直接位于TSS上方或啟動子區(qū)域附近的CCRE顯示出較高的序列保守性和染色質(zhì)可及性(圖2C和2D)。相比之下,基因遠端CCRE的可及性較低,并且相對于其可及性表現(xiàn)出較大的差異(圖2D),這表明存在高度可及啟動子近端CCRE的共享程序以及跨細胞類型和物種的基因遠端CCRE的可變程序。為了進一步剖析細胞類型特異性染色質(zhì)特征和調(diào)控程序,應用基于熵的策略揭示了435142個CCRE,這些CCRE在一種或幾種細胞類型中顯示出有限的可訪問性(圖2E)。接下來,對細胞類型受限的CCRE進行了大量的本體富集分析和基序富集分析,以揭示假定的生物過程和每種細胞類型的TF,這在很大程度上與預期的細胞類型特定功能相關(guān)。例如,局限于肝細胞的CCRE產(chǎn)生了類固醇代謝過程(圖2F),并富集了肝細胞核因子TF家族成員HNF1A/B、HNF4A/G和ONECUT1/2的結(jié)合位點(圖2G)。

為了比較兩個染色質(zhì)可及性圖譜中222個胎兒和成人細胞類型,利用SnapATAC,然后進行批量校正,以獲得胎兒和成人組織中1323041個細胞核的低維數(shù)據(jù)(圖3A和3B)。接下來,進行了系統(tǒng)發(fā)育分析,根據(jù)低維空間中定義的距離將胎兒和成人細胞類型分為不同的組。一般來說,屬于不同譜系的細胞類型分為獨立的組,并含有特定的cCREs,這些cCREs因先前所描述的譜系特異性TF基序而富集。為了更系統(tǒng)地量化成人和胎兒細胞類型之間染色質(zhì)可及性的差異,比較了每對胎兒和成人細胞類型的1154611個CCRE列表中的標準化可及性(圖3C,3D)。結(jié)果發(fā)現(xiàn),與其他細胞類型(如神經(jīng)元、膠質(zhì)細胞和骨骼肌細胞)相比,胎兒細胞類型(如免疫細胞和內(nèi)皮細胞)與其成年對應細胞的相關(guān)性相對較高(圖3D),這與系統(tǒng)發(fā)育分析結(jié)果相一致??傊?,這些分析表明,cCREs重塑以實現(xiàn)發(fā)育階段特定功能的程度在人類細胞類型之間差異很大。

為了揭示可能是胎兒或成人特異性調(diào)節(jié)程序基礎(chǔ)的特定因素,作者計算了包含相應成人和胎兒細胞類型的主要細胞組的生命階段特異性CCRE(圖4A)。這些元素的特征揭示了生命階段特定監(jiān)管計劃(圖4B和4C)。例如,骨骼肌細胞在出生前和出生后的發(fā)育過程中發(fā)生了實質(zhì)性的分化,并且與大多數(shù)其他主要細胞類型相比,在生命階段之間表現(xiàn)出較低的整體相似性(圖3C和3D)??偣泊_定了72648個胎兒和成人之間的差異可及性CCRE骨骼肌細胞(圖4D)。胎兒心肌細胞中的DA cCREs與胚胎發(fā)育和創(chuàng)傷反應等生物學過程相關(guān),并富含協(xié)調(diào)正常肌生成的肌源性調(diào)節(jié)TF(MRF)基序(圖4E和4F),突出了這些元素在調(diào)節(jié)胎兒心肌細胞肌源性特性中的作用。另一方面,成年骨骼肌細胞DA cCREs與肌肉對收縮活動的適應以及胰島素和類固醇激素反應相關(guān)的生物學過程相關(guān),并且富含MEF家族成員和AP-1復合物成員,包括FOSL1(圖4D和4E),提示這些元素在調(diào)節(jié)成年骨骼肌對激素暴露的轉(zhuǎn)錄反應中的作用。根據(jù)這些結(jié)果和人類壽命中肌球蛋白亞型表達的既定模式,在編碼產(chǎn)前心肌細胞標記基因的位點上發(fā)現(xiàn)了DA cCREs,包括MYH3和MYH8,分別是胚胎和新生兒肌球蛋白的重鏈,以及I型(慢)和II型(快)標記的成人心肌細胞,分別包括MYH6/MYH7和MYH1/MYH2(圖4F)。綜上所述,這些發(fā)現(xiàn)分別揭示了胎兒和成人骨骼肌細胞增殖能力和成熟功能的調(diào)節(jié)因素,并強調(diào)該數(shù)據(jù)集以及在生命周期不同時間點收集的人類細胞圖譜的價值,以確定細胞類型分辨率的生命階段特異性基因調(diào)控程序。

為了描述胎兒和成人細胞類型中cCREs的細胞類型特異性,根據(jù)其在222種細胞類型中的標準化可及性,將1154611個cCREs組織成150個簇,稱為順式調(diào)節(jié)模塊(CRM)。盡管有幾個CRM在所有細胞類型中顯示出共享的可訪問性模式,但大多數(shù)CRM僅限于單個胎兒或成人細胞類型或反映共享細胞譜系的細胞類型組(圖5A)。為了注釋CRM的功能,應用了大量的本體豐富分析。大體上,在特定胎兒和成人細胞類型中顯示優(yōu)先可及性的CRM豐富了與細胞類型和生命階段特定細胞過程相關(guān)的生物學過程(圖5B和5C)。為了確定這些標準物質(zhì)的序列特征,接下來測量了150個標準物質(zhì)中1565個人類TF基序的富集程度,以揭示胎兒和成人細胞類型的假定主調(diào)節(jié)因子。該分析揭示了胎兒和成人細胞以及譜系特異性TF基序的目錄。例如,通過富集TBR、EOMES和TBX TF家族基序(圖5B-5D),可區(qū)分成人CD8+T細胞和自然殺傷T細胞中具有強可接近性的模塊;通過富集EBF家族TF基序,可區(qū)分B細胞中具有強可接近性的模塊,成年肥大細胞中可接近性強的模塊通過GATA家族成員基序富集來區(qū)分(圖5B-5D)。此外,在所有已鑒定的細胞類型中具有最強可接近性的模塊的特征是SP1基序的富集,這與SP1作為普遍表達的管家基因的調(diào)節(jié)因子的原始描述一致。除了這些特征明確的關(guān)聯(lián)外,還報告了以前未定義的TF與人類細胞類型的關(guān)聯(lián),這些細胞類型在其體內(nèi)組織環(huán)境中具有挑戰(zhàn)性:例如,ESRR和FOX TF家族的基序最好在胎兒和成人胃上皮細胞中可訪問的模塊中富集,F(xiàn)OS和JUN家族的基序分別富集在胎兒和成人腎上腺皮質(zhì)細胞中可獲得的模塊中(圖5A)。

接下來,作者試圖利用120萬細胞類型分辨cCREs來解釋與復雜性狀和多基因疾病表型相關(guān)的遺傳變異。作者下載了NHGRIEBI GWAS目錄,并保留了1123個功能良好的GWAS,其中包含10個或更多重要SNP和20000多個病例。然后,使用超幾何測試來測量從222個胎兒和成人細胞類型中鑒定的CCRE特征相關(guān)變異體的富集程度。發(fā)現(xiàn)450個性狀/疾病的GWAS變體在至少一種細胞類型的cCREs中富集。此外,對于160個額外的性狀,能夠識別先前分析中未檢測到的富集,突出了細胞類型分辨cCREs圖譜的附加值。該分析揭示了胎兒和成人細胞類型與人類特征和疾病表型之間總共3220個顯著關(guān)聯(lián)(圖6)。這些富集顯示了許多預期的細胞類型疾病表型關(guān)系,例如,濕疹風險變體在成人T淋巴細胞CCRE中強烈富集,心房顫動風險變體在成人和胎兒心房和心室心肌細胞CCRE中強烈富集,促甲狀腺激素變體在卵泡細胞CCRE中富集(圖6)。有趣的是,作者檢測到成人和胎兒成纖維細胞亞型中疾病和性狀相關(guān)非編碼變異的富集程度存在顯著差異。這包括胎兒成纖維細胞中與出生體重相關(guān)的變異體顯著增加,而成人成纖維細胞中沒有。此外,檢測到成人成纖維細胞亞型中疾病和性狀變異的富集程度存在差異,除了在一組核心成纖維細胞CCRE處可比較的染色質(zhì)可及性外,每個亞型都顯示出獨特的調(diào)節(jié)元件。

根據(jù)上述分析,許多在cCREs中富集的非編碼基因變體被假設通過破壞TF與順式調(diào)節(jié)元件的結(jié)合來改變疾病相關(guān)基因的表達。為了解釋與復雜性狀相關(guān)的特定遺傳變異的分子機制,首先應用接觸活性(ABC)模型,使用先前發(fā)布的15個成人組織的啟動子捕獲Hi-C數(shù)據(jù),將111種成人細胞類型中鑒定的CCRE與其靶基因相聯(lián)系??偟膩碚f,作者在111種成人細胞類型(圖7A和7B)中檢測到3096種可能的因果變異,其中2096種通過ABC模型與假定的靶基因相關(guān)(圖7A)。應用最近開發(fā)的94個TF的deltaSVM模型來識別可能破壞這些調(diào)節(jié)器結(jié)合的變體。該分析揭示了527個TF結(jié)合位點,預測可能的因果變異會顯著改變(圖7A)。這些列表的交叉點優(yōu)先考慮了361個可能的原因變體,這些變體(1)位于人類細胞類型cCRE內(nèi),(2)顯著改變了TF結(jié)合,(3)與一個或多個靶基因相關(guān)(圖7A和7B)。例如,潰瘍性結(jié)腸炎(rs16940186)的一種可能的致病變異體存在于僅限于胃腸道上皮細胞的基因間cCRE中,特別是結(jié)腸上皮細胞、腸上皮細胞和杯狀細胞(圖7C)。據(jù)預測,含有rs16940186的cCRE與IRF8的TSS接觸(ABC評分>0.015),IRF8編碼一種參與調(diào)節(jié)免疫細胞成熟和調(diào)節(jié)胃上皮細胞固有免疫的TF。rs16940186風險等位基因是與人類結(jié)腸組織中IRF8表達增加相關(guān)的eQTL,與這些發(fā)現(xiàn)一致,deltaSVM模型預測該風險等位基因為激活TFs的ETS家族創(chuàng)建結(jié)合位點(圖7C),它們在腸上皮中表達,被認為可以調(diào)節(jié)腸上皮的成熟。骨關(guān)節(jié)炎的另一個優(yōu)先可能原因風險變異體(rs75621460)位于cCRE內(nèi),預測其靶向免疫抑制細胞因子基因TGFB1,并破壞鋅指TF ERG1的結(jié)合位點(圖7D)。

詳細了解控制人體基因表達的調(diào)控程序?qū)τ诶斫馊祟惏l(fā)育和疾病發(fā)病機制具有重要意義。在這里,作者使用單細胞ATAC-seq分析了代表廣泛人類器官系統(tǒng)的30個成人組織中615998細胞的染色質(zhì)可及性,并將該數(shù)據(jù)集與來自人類胎兒組織的單細胞染色質(zhì)可及性數(shù)據(jù)進行了整合。繪制了222個胎兒和成人細胞類型的120萬CCRE的活性狀態(tài)圖,填補了人類基因組候選調(diào)控元件注釋中細胞類型分辨率的關(guān)鍵缺口。這項工作強調(diào)了整合來自多個來源和時間點的人類sci ATAC-seq數(shù)據(jù)集的價值,并在未來將這些數(shù)據(jù)與新的人類單細胞數(shù)據(jù)集整合在一起,這將有助于全面了解人類細胞在整個生命周期中的基因調(diào)控特征。


教授介紹

任兵教授就職于美國加州大學圣地亞哥分校,研究領(lǐng)域是采取系統(tǒng)生物學的方法,努力理解負責制造各種細胞類型的轉(zhuǎn)錄調(diào)控程序。任兵教授已經(jīng)開發(fā)了一系列高通量方法和計算算法,用于全面繪制哺乳動物基因組中的轉(zhuǎn)錄調(diào)控序列和轉(zhuǎn)錄因子結(jié)合。利用這些工具,現(xiàn)在正在研究人類胚胎干細胞中的基因調(diào)控網(wǎng)絡,以了解控制這些多能干細胞自我更新和分化的過程。例如,任兵教授已經(jīng)繪制了人類胚胎干細胞和幾種終末分化細胞中的活性啟動子、增強子和絕緣體元件。通過對序列的分析,發(fā)現(xiàn)增強子是促進細胞類型特異性基因表達的主要驅(qū)動力。

參考文獻

Cusanovich DA, Hill AJ, Aghamirzaie D, et al. A Single-Cell Atlas of InVivo Mammalian Chromatin Accessibility. Cell. 2018;174(5):1309-1324.e18.doi:10.1016/j.cell.2018.06.052

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容