文獻(xiàn)名:Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution
manifold:
流形是一種空間,一個(gè)流形好比是一個(gè) d 維的空間,在一個(gè) m 維的空間中 (m > d) 被扭曲之后的結(jié)果(一般維度壓縮的方法中都會(huì)提到這個(gè)詞,譜聚類中就有涉及這個(gè)思想),可以類似于地球,地球的表面是一個(gè)球面。
流形的距離度量方法不能簡(jiǎn)單地使用歐式距離求任意兩點(diǎn)地距離。假設(shè)現(xiàn)在需要求從北極到達(dá)南極距離,不可能把地球打穿直線到達(dá),根據(jù)實(shí)際情況可以知道,北極到達(dá)南極的距離應(yīng)該是半個(gè)圓周的長(zhǎng)度

原文鏈接:https://blog.csdn.net/qq_30545831/article/details/81776819
Part4:
Chromatin and gene expression profiles identify two astrocyte precursor populations
染色質(zhì)和基因表達(dá)譜確定了兩個(gè)星形膠質(zhì)細(xì)胞前體群體
人類皮質(zhì)星形膠質(zhì)細(xì)胞更大,形態(tài)更復(fù)雜,并且可能比其他哺乳動(dòng)物的更多樣化。然而,人類星形膠質(zhì)細(xì)胞潛在多樣化的基本步驟尚不清楚。作者觀察到三個(gè)相互連接的模糊基因模塊,主要來(lái)源于PCW24組織,表達(dá)AQP4、TNC、ALDH2和APOE,以及星形膠質(zhì)細(xì)胞中特異表達(dá)的其他基因(m2、m13、m14)(圖5A)。

為了測(cè)試這些轉(zhuǎn)錄相關(guān)但不同的亞群是否與不同的調(diào)節(jié)因子相關(guān),作者計(jì)算了與m13和m14基因相關(guān)的增強(qiáng)子之間的差異基序富集。作者發(fā)現(xiàn)基本螺旋-環(huán)-螺旋(bHLH)因子基序ASCL1和NHLH1在模塊m13中富集,而SOX21在m14中富集(圖5B)。

在作者研究結(jié)果的神經(jīng)膠質(zhì)細(xì)胞中,ASCL1和NHLH1基序的可及性與bHLH因子OLIG1的基因表達(dá)相關(guān)性最好,并且作者先前已將SOX21指定為皮質(zhì)類器官星形膠質(zhì)細(xì)胞成熟的潛在調(diào)節(jié)因子。因此,通過(guò)OLIG1與SOX21基序的染色質(zhì)可及性可以區(qū)分兩種不同的星形膠質(zhì)細(xì)胞樣表達(dá)模式。
為了更詳細(xì)地檢查表達(dá)這些模塊的細(xì)胞之間的差異,作者計(jì)算了星形細(xì)胞簇A1-HES和A2-OLIG之間的差異基因表達(dá),分別對(duì)應(yīng)于模塊m2/14和m13的表達(dá)(圖5C和5D;表S5)。

簇A1-HES表現(xiàn)出HES4和CAV2的顯著高表達(dá),而A2-OLIG的特征是SPARCL1、ID3和IGFBP7表達(dá)增加(圖5D)。

為了確定這些不同的星形膠質(zhì)細(xì)胞前體亞型是否是由于不同皮質(zhì)區(qū)域的取樣所致,作者使用了最近發(fā)布的scRNA-seq數(shù)據(jù)集(圖5E)。

作者發(fā)現(xiàn),在這個(gè)獨(dú)立的數(shù)據(jù)集中,屬于作者的星形細(xì)胞類別的基因集在不同的細(xì)胞群中表達(dá),這一觀察結(jié)果不能用皮質(zhì)區(qū)域的差異來(lái)解釋(圖5F)。

這些發(fā)育狀態(tài)可能對(duì)應(yīng)于成年亞型,例如在整個(gè)皮質(zhì)灰質(zhì)中發(fā)現(xiàn)的原生質(zhì)星形膠質(zhì)細(xì)胞,在白質(zhì)中發(fā)現(xiàn)的纖維狀星形膠質(zhì)細(xì)胞,或populate layer 1的靈長(zhǎng)類特異性 interlaminar 星形膠質(zhì)細(xì)胞。
Part5:
Chromatin state links GPCs to lineage determination in cycling cells
染色質(zhì)狀態(tài)將GPC與循環(huán)細(xì)胞中的譜系測(cè)定聯(lián)系起來(lái)
接下來(lái),作者研究了祖細(xì)胞的染色質(zhì)狀態(tài)如何可能影響表達(dá)程序的獲得,這些表達(dá)程序具有更分化的細(xì)胞狀態(tài)的特征。因此,作者關(guān)注表達(dá)與細(xì)胞周期特征密切相關(guān)的基因模塊的細(xì)胞之間的異質(zhì)性(圖6A;Pearson r分別為0.89和0.91)。

為了將染色質(zhì)可及性與以膠質(zhì)細(xì)胞為中心的表達(dá)圖譜聯(lián)系起來(lái),作者使用可及性衍生的基因活性得分將13378個(gè)膠質(zhì)細(xì)胞scATAC-seq細(xì)胞的假體積聚集體投射到作者的基因模塊衍生的流形中。與作者的CCA簇匹配分析(圖2B)一致,pseudobulks主要由投射到該圖少突膠質(zhì)細(xì)胞終點(diǎn)的ATAC簇c15(OPC/LIGO)細(xì)胞、投射到ASCL1+/OLIG2+星形膠質(zhì)細(xì)胞室的簇c10(mGPC)數(shù)據(jù)和簇c9(late RG)組成投射到室管膜和HES4+星形膠質(zhì)細(xì)胞endpoints的數(shù)據(jù)(圖6B)。
然而,雖然作者在染色質(zhì)landscape中沒(méi)有觀察到明顯的循環(huán)簇,但這些ATAC-seq假塊樣本的一個(gè)子集投射到RNA-seq嵌入的cycling cluster、 early-pseudotime compartment中。這些樣本被劃分為三個(gè)不同的分支,它們由scATAC seq cluster 分配定義(圖6C)。
作者推測(cè)RNA-seq中強(qiáng)大的cell-cycle signatures可能減少了這些差異,而這些差異在ATAC-seq數(shù)據(jù)中更為明顯,分析這些獨(dú)立的分支可能使作者能夠確定cycling progenitors是否傾向于不同的有絲分裂后命運(yùn)。
為了探索影響這些命運(yùn)決定的因素,作者根據(jù)每個(gè)分支的gene activity scores確定了每個(gè)分支的特定基因。作者觀察到這些基因與一組GPC(包括HES1、RFX4、OLIG1、OLIG2、NEUROD6和EOMES)有很強(qiáng)的重疊??偟膩?lái)說(shuō),所有三個(gè)cycling cells分支中的差異染色質(zhì)活性都因GPC而富集(圖6D)。

每個(gè)分支在前五個(gè)最獨(dú)特的基因(BHLHE40、OLIG1、OLIG2、NEUROD6、NEUROD4)中至少富集了一個(gè)bHLH GPC TF(圖6E)。

這些factors的注釋motif的相似性與假設(shè)一致,即它們可以競(jìng)爭(zhēng)相似的結(jié)合位點(diǎn)來(lái)驅(qū)動(dòng)多個(gè)不同的細(xì)胞命運(yùn)??傊@些結(jié)果表明,GPC的不同染色質(zhì)活性和基因表達(dá)是區(qū)分不同類型 cycling glial progenitor cells.的顯著特征。
接下來(lái),作者想知道這些GPC是否既與密集的調(diào)控元件集合高度相關(guān),又高度富集譜系定義的轉(zhuǎn)錄因子。為了評(píng)估這些聯(lián)系是否可能是最終分化終點(diǎn)的指標(biāo),從而潛在地驅(qū)動(dòng)分化,作者僅使用GPC相關(guān)染色質(zhì)信號(hào)重新預(yù)測(cè)A、B和C循環(huán)群體分支的ATAC-seq pseudobulk 樣本。作者觀察到樣本在偽時(shí)間內(nèi)向前移動(dòng)到具有不同、更成熟表達(dá)狀態(tài)的區(qū)域(圖6F),

而使用隨機(jī)基因亞群或基因模塊的重投影則非特異性地向流形的中心移動(dòng)。這一觀察結(jié)果表明,這些循環(huán)細(xì)胞中與GPC基因相關(guān)的染色質(zhì)模式已經(jīng)顯示出高級(jí)轉(zhuǎn)錄細(xì)胞狀態(tài)的特征。類似地,當(dāng)作者將來(lái)自聯(lián)合多組數(shù)據(jù)集的scRNA-seq數(shù)據(jù)投射到基于模塊的manifold中時(shí),投射到循環(huán)域的一部分細(xì)胞顯示出來(lái)自每個(gè)分支的更多分化細(xì)胞的不同可訪問(wèn)性特征(圖6G)?;谶@些結(jié)果,作者提出,在皮質(zhì)發(fā)生過(guò)程中,進(jìn)入細(xì)胞周期的祖細(xì)胞可能在表觀遺傳學(xué)上為未來(lái)的細(xì)胞命運(yùn)做好準(zhǔn)備,并且該信息在GPC中進(jìn)行了編碼,GPC是一組具有大量連接增強(qiáng)子的基因,豐富了與譜系定義的TFs的結(jié)合。
Part6:
Deep-learning models prioritize disruptive noncoding mutations in ASD
深度學(xué)習(xí)模型優(yōu)先考慮ASD中的disruptive非編碼突變
接下來(lái),作者使用作者的圖譜解釋ASD中的非編碼從頭突變,使用1902個(gè)家族中超過(guò)200000個(gè)此類突變的Simons Simplex集合目錄(表S6)。與未受影響兄弟姐妹相比,具有簇特異性scATAC-seq峰的突變的原始重疊(Naive overlap)不會(huì)使ASD個(gè)體的突變富集(GluN6簇的優(yōu)勢(shì)比[OR]=1.02,F(xiàn)isher精確檢驗(yàn)p=1.0;圖S8F),表明僅峰值水平注釋不足以解決一組稀疏的因果突變。
深度學(xué)習(xí)模型已被證明有助于根據(jù)預(yù)測(cè)的監(jiān)管影響對(duì)疾病相關(guān)的非編碼基因變體進(jìn)行優(yōu)先排序。因此,作者基于最新的BPNet架構(gòu)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以學(xué)習(xí)能夠預(yù)測(cè)每個(gè)scATAC-seq衍生細(xì)胞類型的堿基分辨率、pseudo-bulk染色質(zhì)可及性的模型,這些細(xì)胞類型來(lái)自基因組序列(圖7A)

使用峰區(qū)和基因組背景,匹配GC含量和基序密度,以糾正潛在的序列組成偏差。模型顯示,在交叉驗(yàn)證模型的5倍范圍內(nèi),預(yù)測(cè)的總Tn5插入計(jì)數(shù)覆蓋率與觀察到的Tn5插入計(jì)數(shù)覆蓋率之間存在高度穩(wěn)定的相關(guān)性(例如,GluN6,平均Spearman rho=0.58)。為了預(yù)測(cè)候選突變對(duì)染色質(zhì)可及性的細(xì)胞上下文特異性影響,作者使用作者的cluster特異性BPNet模型根據(jù)預(yù)測(cè)計(jì)數(shù)中的等位基因fold-change變化計(jì)算local disruption score。對(duì)于每個(gè)簇,作者計(jì)算了病例組和對(duì)照組中high- effect-size突變的富集程度。作者觀察到GluN2/3/4/6/9的ASD相關(guān)突變顯著富集(>1.2倍),這與之前的研究一致。此外,作者發(fā)現(xiàn)了與IN2/3/4、nIPC、late RG和early RG簇的強(qiáng)烈關(guān)聯(lián)。early RG簇的富集程度最高(OR=1.909,超過(guò)20,F(xiàn)isher精確p<0.05;圖7B;表S6)。
作者還觀察到,這種對(duì)因果破壞性突變進(jìn)行優(yōu)先排序的方法對(duì)閾值參數(shù)選擇具有魯棒性。相比之下,使用人類胎心增強(qiáng)劑訓(xùn)練的BPNet模型沒(méi)有產(chǎn)生富集(OR=1.01,p=1.0)。同樣,使用一組胎心enhancers的naive overlap enrichment也不會(huì)對(duì)病例突變產(chǎn)生富集(OR=0.97,p=1.0;圖7C)??傊@些結(jié)果表明,在與疾病相關(guān)的細(xì)胞狀態(tài)中,對(duì)染色質(zhì)可及性景觀進(jìn)行訓(xùn)練的堿基對(duì)分辨率預(yù)測(cè)模型的突變效應(yīng)分?jǐn)?shù)對(duì)于確定假定的因果非編碼突變的優(yōu)先級(jí)至關(guān)重要。
BPNet模型優(yōu)先考慮的病例和對(duì)照突變具有相似的保守性得分和與最近轉(zhuǎn)錄起始點(diǎn)(TSS)的相似距離,突出了通過(guò)其他方法識(shí)別這些因果突變的挑戰(zhàn)。通過(guò)對(duì)預(yù)測(cè)的高效應(yīng)大小突變及其最近的基因進(jìn)行注釋,作者觀察到SFARI數(shù)據(jù)庫(kù)中最近基因的病例突變(n=24)比對(duì)照突變(n=17;圖7D)富集1.4倍。
接下來(lái),作者確定了overlapped的TF基序,并預(yù)測(cè)其將被來(lái)自所有正富集簇的BPNet模型的所有高效大小突變所破壞(圖7E,表S6)。作者發(fā)現(xiàn),在病例組和對(duì)照組中,劃分demarcates topological loop boundaries的CTCF是最常被破壞的基序之一。NRF1基序是另一個(gè)經(jīng)常被破壞的基序。NRF調(diào)節(jié)先前與疾病相關(guān)的GABA受體亞單位GABRB1。與對(duì)照組相關(guān)的病例中其他經(jīng)常被破壞的基序家族包括E-box/bHLH家族基序(ASCL1,NEUROD6)和同源框家族(PAX5)基序,具有更多譜系特異性效應(yīng)。之前也發(fā)現(xiàn)同源框蛋白被ASD中的變體破壞。
作者模型中的一個(gè)高度破壞性突變位于NFIA的一個(gè)內(nèi)含子中(圖7F和S8M)。該基因的功能缺失突變先前與ASD有關(guān)。該突變位于NFIA靶基因的連鎖內(nèi)含子增強(qiáng)子中。作者觀察到,這種增強(qiáng)子在不同類型的GluN cluster中特別容易獲得。GluN6的BPNet模型預(yù)測(cè)了破壞NFIA基序的突變,表明該突變可能通過(guò)自動(dòng)調(diào)節(jié)反饋失調(diào)NFIA基因的表達(dá)。

在nIPC集群中,BPNet模型預(yù)測(cè)了與神經(jīng)肽Y基因(NPY)相連的基因間增強(qiáng)子的破壞性從頭突變,其TSS距離突變90 kb(圖7G)。NPY在妊娠中期人類皮質(zhì)的subplate和早期RG中表達(dá),NPY受體的基因組缺失與ASD相關(guān)。該模型進(jìn)一步預(yù)測(cè)了這種從頭突變破壞染色質(zhì)環(huán)錨定處的CTCF結(jié)合位點(diǎn),表明該位點(diǎn)的染色質(zhì)結(jié)構(gòu)可能受到潛在的機(jī)械影響。
(終于把這篇文獻(xiàn)譯完了)