表型不同的炎癥性乳腺癌的全基因組測序揭示了與非炎癥性乳腺癌相似的基因組改變


摘要

背景炎癥性乳腺癌(IBC)具有高度侵襲性和轉移性表型。然而,對其基因驅動因素知之甚少。為了解決這一問題,我們報告了IBC病例全基因組測序(WGS)的最大隊列。

方法:我們對20例IBC樣本和配對的正常血液DNA進行WGS,以確定基因組改變。為了進行比較,我們使用了來自癌癥基因組圖譜計劃(TCGA)的23個匹配的非IBC樣本。我們還使用來自國際癌癥基因組聯(lián)盟(ICGC)和全基因組泛癌分析(PCAWG)聯(lián)盟的WGS數(shù)據(jù)驗證了我們的發(fā)現(xiàn)。我們研究了廣泛選擇的基因組特征,以尋找IBC和傳統(tǒng)乳腺癌之間的差異。這些包括:
(i)編碼區(qū)和非編碼區(qū)的體細胞和種系單核苷酸變異(SNV);
(ii)來自這些SNV的突變特征和克隆結構;
(iii)拷貝數(shù)和結構變體(CNV和SVs);
(iv)腫瘤中的非人類序列(即細菌來源的外源序列)。

結果:總體而言,IBC具有與非IBC相似的基因組特征,包括特異性改變、整體突變負荷和特征以及腫瘤異質(zhì)性。特別是,我們觀察到IBC和非IBC之間,每個基因和大多數(shù)癌癥相關途徑的突變頻率相似。此外,我們沒有發(fā)現(xiàn)IBC樣本特有的外源性傳染源序列。盡管我們無法在這兩組人群中找到任何在統(tǒng)計學上有明顯區(qū)別的基因組特征,但我們確實在IBC中發(fā)現(xiàn)了一些提示性的差異:
(i)大多數(shù)MAST2基因更頻繁地發(fā)生突變(20%的IBC與0%的非IBC)。
(ii)TGF-β途徑更頻繁地被種系SNV破壞(50%對13%)。
(iii)在幾個含有癌癥基因的基因組區(qū)域中觀察到不同的拷貝數(shù)譜。
(iv)復雜SVs更為頻繁。
(v) 克隆結構更簡單,提示更同質(zhì)的腫瘤進化譜系。

結論:IBC的全基因組測序顯示出與非IBC相似的基因組結構。我們沒有發(fā)現(xiàn)僅在IBCs中有獨特的基因組改變;然而,觀察到細微的基因組差異,包括TGF-β途徑基因的種系改變和可能代表潛在治療靶點的MAST2K酶的體細胞突變。


介紹

炎癥性乳腺癌(IBC)是一種罕見的乳腺癌,其分子病因學知之甚少,這是其侵襲性臨床病程的原因。IBC占美國所有乳腺癌的2-4%,并導致西方國家乳腺癌相關死亡的7-10%。IBC包括所有已知的乳腺癌分子亞型,但它們比非IBC更具侵襲性,無病生存期和總生存期較差。這種疾病通常表現(xiàn)為快速進展的癥狀,乳房腫脹、紅腫和乳房皮膚增厚,這類似于一個活躍的炎癥過程,這導致了本病的名稱。然而,這些癥狀不是由炎癥細胞引起的,而是由癌細胞阻塞皮膚和乳腺實質(zhì)的淋巴管引起的。IBC也有快速傳播和遠處轉移擴散的傾向。基因表達譜研究沒有發(fā)現(xiàn)任何一致的IBC特異性基因表達模式; 因此,沒有分子診斷檢測來定義這種疾病。診斷是基于獨特的和快速進展的臨床特征的癌癥。對IBC中約200個腫瘤相關基因進行靶向測序,結果顯示TP53基因改變頻率最高,報道頻率在43 ~ 75%之間。目前,尚無關于IBC的全外顯子組或全基因組序列數(shù)據(jù),其DNA水平的改變也尚未被表征。我們推測,基因組編碼區(qū)或非編碼區(qū)特定的DNA序列改變可能是IBC獨特表型的原因。該項目的目標是對IBC標本的完整基因組特征進行深入表征,以識別IBC特異性序列改變,從而可能解釋其病因,并提供新的診斷標記。


結果

體細胞突變負荷與功能注釋

WGS在20個IBC樣本中鑒定出114,563個體細胞SNV(每個腫瘤范圍為424-16,662個; 中位數(shù)3789),編碼區(qū)變異1282個(1.12%)。IBC和非IBC的每百萬堿基(MB)突變率相似(圖1a)。IBC組和非IBC組的體細胞編碼和非編碼SNVs數(shù)量相似(圖1b)。非編碼體細胞SNV用FunSeq2注釋到20個不同的、不重疊的功能類別中。兩個隊列中每個注釋類別內(nèi)的體細胞SNV數(shù)量相似(圖1c, d)。

圖1 突變負荷和功能注釋。a、IBC和非IBC隊列中體細胞SNV的比率,所有樣本,ER+和ER-病例分別。p值來自Wilcoxon秩和檢驗。b、編碼和非編碼體細胞SNV數(shù)目。每個點代表一個用ER狀態(tài)顏色編碼的樣本。p值來自Wilcoxon秩和檢驗。c、不同編碼類型突變的體細胞SNV的中位數(shù)。d、在IBC和非IBC中按功能類別劃分的非編碼SNV的中位數(shù)。c和d圖中的亮條和暗條分別對應所有突變和有害突變的數(shù)。通過Wilcoxon秩和檢驗比較兩個隊列中各注釋類別的突變數(shù),p值范圍為0.14 ~ 0.63。僅對每個注釋類別的有害變體實施了類似的測試,p值為0.10-0.93。對部分有害突變進行雙側z檢驗并進行Yates連續(xù)性校正,結果顯示每個獨特注釋類別的所有p值均 > 0.05?!癗S”代表所有p值不顯著(p> 0.05)

突變譜和突變特征

IBC與非IBC具有相似的堿基變化比例,對于所有單核苷酸突變上下文(C>A, C>G, C>T, T>A, T>C和T>G) (Wilcoxon檢驗,通過Bonferroni方法矯正后的p值>0.05),以及三核苷酸突變context(Wilcoxon檢驗,Bonferroni方法矯正的p值>0.05)。利用DeconstructSig將每個樣本的突變譜解構為COSMIC數(shù)據(jù)庫中的30個參考突變譜。IBC和非IBC樣本在突變特征分布上沒有差異(Wilcoxon檢驗,Bonferroni方法矯正的p值>0.05)。特別是與乳腺癌中同源重組缺陷(homologous recombination defect, HRD)相關的3號特征沒有差異。signatures 3的權重統(tǒng)計學比較表明,IBC樣本的HRD程度與非IBC樣本相似(Wilcoxon檢驗,p=0.85)。

拷貝數(shù)變化和結構變異

拷貝數(shù)丟失或增加事件被映射到整個基因組中1MB大小的bin中(圖2a)。對于每個bin,分別總結拷貝數(shù)丟失或增加事件的頻率,然后在IBC和非IBC隊列之間進行比較。對于拷貝數(shù)增加事件(定義為log2(observed tumor/expected) ratio > 0.2),108個峰值顯示兩個隊列之間顯著不同的頻率,位于染色體1、3、6、16、17、19,和20(Fisher精確檢驗,p值<0.05),與隨機試驗報告的34個顯著peaks值形成對比(中位數(shù),34;最小值,16;最大值,62)。另一方面,對于拷貝數(shù)丟失(定義為log2(observed tumor/expected) ratio < ?0.2),221個peaks在兩個隊列之間顯示出顯著不同的頻率,位于染色體1、2、4、5、9、10、11、12、15、16和17,與隨機試驗報告的57個顯著peaks形成對比。在這些差異受影響的基因組區(qū)域中有26個癌癥相關基因,包括LRP1BAS一個假定的腫瘤抑制基因,ERBB4是受體酪氨酸激酶EGFR亞家族的成員。

圖2 Somatic拷貝數(shù)變異和結構變異。a、IBC隊列的somatic拷貝數(shù)分布圖。X軸表示按染色體排序的基因組坐標。Y軸表示IBC基因組中的每1Mb長度拷貝數(shù)增加(紅色)和拷貝數(shù)丟失(藍色)的頻率。b、IBC和非IBC隊列間拷貝數(shù)分布差異的顯著性。X軸顯示染色體的基因組協(xié)調(diào)性,X軸顯示Fisher精確檢驗的對數(shù)轉換P值,該值通過拷貝數(shù)增加(粉紅色)和拷貝數(shù)丟失頻率的比較獲得(淺藍色)兩組之間的事件。虛線代表P值=0.01。所有顯著峰值(Bonferroni調(diào)整后的P值<0.01)在IBC中,拷貝數(shù)丟失和增加事件的頻率都較低。c、個體IBC和非IBC樣本中的somatic SV數(shù)。陰影表示體SV的類型。d、IBC和非IBC隊列中每種類型的軀體SVs的分數(shù)。每個點代表一個樣本,顏色代表ER狀態(tài),p值用Wilcoxon檢驗計算,用Bonferroni法校正

大的結構變異分為五類:缺失、插入、倒置、串聯(lián)重復和染色體間易位(圖2c)。在IBC和非IBC人群中,比較了每類大型somatic SV的比例。IBC顯示復雜事件的比例明顯高于非IBC,包括串聯(lián)重復(中位數(shù)0.093 vs. 0.045)(Wilcoxon檢驗,Bonferroni調(diào)整后的P=5.5e?04)和反演(中位數(shù)0.154對0.088)(Wilcoxon檢驗,Bonferroni調(diào)整后的P=5.5e?04)(圖2d)。相反,IBC的大缺失率(Wilcoxon檢驗,Bonferroni Adjusted p=0.004)和插入率(Wilcoxon檢驗,p=3.4e?06)明顯較低,與非IBC樣品進行比較。此外,對每個類別中的體細胞SV絕對數(shù)量的比較也顯示出顯著差異。對于小插入和缺失(INDEL),IBC和非IBC隊列中的兩類突變報告的數(shù)量相似。

高功能影響突變和受影響基因

高功能影響(HFI)體細胞SNV的選擇是基于PredictSNP2報道的有害預測,包括編碼和非編碼SNV。然后提取每個樣本的受影響基因,并比較它們在兩個隊列之間的突變頻率。我們的分析顯示,在IBC隊列中,所有至少具有一個高功能影響的體細胞SNVs基因在IBC和非IBC隊列中同樣受到影響(Fisher檢驗,Bonferroni調(diào)整p值>0.05)。對于IBC,最常受有害的軀體SNVs影響的前20個基因包括LSAMP、GPC6和TP53等(圖3a)。此外,在IBC隊列中,ActiveDriverWGS檢測到13個候選驅動基因(FDR < 0.05)(圖3b)。然而,所有IBC組和非IBC組的突變頻率相似(Fisher’s test, Bonferroni校正p值> 0.05)(圖3b)。

圖3 有害體細胞SNV影響基因。a、IBC隊列中最常受影響的20個基因。b、ActiveDriverWGS識別的候選驅動基因(FDR < 0.05)?;虻木幋a區(qū)和非編碼區(qū)都顯示了突變。每一列表示一種情況(IBC或Non-IBC)。每一行顯示一個基因。在IBC組和非IBC組中,a組和b組的所有基因具有相似的突變頻率(Fisher檢驗,bonferroni調(diào)整p值> 0.05)

值得注意的是,我們發(fā)現(xiàn)20例(20%)IBC中有4例在MAST2(微管相關絲氨酸/蘇氨酸蛋白激酶2)的非編碼(啟動子和內(nèi)含子)區(qū)域具有獨特的預測有害突變,而在我們隊列中的23例非IBC病例中均未檢測到有害突變。在PCAWG乳腺癌隊列中,我們發(fā)現(xiàn)198份樣本中只有1份(0.5%)存在該基因突變。在最大的WGS乳腺癌研究中(來自ICGC乳腺癌項目的BRCA-EU),MAST2的突變頻率為1/569(0.18%),明顯低于我們的IBC隊列(Fisher檢驗,Bonferroni調(diào)整后的P=0.024)。

腫瘤相關信號通路的改變

我們研究了14條與癌癥相關的生物途徑中的途徑水平畸變。對于體細胞SNV,在IBC和非IBC隊列之間,這些途徑中沒有一條具有顯著不同的突變頻率(Fisher檢驗驗,Bonferroni調(diào)整后的p>0.05)(圖4a)。對于SNVs,IBC隊列顯示免疫調(diào)節(jié)途徑中的畸變頻率明顯低于非IBC(Fisher檢驗,Bonferroni調(diào)整后的P=0.009)(圖4b)。隨機試驗(N=10000)表明,觀察到免疫調(diào)節(jié)途徑顯著差異的概率為21/10000=0.0021,這是顯著的。

圖4 癌癥途徑中的有害突變。a、IBC和非IBC中癌癥途徑中的有害的體細胞SNV。b、IBC和非IBC中癌癥途徑中的有害的生殖系SNV。c、IBC和非IBC中TGF-β信號途徑中的有害的生殖系SNV。在a和b中,每列代表一種情況(IBC或非IBC)。每行顯示一個給定的癌癥途徑。每列代表一個病例(IBC或非IBC)。每行顯示一個基因。
TGF-β通路有87個基因參與發(fā)揮作用

以前的研究已經(jīng)確定TGF-β通路是IBC的潛在治療靶點。在本研究中,我們觀察到IBCs中TGF-β通路中預測有害種系SNVs的突變頻率較高(但在多次檢測校正后無統(tǒng)計學意義)(50% vs 13%, Fisher test,Bonferroni校正p = 0.25)(圖4b)。7例(35%)IBC患者在SMAD4或USP9X中存在有害的種系SNVs,兩者均參與TGFβ信號轉導; 其中一種情況在編碼和非編碼區(qū)域都有變體,其他情況只有非編碼變體。然而,沒有一個非IBC病例在編碼區(qū)或非編碼區(qū)這兩個基因中有任何有害的種系SNV(圖4c)。我們沒有在腫瘤DNA中相應的基因組位置觀察到任何LOH事件。值得注意的是,在ICGC乳腺癌隊列中沒有檢測到這些有害的種系SNVs (n = 1970),它們在一般人群中也非常罕見,在基因組聚合數(shù)據(jù)庫(n = 141456)中變異等位基因頻率(VAF) < 0.007。

克隆結構與進化樹

IBC具有與非IBC病例相似的突變等位基因腫瘤異質(zhì)性(MATH)(圖5a)。對于每個樣本,SciClone根據(jù)變異等位基因頻率分布的模型擬合程序估計克隆數(shù)量。結果顯示,6/20(30%)的IBC癌是克隆性的(僅由一個克隆組成),而所有非IBC病例至少有兩個克?。‵isher檢驗,p=0.006)(圖5b)。然后我們?yōu)槊總€病例構建進化樹,以進一步探索先前描述的突變過程異質(zhì)性。這些樹源自全基因組突變調(diào)用,其拓撲結構表明突變的時間順序。我們可以根據(jù)樹的拓撲結構將樹分為兩組:分支樹或線性樹(圖5c)。20例IBC癌中有9例(45%)為線性的,顯著高于非IBC病例(3/23,13%)(Fisher檢驗,p=0.039)(圖5d)。我們的結果表明,IBC在進化上比非IBC更同質(zhì),具有較少的個性和較不復雜的進化特征。這些發(fā)現(xiàn)可能是由于IBC腫瘤比非IBC腫瘤增長更快。

圖5 克隆結構和進化樹。a、IBC和非IBC MATH分數(shù)。每個點代表一個樣本,用它的ER狀態(tài)用顏色編碼。b、IBC組和非IBC組中有1個、2個和3個克隆的樣本的比例。c、兩個獨立的進化樹顯示分支和線性模式(所有樣本的結果顯示在附加文件4:圖S4)。d、樣本分為分支組和線性組

微生物序列的檢測與富集

由于IBC在臨床上類似于乳房和/或皮膚的細菌感染,因此,我們也在IBC腫瘤組織中尋找感染因子。我們應用改良的exceRpt pipeline檢測未與人類參考基因組相匹配的序列reads,以檢測IBC DNA中的微生物序列并與正常樣本相匹配。在所有樣本中,包括癌癥和正常樣本中,前100個最頻繁的微生物序列在丙酸桿菌痤瘡中高度富集。痤瘡無處不在的皮膚細菌,是測序研究中常見的污染源,可能來自于患者或在組織處理過程中獲得的。我們在IBC腫瘤樣本中未發(fā)現(xiàn)特異性感染因子DNA,降低了IBC由細菌感染引起的可能性。


討論

我們的研究是第一次對IBC進行WGS分析。我們無法識別所有樣本共有的單一基因組異常,因此可以從分子上定義IBC。IBC組織顯示出與非IBC相似的突變負荷、突變譜和突變特征,并且大多數(shù)體細胞突變在兩組隊列中發(fā)生頻率相似。在從IBC組織提取的DNA中,我們沒有檢測到任何癌癥特異性傳染源。然而,我們確實在我們的研究中發(fā)現(xiàn)了幾個細微的基因組差異,將IBC與非IBC區(qū)分開來。MAST2基因的非編碼區(qū)突變頻率高于此前WGS乳腺癌分析報告的頻率。在我們的IBC研究中,20%的病例發(fā)生了突變,而在PCAWG和ICGC乳腺癌WGS數(shù)據(jù)集中,編碼或非編碼調(diào)控區(qū)中該基因的突變頻率在非IBC病例中為0.18%至0.5%。MAST2是一種與原鈣粘蛋白LKC相互作用的微管相關絲氨酸/蘇氨酸激酶,最近提出的一種結腸癌和肝癌抑癌基因,它介導細胞增殖的接觸抑制。MAST2還通過與TRAF6形成復合物并抑制NF-κB激活來調(diào)節(jié)多糖誘導的巨噬細胞中IL-12的合成。MAST2基因重排以前曾在一些乳腺癌中被發(fā)現(xiàn),乳腺上皮細胞中MAST2(或MAST1)基因融合的過度表達導致其在體內(nèi)以及體外環(huán)境下增殖增加。在我們的研究中,我們發(fā)現(xiàn)MAST2的非編碼區(qū)存在有害突變;然而,這些變體的功能影響尚未被研究。由于先前的任何IBC靶向測序研究中均未包括MAST2,因此需要IBC的未來數(shù)據(jù)集來驗證這一發(fā)現(xiàn)。

復雜的結構變異在IBC中似乎更為常見,包括串聯(lián)重復和倒位,這表明基因組比非IBC更為復雜。幾個基因組區(qū)域顯示了包含癌癥生物學相關基因的顯著不同拷貝數(shù)譜。然而,不同覆蓋范圍和深度的測序平臺在調(diào)用大型結構變體時可能會引入偏差。由于我們的IBC和非IBC隊列是分別測序的,一些觀察到的差異可能來自不同的測序數(shù)據(jù)來源。

與預期相反的結果解釋,拋出假設,給其他研究者一個“思路”,本質(zhì)上還是沒有很好從基因突變層面闡明IBC發(fā)生發(fā)展的關鍵變化?
我們研究的一個令人驚訝的發(fā)現(xiàn)是在診斷時IBC的低克隆性。相當少數(shù)的IBC只有一個可檢測的克隆,而所有非IBC病例都有一個以上的克隆。當我們研究腫瘤細胞種群的進化樹時,我們觀察到兩個不同的群體,我們稱之為分支和線性進化。IBC比非IBC顯示更多的線性進化模式(45% vs 13% ,p = 0.039)。這些結果表明,與非IBC癌細胞相比,IBC細胞在進化過程中更加均勻,克隆性更低,因此提出了一個假設,即高增殖率和單個侵襲性克隆的快速擴增可能是導致該疾病迅速發(fā)展的最初臨床病程的原因。相比之下,非IBC常常生長數(shù)年才能被發(fā)現(xiàn),這可能使診斷時發(fā)生更大的克隆異質(zhì)性。未來的工作將需要驗證這些觀察,通過對亞克隆實體的高深度靶向測序和后續(xù)特性分析。

我們還檢查了宿主基因組中可能與IBC有關的生殖系變異。目前還不知道IBC的遺傳易感因素,但是已經(jīng)報道了一些常見的發(fā)病情況,而且IBC在某些地理區(qū)域更為普遍,這表明遺傳因素對其病因有影響。我們發(fā)現(xiàn)在IBC中TGF-β途徑中的雜合性種系改變似乎比非IBC更頻繁(50%對13%)。由于IBC的罕見性(占所有乳腺癌的0.5-2%) ,我們的樣本量非常小,這一觀察結果需要在更大的獨立IBC數(shù)據(jù)集中進行確認。然而,TGF-β1與IBC的生物學行為有關。USP9X是一種去泛素化酶,控制SMAD4單泛素化,因此影響TGF-β信號轉導,20個病例中有4個病例受到生殖系突變的影響。以前的一項研究表明,TGF-β信號通路成分在IBC中的表達低于非IBC,這可能有助于腫瘤栓子的形成和促進IBC細胞的淋巴浸潤。另一項關于頭頸部癌癥的研究報告,SMAD4的缺失與TGF-β1活性的增加有關。綜上所述,這些結果提示宿主TGF-β信號異??赡艽龠MIBC生理和傾向。

作者闡述了本研究的局限,但是用轉折提出創(chuàng)新之處,這種寫法似乎讓人覺得局限也不那么大
我們認識到,我們的結果是描述性的和假設產(chǎn)生的方面的生物學重要性的發(fā)現(xiàn)。然而,從我們的分析中可以清楚地看到,IBC中沒有共同的DNA水平的特異基因改變。我們研究的樣本量較?。蝗欢?,這是迄今為止對IBC全基因組進行的最大的研究。之前的基因組分析只包括了幾百個使用靶向測序平臺測序的基因。我們在我們的IBC隊列中觀察到PIK3CA的突變頻率比以前的低,這可能是由于樣本量小導致的取樣偏倚,因為PIK3CA在激素受體陽性(HR+)癌癥中更頻繁地發(fā)生突變,而我們的研究中HR+病例的比例更低。

IBC隊列患者存在的非遺傳因素,這些環(huán)境因素也可能是重要因素,因為它們不僅僅會改變基因序列,還可能影響表觀等
除了本研究中討論的各種遺傳特征外,還表明IBC與非IBC在幾個非遺傳因素上有顯著不同,包括懷孕婦女的患病率較低,口服避孕藥的使用率較高,以及定期飲酒的頻率較高。

總的來說,我們的結果表明,就其分子組成而言,IBC屬于乳腺癌的連續(xù)體。其特別具有攻擊性的表型可能是由于宿主生殖系雜合多態(tài)性的獨特共存,并對TGF-β信號和體細胞突變產(chǎn)生微妙的影響,這些影響共同促進了惡性細胞克隆的快速生長和擴展。


結論

在這里,我們通過對腫瘤及其匹配的正常樣本進行全基因組測序,首次展示了IBC的完整基因組景觀。盡管在IBC中沒有獨特的、共享的基因組改變,但我們在IBC和非IBC之間發(fā)現(xiàn)了一些微妙但有趣的基因組差異,這些差異可能解釋其病因,并產(chǎn)生新的診斷標記,但在未來的研究中需要在獨立的數(shù)據(jù)集進行驗證。


數(shù)據(jù)和資料

文章作者給出了原始數(shù)據(jù),研究方法也比較詳細,感興趣的可以重復實驗結果
本次研究中生成和分析的數(shù)據(jù)集已提交給歐洲基因組-表型檔案庫(EGA),登錄號為EGAS00001004117 (https://wwwdev.ebi.ac.uk/ega/studies/EGAS00001004117)。



方法

組織

根據(jù)IRB批準的研究,從MD安德森癌癥中心的Morgan Welch炎性乳腺癌研究項目和臨床中獲得了20個IBC組織和配對的正常血液DNA。乳腺病理學家(Savitri K.)和臨床研究人員(N.U.)分別對所有IBC組織進行了檢查,以確保診斷的準確性和腫瘤細胞數(shù)>60%。所有患者都提供了對其癌癥和生殖系DNA進行基因組分析的知情同意書。從乳腺癌隊列的癌癥基因組圖譜(TCGA)研究中選擇23例非IBC樣本,這些樣本按分子亞型、臨床分期、年齡和種族比例匹配。這樣做是為了確保本項目中研究的IBC和非IBC樣本之間的各種協(xié)變量分布相似。

DNA提取

使用QiAamp DNA微型試劑盒(Qiagen)從乳腺腫瘤的快速冷凍核心針活檢和外周血中提取DNA。在緩沖液ATL中破壞組織,均質(zhì),然后使用蛋白酶K進行裂解。然后將緩沖液AL和乙醇添加到裂解液中,創(chuàng)造條件,促進DNA與QIAamp自旋柱的選擇性結合。然后將樣品應用于微型旋轉柱。結合到膜上的DNA在pH為8.0的緩沖液TE中洗脫。

全基因組測序

根據(jù)耶魯IRB批準的方案(HIC#1406014226),將一微克種系和腫瘤DNA用于WGS。在Macrogen的Illumina HiSeq 2500測序平臺上進行。根據(jù)Illumina TruSeq DNA文庫制備指南制備樣品。對150個堿基對(bp)配對末端文庫進行測序,腫瘤樣本的中位覆蓋深度為60×,匹配正常樣本的中位覆蓋深度為40×。

序列比對與質(zhì)量控制

我們使用BWA-MEM算法和默認參數(shù)映射腫瘤的原始FASTQ文件,并將20個IBC樣本的正常樣本與hg19參考基因組進行匹配。隨后,使用Samtools和Picard工具(http://broadinstitute.github.io/picard)對讀取進行排序、標記重復讀取并獲取所有變量調(diào)用的最終的BAM文件。BAM文件已保存在歐洲基因組酚組檔案(EGA)中,EGA編號為EGAS0001004117(https://wwwdev.ebi.ac.uk/ega/studies/EGAS0001004117)。對于非IBC樣本,我們遵循相同的程序處理。

種系SNV和INDELs

對于來自TCGA的IBC和非IBC隊列,我們使用GATK工具生成了種系SNV和INDEL調(diào)用集。簡單地說,我們遵循GATK的最佳實踐來命名種系變體。我們使用GTAK中的IndelRealigner和基于模塊recalibrator重新校準了原始BAM。隨后,使用GATK HaplotypeCaller算法調(diào)用變體。使用GATK中的變量recalibration模塊過濾原始變量。簡單地說,變量recalibration方法使用了一個連續(xù)自適應誤差模型,同時考慮了變量之間的關系以及它是真陽性而不是測序偽影的概率。

體細胞SNV和INDELs呼叫

我們使用MuTect和Strelka工具,對TCGA中的IBC和非IBC樣本稱為體細胞變異。簡而言之,這些工具將腫瘤和匹配的正常BAM文件作為輸入,以識別最小讀取次數(shù)支持的體細胞變異。本研究中的體細胞SNV基于MuTect和Strelka,而體細胞INDELs則使用Strelka進行調(diào)用。從MuTect和Strelka獲得的初始PASS調(diào)用集通過刪除1000基因組項目中定義的常見變體,進一步過濾潛在的種系污染調(diào)用。此外,我們還去除了Genome in a Bottle Consortium(GIAB)基因組定義的基因組高可映射區(qū)域之外的體細胞SNV和INDELs。最后,我們?nèi)uTect和Strelka調(diào)用集的交集,并刪除出現(xiàn)在生殖系調(diào)用集中的體細胞SNV和INDELs。

腫瘤DNA雜合性缺失(LOH)的檢測

對于從正常血液樣本中鑒定出的種系SNV的每個位點,我們使用Samtools和Bcftools確定了腫瘤DNA中相應的體細胞基因型,其中報告了參考等位基因、變異等位基因、等位基因計數(shù)和等位基因頻率的信息。當該位點滿足這兩個標準時,即確認為LOH事件:
(i)在正常血液DNA中稱為雜合變異體(變異等位基因頻率=0.5)
(ii)在腫瘤DNA中顯示為純合(變異等位基因頻率=0或1)。

體細胞SV calling

我們應用Meerkat來識別來自TCGA的IBC和非IBC隊列中的體細胞結構變異。簡單地說,Meerkat從BAM文件中提取soft-clipped和未映射的讀取。隨后使用BLAT將這些讀取重新映射到參考基因組,以確定SV發(fā)現(xiàn)的不一致讀取對。Meerkat還描述了SVs周圍的斷點,以指定生成SVs的底層機制。Meerkat生成的SV根據(jù)可映射性準則進行進一步過濾,并支持讀取對>2。

體細胞CNVs的鑒定

我們實現(xiàn)了BIC-Seq2,使用默認參數(shù)調(diào)用體細胞CNV。在SeqNorm步驟中,我們將讀取長度設置為151 bp,將存儲單元大小設置為1000 bp。片段大小是使用BAM文件中第一個100萬個映射質(zhì)量至少為20的正確映射讀取來計算的。

在最后一步中,我們還使用信號處理方法過濾BIC-Seq2識別的體細胞拷貝數(shù)片段(sCNSs)。在本分析中,我們將重點放在長度大于100 kB的大型事件上。具體程序如下:
1.對于每個樣本,使用映射讀取計算讀取深度(RD)信號水平。這是通過計算與每個堿基重疊的讀取次數(shù)來完成的。對于每個患者,我們計算腫瘤和匹配正常組織的RD信號。
2.接下來,我們使用每百萬次讀取標準化來標準化正常組織輪廓。給定ith為樣本i位置的腫瘤和正常信號剖面,我們將正常信號剖面乘以腫瘤中總RD信號與正常中總RD信號的比率。

上式得到的值表示基因組中堿基位置i的標準化正常RD信號。

3.接下來,我們將基因組劃分為3000 bp的區(qū)域,并計算每個區(qū)域中的總腫瘤信號和正常樣本的標準化RD信號。

4.接下來,我們通過將總腫瘤RD信號除以每個bin中的正常樣本RD信號并計算該比率的log2來計算對數(shù)比率(LR)曲線。該輪廓表示刪除(LR<0)和擴增(LR>0)的度量。

式中cb=[(b?1)×lbin,b×lbin]表示bth bin的基本位置。

5.LR剖面通常非常嘈雜。我們使用基于中值的平滑來平滑信號。我們使用滑動窗口方法,將窗口大小設置為1000個bin,并將每個bin的LR值替換為1000個bin附近LR值的中值。平滑操作從LR信號中去除大量噪聲。

6.接下來,我們通過評估平滑LR恒定的區(qū)域來識別sCNS。在每個SCN上,我們通過計算總腫瘤與總正常RD信號的比率來分配腫瘤與正常對數(shù)比率信號。LR<0的片段被指定為刪除片段和LR>0擴增片段。我們用LRks表示分段子樣本的LR值。最后,在通過上面介紹的信號處理方法進行過濾后,我們只從BIC-Seq2中獲取最強的調(diào)用作為最終調(diào)用集??截悢?shù)增益定義為log2(tumor/expected) ratio > 0.2??截悢?shù)丟失定義為log2(tumor/expected) ratio < ?0.2。

功能注釋和影響預測

體細胞SNVs和種系SNVs均被FunSeq2注釋。由于調(diào)控元件(啟動子、增強子等)的非編碼變異可能與潛在的靶基因相關,這個管道有助于識別給定基因的編碼變異和非編碼變異。此外,每個變體的功能影響由PredictSNP2預測,這可能是中性的,有害的,或未知的。僅選擇有害(高功能影響)變異進行基因和通路水平分析。

候選驅動基因的鑒定

IBC隊列中的候選驅動基因由具有默認參數(shù)的ActiveDriverWGS檢測。在IBC樣本中所有體細胞snv的最終調(diào)用集被用作輸入。利用biomaRt軟件包從Ensemble數(shù)據(jù)庫中提取hg19參考基因組下的基因坐標。FDR < 0.05的基因被確定為候選驅動因子。

突變譜和突變特征

在單核苷酸和三核苷酸環(huán)境下分別分析了整個基因組的體細胞snv。使用DeconstructSig將每個樣本的突變譜(96種可能的三核苷酸組合)解構為COSMIC數(shù)據(jù)庫中的30個參考突變signatures,以計算每個參考signatures的權重。

估計克隆的數(shù)量

我們實現(xiàn)了SciClone來估計每個IBC和非IBC樣本的克隆數(shù)量。首先,所有等位基因頻率高于0.6的體細胞snv被從輸入文件中刪除,因為它們可能受到拷貝數(shù)丟失事件的影響。接下來,調(diào)用函數(shù)“sciClone”,將“minimumDepth”設置為14,將“clusterMethod”設置為“binomian.bmm”。最后,該函數(shù)的輸出報告了在給定樣本中檢測到的克隆的預測數(shù)量。對所有IBC和非IBC樣本重復上述步驟后,用Fisher精確檢驗對兩個隊列間的預測克隆數(shù)進行比較。

使用PhyloWGS構建進化樹

我們使用PhylowWGS來推斷每個個體樣本的進化樹。我們遵循類似于前面描述的的工作流。體細胞SNVs來自Strelka和Mutect的一致呼叫。觀察到的替代等位基因和參考等位基因計數(shù)均來自Strelka。為了刪除拷貝數(shù)的影響,我們刪除了具有絕對“l(fā)og2”的區(qū)域中的snv。copyRatio”(BIC-Seq2報告的log2腫瘤與正常拷貝數(shù)之比)高于0.2, p-value低于0.01。然后,我們使用默認參數(shù)運行PhyloWGS,并將性別全部設置為女性。我們只繪制和分析了PhyloWGS報告的可能性最高的樹。

腫瘤純度測定

為了估計每個IBC腫瘤樣本的腫瘤純度,使用默認參數(shù)實現(xiàn)了一個稱為PurBayes的計算管道。

微生物序列檢測與富集

為了識別可能是外源性來源而不是宿主基因組產(chǎn)生的序列,我們修改了一部分為鑒定內(nèi)源性和外源性細胞外RNA而開發(fā)的摘錄管道。在讀取的片段與宿主基因組對齊后,我們對宿主基因組進行了第二次比對,以刪除可能來自宿主人類基因組的序列。然后,我們刪除了與大量錯配(每100 bp 5個錯配)對齊的讀數(shù)。我們還過濾掉了與人類基因組中重復序列相匹配的數(shù)據(jù),讀取了人類基因組中200個位置的多圖譜。雖然我們不能自信地將這些讀號分配給人類基因組,但我們的目標是過濾掉它們,以便獲得一組我們確信不是來自宿主人類基因組的讀號。

然后將這些數(shù)據(jù)與所有已測序的細菌、病毒、植物、真菌、原生生物、后生動物以及以下12種脊椎動物基因組的一組完整基因組的索引進行比對:雞、鱈魚、牛、狗、鴨、青蛙、馬、兔子、豬、羊、羅非魚和火雞。由于許多外源基因組基于進化具有高度的序列相似性,我們發(fā)現(xiàn)許多對齊到一個外源基因組的reads對齊到多個基因組。默認情況下,管道在此步驟中不允許不匹配(為了在識別可能的外生序列時盡可能保守)。我們將與外源性基因組對齊的reads分配到系統(tǒng)發(fā)育分類樹中的位置,該位置基于讀取比對的不同基因組最吝嗇的節(jié)點。

驗證組

為了驗證從IBC隊列中確定的關鍵基因組發(fā)現(xiàn),我們將分析擴展到多個其他隊列,包括乳腺癌和其他類型的癌癥,以及普通人群。更具體地說,我們調(diào)查了
(1) PCAWG乳腺癌隊列的基因和通路的高功能影響突變頻率,
(2) 來自ICGC的23種原發(fā)癌癥(https://dcc.icgc.org/)
(3) 來自The Genome Aggregation Database的一般人群數(shù)據(jù)

統(tǒng)計分析

本研究使用了兩種統(tǒng)計檢驗方法:
(1)Wilcoxon秩和檢驗
(2)Fisher精確檢驗。
采用Wilcoxon檢驗比較IBC和非IBC樣本的中位數(shù)。用Fisher精確檢驗法比較各分類中IBC和非IBC樣品的比例。以上測試的所有原始值都通過非常保守的Bonferroni校正進行調(diào)整。校正值<0.05認為有統(tǒng)計學意義。此外,我們通過三個步驟進行隨機化檢驗,驗證統(tǒng)計意義:
(1)混合IBC和非IBC樣本,隨機分為兩組,
(2)檢驗新樣本標簽下的顯著性,
(3)重復分析1000次,總結統(tǒng)計數(shù)據(jù)。
所有統(tǒng)計分析均使用R軟件(https://www.r-project.org/)進行。R包ggplot2 (http://ggplot2.org)、ComplexHeatmap和RCircos用于可視化結果。


Notes

炎性乳腺癌是一種罕見的特殊類型乳腺癌,腫瘤特點酷似急性炎癥改變,乳腺彌漫性增大,乳腺皮膚紅、腫、熱、痛,易誤診為急性乳腺炎。約50%的炎性乳腺癌摸不到腫塊,經(jīng)病理診斷為乳腺癌。多數(shù)患者在診斷時就發(fā)現(xiàn)腋窩和/或鎖骨上淋巴結轉移。炎性乳腺癌發(fā)病率約占全部乳腺癌的2.0%,發(fā)病的平均年齡為52歲,病程進展快、預后差,轉移發(fā)生率高達30%~40%,5年生存率僅為25%~48%。

癌癥基因組圖譜(the cancer genome atlas,TCGA)計劃是由美國國家癌癥研究所和美國國家人類基因組研究所于2005年提出的一項系統(tǒng)工程,旨在聯(lián)合全球科學家通過網(wǎng)絡研究找到所有癌癥基因與普通基因的微小變異,這些差異可以為癌癥檢測提供新的方法,幫助我們了解癌細胞發(fā)生、發(fā)展的機制,并在此基礎上取得新的治療方法,最后勾畫出一個全新而完整的“預防癌癥的策略”。在TCGA中,科研人員可以共享研究獲得的數(shù)據(jù)資料,包括某一特殊基因的突變、染色體重組、轉位缺陷等。繪制癌癥基因圖譜有助于把研究人員從目前逐個追蹤基因的大量勞動中解放出來,便于迅速設計和找到針對性的抗癌藥物。美國國家癌癥研究所副所長安娜?巴克認為,這項計劃“是生物醫(yī)學研究中的一大轉折點,也是藥物治療的一大轉折點”。繪制癌癥基因圖譜計劃的實施,將有助于癌癥生物學、基因組學、生物樣本庫和生物信息學領域的最新成果在共享平臺上得到協(xié)調(diào)發(fā)展和最佳應用。

國際癌癥基因組聯(lián)盟:ICGC(International Cancer Genome Consortium),主要目標是全面闡明導致全球人類疾病負擔的多種癌癥中存在的基因組變化。ICGC收集了50種不同癌癥類型(或亞型)的腫瘤數(shù)據(jù),其中包括基因異常表達,體細胞突變,表觀遺傳修飾,臨床數(shù)據(jù)等。ICGC包括亞洲、澳大利亞、歐洲、北美和南美17個行政區(qū)的89項目,包括25000個癌癥基因組。

soft-clipped reads:當基因組發(fā)生某一段的缺失(或轉錄組的剪接),在測序過程中,橫跨缺失位點及剪接位點的reads回帖到基因組時,一條reads被切成兩段,匹配到不同的區(qū)域,這樣的reads叫做soft-clipped reads,這些reads對于鑒定染色體結構變異及外源序列整合具有重要作用。

ER+/-:ER陽性和陰性
ER為雌激素受體,乳腺癌免疫組化里面比較重要的指標,決定著患者是否為激素依賴性乳腺癌,是否可以進行內(nèi)分泌治療。ER陽性的患者一線應用內(nèi)分泌藥物有效率為50-60%,陰性者為5-10%,二線有效率為20-40%,陰性者很少有效;(一線用藥和二線用藥區(qū)別:1、使用范圍不同:一線用藥,是根據(jù)患者病情可以首先選擇或者標準選擇的藥物,這些一線用藥耐藥以后再選擇二線的藥。2、使用對象不同:二線用藥是臨床使用頻率沒有一線多或者效果沒有一線明顯以及不良反應多的藥物。二線用藥主要選用對一線藥物產(chǎn)生耐藥性的復治病例。3、價格不同:一線藥的價格普遍要比二線藥要貴(不同病癥對應二線藥的價格也不相同),二線藥的副作用要大一些,開始治療時一般情況下會選擇先用一線藥。)

相關資料ER、PR分別代表雌激素受體和孕激素受體。檢測乳腺癌細胞的ER和PR,可以幫助判定該腫瘤是否對內(nèi)分泌治療敏感。ER、PR均為陽性的乳腺癌內(nèi)分泌治療的敏感性最高可達70%; 而ER、PR均為陰性的乳腺癌對內(nèi)分泌治療的敏感性則低于10%。換句話說ER、PR的狀況是決定乳腺癌患者是否可以進行內(nèi)分泌治療的指標。乳腺癌Her-2是表皮生長因子受體家族的一員,此家族在細胞信號轉導中發(fā)揮重要作用,是細胞生長、分化及存活的重要調(diào)節(jié)者。正常情況下,Her-2只在胎兒期表達,到成年后,只在極少數(shù)組織內(nèi)有低表達。在乳腺癌的發(fā)病因素中,Her-2的致癌基因起了主要的作用,而Her-2的過度表達是乳腺癌預后不良的指征。


end

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容