TAC-seq:用于精準(zhǔn)生物標(biāo)志物分子計(jì)數(shù)的靶向 DNA 和 RNA 測序技術(shù)

TAC-seq: targeted DNA and RNA sequencing for precise biomarker molecule counting

題目:TAC-seq:用于精準(zhǔn)生物標(biāo)志物分子計(jì)數(shù)的靶向 DNA 和 RNA 測序技術(shù)

作者及單位:

Hindrek Teder& Kaarel Krjut?kov

Kaarel Krjut?kov

  • Competence Centre on Health Technologies, Tartu, Estonia
  • Department of Biosciences and Nutrition, Karolinska Institutet, Huddinge, Sweden
  • Research Program of Molecular Neurology, Research Programs Unit, University of Helsinki, and Folkh?lsan Institute of Genetics, Helsinki, Finland

發(fā)表雜志及時(shí)間:

npj Genomic Medicinevolume 3, Article number: 34 (2018) Published: 18 December 2018

摘要

Targeted next-generation sequencing (NGS) methods have become essential in medical research and diagnostics. In addition to NGS sensitivity and high-throughput capacity, precise biomolecule counting based on unique molecular identifier (UMI) has potential to increase biomolecule detection accuracy. Although UMIs are widely used in basic research its introduction to clinical assays is still in progress. Here, we present a robust and cost-effective TAC-seq (Targeted Allele Counting by sequencing) method that uses UMIs to estimate the original molecule counts of mRNAs, microRNAs, and cell-free DNA. We applied TAC-seq in three different clinical applications and compared the results with standard NGS. RNA samples extracted from human endometrial biopsies were analyzed using previously described 57 mRNA-based receptivity biomarkers and 49 selected microRNAs at different expression levels. Cell-free DNA aneuploidy testing was based on cell line (47,XX, +21) genomic DNA. TAC-seq mRNA profiling showed identical clustering results to transcriptome RNA sequencing, and microRNA detection demonstrated significant reduction in amplification bias, allowing to determine minor expression changes between different samples that remained undetermined by standard NGS. The mimicking experiment for cell-free DNA fetal aneuploidy analysis showed that TAC-seq can be applied to count highly fragmented DNA, detecting significant (p?=?7.6?×?10?4) excess of chromosome 21 molecules at 10% fetal fraction level. Based on three proof-of-principle applications we demonstrate that TAC-seq is an accurate and highly potential biomarker profiling method for advanced medical research and diagnostics.

靶向二代測序(NGS)方法已成為醫(yī)學(xué)研究和診斷的基本方法。 除了 NGS 的敏感性和高通量特征之外, 基于唯一分子標(biāo)識(shí)符(UMI) 的精準(zhǔn)生物分子計(jì)數(shù)具有提高生物分子檢測精度的潛力。 雖然 UMI 在基礎(chǔ)研究中得到了廣泛的應(yīng)用, 但是其引入臨床試驗(yàn)的工作仍在進(jìn) 行中。 在此, 我們提出一種穩(wěn)健且經(jīng)濟(jì)有效的 TAC-seq(通過測序進(jìn) 行目標(biāo)等位基因計(jì)數(shù))方法, 該方法使用 UMI 來估計(jì) mRNA、 miRNA 和 cell-free DNA 的原始分子計(jì)數(shù)。 我們?cè)谌N不同的臨床應(yīng)用中使 用 TAC-seq, 并將結(jié)果與標(biāo)準(zhǔn)的 NGS 進(jìn)行比較。 使用先前描述的 57 種基于 mRNA 的感受態(tài)生物標(biāo)記物和 49 種不同表達(dá)水平的 miRNA, 對(duì)從人子宮內(nèi)膜中提取的 RNA 樣品進(jìn)行分析。 基于細(xì)胞系(47, XX, +21) 基因組 DNA 對(duì) cell-free DNA 進(jìn)行非整倍體檢測。 TAC-seq 的 mRNA 譜顯示與轉(zhuǎn)錄組 RNA 測序相同的聚類結(jié)果, 并且其 miRNA 檢測顯示擴(kuò)增偏倚顯著降低, 從而能夠確定不同樣品之間的微小表達(dá) 變化, 而標(biāo)準(zhǔn)的 NGS 技術(shù)不能明確。 cell-free DNA 的胎兒非整倍體 分析的模擬實(shí)驗(yàn)表明, TAC-seq 可用于高片段 DNA 的計(jì)數(shù), 在 10% 胎兒分?jǐn)?shù)水平檢測到 21 號(hào)染色體分子顯著過表達(dá)(p=7.6×10_4) 。 基于三個(gè)原理證明的使用, 我們證明 TAC-seq 是一種能用于醫(yī)學(xué)研究 和診斷的精準(zhǔn)且高潛能生物標(biāo)記物譜分析方法。

image.png

Fig. 1. Principle and technical parameters of TAC-seq. a Schematic diagram of the assay to detect specific mRNA or cell-free DNA. Target-specific DNA oligonucleotide detector probes hybridize under stringent conditions to the studied cDNA or cfDNA. Both detector oligonucleotides consist of a specific 27-bp region (green), 4-bp unique molecular identifier (UMI) motif (NNNN), and universal sequences (purple and orange). The right detector oligonucleotide is 5′ phosphorylated. After rigorous hybridization, the pair of detector probes is ligated using a thermostable ligase under stringent conditions. Next, the ligated detectors complexed with the target region are captured with magnetic beads and PCR amplified to introduce sample-specific barcodes and other common motifs that are required for single-read NGS. b Spearman correlation analysis of the input and detected ERCC synthetic spike-in mRNA molecules at UMI threshold 4 (UMI?=?4). UMI threshold is defined as the number of detected unique UMI sequences. For example, UMI?=?4 indicates that a certain UMI motif is detected at least four times. UMIs are valuable only if the number of UMI combinations (8-bp UMI provides 65,536 variants, for example) is substantially larger than the sum of the target molecules in the studied sample. c Bar plot of Spearman’s correlation analysis of the ERCC input and detected molecules at different UMI thresholds. d Reproducibility of seven technical ERCC replicates (seven different icons on plot) of 22 spike-in molecules at UMI?=?4

TAC-seq的原理和技術(shù)參數(shù) 。 a 用于檢測特異性 mRNA 或 cell-freeDNA 的檢測方法的示意圖。 目的特異性 DNA 寡核苷酸檢測探針在嚴(yán)格的條件下與所研究的 cDNA或 cfDNA雜交。兩種檢測器寡核苷酸都由特定的 27-bp區(qū)域(綠 色) 、 4-bp 唯一分子標(biāo)識(shí)符(UMI) 基序(NNNN) 和通用序列(紫 色和橙色) 組成。 右側(cè)檢測的寡核苷酸是 5′ 磷酸化的。 經(jīng)過嚴(yán)密雜 交后, 在嚴(yán)格條件下使用耐高溫連接酶連接一對(duì)檢測器探針。接下來, 用磁珠捕獲與目標(biāo)區(qū)域復(fù)合的結(jié)合檢測器, 并擴(kuò)增 PCR 以引入單讀 數(shù) NGS 所需的特定于樣品的條形碼和其他常見圖案。 b, 在唯一分子標(biāo)識(shí)符閾值為 4(UMI=4)的情況下, 對(duì)輸入的和 檢測到的 External RNA Controls Consortium (ERCC)中 mRNA 分子進(jìn) 行 Spearman 相關(guān)分析。UMI 的閾值定義為檢測到的唯一 UMI 序列的 數(shù)量。例如, UMI=4 指示至少四次檢測到某個(gè) UMI。 UMI 只有當(dāng) UMI 組合的數(shù)量(例如, 8-bp UMI 提供 65536 個(gè)變體) 顯著大于研究樣 本中的目標(biāo)分子總和時(shí)才有價(jià)值。 c Spearman 對(duì) ERCC 輸入和檢測分子在不同 UMI 閾值下的相關(guān) 性分析的條形圖。 d 在 UMI=4 時(shí), 22 個(gè)尖峰分子的 7 個(gè)技術(shù) ERCC 復(fù)制品(圖中 的 7 個(gè)不同的圖標(biāo)) 的重現(xiàn)性。

image.png

Fig 2. Comparison of the overall predictions for mRNA TAC-seq assay. a Principal component analysis of the full transcriptome RNA-seq, high-coverage TAC-seq and low-coverage TAC-seq of ten endometrial samples. The first principal component (PC1) describes most of the sample variability and correlates most with the receptivity status. Blue dots represent pre-receptive and red dots receptive human endometrial samples. One separate pre-receptive sample (indicated with an asterisk) represents the same sample that clusters differently in the heatmap analysis (below) and is, therefore, a potential biological outlier. b Heatmaps of the full transcriptome RNA-seq, high-coverage-, and low-coverage TAC-seq show the sensitivity to distinguish different endometrial samples according to their receptivity. One pre-receptive sample (indicated with an asterisk) shares the expression profile and clusters together with receptive samples in all three comparisons. Pre-receptive samples are labeled blue and receptive red. Detailed heatmaps are presented in Supplementary Fig. 3 together with housekeeping genes that demonstrate a lack of fluctuation of the pre-receptive and receptive biopsies. High-coverage TAC-seq data are presented at UMI?=?2 and low-coverage data at UMI?=?1 on PCA and heatmaps. Higher UMI thresholds in both high- and low-coverage approaches left low-expressed biomarker genes, like APOD, EDN3 etc without reads, according to Supplementary Fig. 4. The data are plotted as row-wise scaled ==log-transformed counts per million (CPM)== values. The samples are hierarchically clustered column-wise using Pearson correlation. The genes are ordered row-wise according to the RNA-seq clustering results using Euclidean distance. Fewer genes are found expressed with a low-coverage compared to RNA-seq and high-coverage TAC-seq

圖2. 比較TAC-seq實(shí)驗(yàn)預(yù)測的總體mRNA的。對(duì)10個(gè)子宮內(nèi)膜樣本的全轉(zhuǎn)錄組RNA-seq,高覆蓋率TAC-seq和低覆蓋率TAC-seq的主成分分析。第一主成分(PC1)描述了大部分樣本變異性,并且與接受性狀態(tài)最相關(guān)。藍(lán)點(diǎn)代表接受性和紅色點(diǎn)接受性人子宮內(nèi)膜樣品。一個(gè)單獨(dú)的預(yù)接受樣本(用星號(hào)表示)表示在熱圖分析(下圖)中聚類不同的相同樣本,因此是潛在的生物異常值。 b完整轉(zhuǎn)錄組RNA-seq,高覆蓋率和低覆蓋率TAC-seq的熱圖顯示了根據(jù)其接受性區(qū)分不同子宮內(nèi)膜樣品的敏感性。一個(gè)預(yù)接受樣本(用星號(hào)表示)與所有三個(gè)比較中的接受樣本共享表達(dá)譜和簇。預(yù)接受樣品標(biāo)記為藍(lán)色且接受紅色。詳細(xì)的熱圖在補(bǔ)充圖3中與管家基因一起呈現(xiàn),其表明預(yù)接受和接受活組織檢查的波動(dòng)不足。高覆蓋率TAC-seq數(shù)據(jù)以UMI = 2呈現(xiàn),低覆蓋率數(shù)據(jù)以UMI = 1呈現(xiàn)在PCA和熱圖上。根據(jù)補(bǔ)充圖4,高覆蓋率和低覆蓋率方法中都設(shè)置了較高的UMI閾值,從而篩掉了低表達(dá)的生物標(biāo)記基因,像APOD,EDN3等沒有讀數(shù).數(shù)據(jù)繪制成每百萬行標(biāo)度對(duì)數(shù)轉(zhuǎn)化計(jì)數(shù)( CPM)值。使用Pearson相關(guān)性對(duì)樣本進(jìn)行分層聚類。根據(jù)使用歐幾里德距離的RNA-seq聚類結(jié)果對(duì)每行的基因進(jìn)行排序。與RNA-seq和高覆蓋率TAC-seq相比,發(fā)現(xiàn)較少的基因以低覆蓋率表達(dá)

image.png

Fig 3. TAC-seq miRNA assay performance. Correlation plots of four miRNA sample ==technical replicates==(技術(shù)重復(fù)) using TAC-seq assay at UMI?=?4. miRNA sample 1 is on the left hand and has two replicates, one plotted on the x-axis and the other on the y-axis. The same with miRNA sample 2 on the right hand

圖3. TAC-seq miRNA試驗(yàn)的性能。在UMI=4時(shí),采用TAC-seq方法測定的四種miRNA樣本技術(shù)重復(fù)之間的相關(guān)圖。miRNA樣本1在左邊,有兩個(gè)重復(fù),一個(gè)在x軸上,另一個(gè)在y軸上。對(duì)于右邊的miRNA樣本2來說也是一樣的

image.png

fig 4. ==Trisomy==(21三體) detection under in vitro conditions. Boxplots over applied UMI thresholds of normalized molecule counts (y-axis) of trisomy TAC-seq experiments indicates a positive correlation between the trisomy factor (x-axis, trisomic cell proportion) and chr21 counts. Experiment 1, upper four plots, involved 114 loci along chr2 and chr21. One biological replica is depicted. Experiment 2, lower four plots at various UMI thresholds, involved extended TAC-seq probe set (in total 224 probes) along chr2, chr3, and chr21. The red asterisks indicate significant reference chromosome(s) and chr21 read-count-based differences between studied samples (p?<?0.05, one-tailed Welch’s t-test)

體外條件下的三染色體細(xì)胞檢測。三染色體細(xì)胞 taco -seq 實(shí)驗(yàn)歸一化分子計(jì)數(shù)(y 軸)的 UMI 閾值以上的箱線圖表明,三染色體因子(x 軸, 三染色體的細(xì)胞比例)與 chr21 計(jì)數(shù)呈正相關(guān)。 實(shí)驗(yàn)一, 如上面四個(gè)圖, 包括沿著 chr2 和 chr21 的 114 個(gè)位點(diǎn)。描繪了一個(gè)生物復(fù)制品。 實(shí)驗(yàn) 2,降低 4 個(gè)不同 UMI 閾值的小區(qū), 涉及到沿 chr2、 chr3 和 chr21 延伸的 taco -seq 探 針組(共 224 個(gè)探針)。 紅色星號(hào)表示研究樣本間的參考染色體(s)和基于 chr21 讀計(jì)數(shù)的差異 顯著性(p<0.05, 單尾 t 檢驗(yàn))。

討論

將NGS的高靈敏度和靈活性與有針對(duì)性的高效、精確的定量方法相結(jié)合,可以對(duì)特定的核酸生物標(biāo)志物進(jìn)行穩(wěn)健的檢測,從而指示(病理)生理狀況。TAC-seq是一種先進(jìn)的基于連接的NGS方法,它不同于現(xiàn) 有的連接-PCR方法,如mlpa 6、MLPA-seq 5、tempo-seq 4、RASL-seq 7和dansr8。TAC-seq的主要 優(yōu)點(diǎn)是能夠檢測mRNA和miRNA等轉(zhuǎn)錄生物標(biāo)記分子的數(shù)量,以及cfDNA的基因組位點(diǎn)。精確的分子計(jì) 數(shù)是通過集成umi或“分子條形碼”模板12來實(shí)現(xiàn)的,這減少了體外復(fù)制步驟帶來的定量和隨機(jī)偏差。使 用UMIS去除PCR重復(fù),減少了主要NGS特異性技術(shù)偏差之一,提高了NGS的準(zhǔn)確性。

我們對(duì)22個(gè)分析ERCC尖峰輸入和分子(Spearmanr?=?0.9958在圖上。1d)檢測并觀察到非常高的靈敏度 相關(guān)高覆蓋度,保證每個(gè)UMI覆蓋率為102×。根據(jù)覆蓋范圍,我們相信,幾乎沒有錯(cuò)過聯(lián)合管理信息系 統(tǒng),因此,這一結(jié)果是可靠的。然而,低表達(dá)的目標(biāo)和高表達(dá)的目標(biāo)之間的系統(tǒng)性差異被低估了,高拷 貝分子的數(shù)量被低估了(見補(bǔ)充表1中的前四位ERCC尖峰)。這是由umi序列的長度來解釋的,它導(dǎo)致 了“技術(shù)飽和”。在本研究中使用的8個(gè)核苷酸UMIS有6.5萬個(gè)可能的序列,適用于cfDNA三體檢測,因?yàn)?10?ml血中cfDNA的拷貝數(shù)<5000.23,24。同樣適用于較低濃度的tc-seq表達(dá)應(yīng)用?;蛘撸梢詫⑦@兩 個(gè)檢測器探針中的umi序列從當(dāng)前的8個(gè)核苷酸擴(kuò)展到12個(gè)核苷酸,從而確保1670萬個(gè)可能的組合。同 時(shí),我們也意識(shí)到,在探測器中引入更長、更隨機(jī)的umi串,可能會(huì)增加探測器自配對(duì)和非特異性連接 的概率。然而,諸如“飽和度”和復(fù)制等與之相關(guān)的問題導(dǎo)致了小說“幻影”umis 25,在分析設(shè)計(jì)和數(shù)據(jù)分 析時(shí)應(yīng)該加以考慮。

TAC-seq的設(shè)計(jì)考慮到了基因檢測實(shí)驗(yàn)室的主要先決條件-敏感性、健壯性和成本效益。文中還討論了 MEU的靈敏度和分子計(jì)數(shù)問題。單管協(xié)議保證了系統(tǒng)的魯棒性,最大限度地減少了等位基因丟失的風(fēng) 險(xiǎn).此外,該方法是無稀釋的,這意味著被分析的生物標(biāo)記分子與連接的探測器探針一起被捕獲并通過測 序鑒定。后者在液體活檢樣本中至關(guān)重要,因?yàn)槊總€(gè)位點(diǎn)只有數(shù)千份拷貝。如果采用與特定探針連接的 方法,則探針雜交兼容的目標(biāo)cfdna拷貝數(shù)減少25%,原因是cfdna長度較短(180?bp),因?yàn)槿绻鹀fdna片 段位于距cfdna片段近25?的位置,則沒有檢測到該位點(diǎn)。 TAC-seq通過寡核苷酸啟動(dòng)的cDNA合成(Poly-a選擇)檢測mRNA生物標(biāo)志物,反映活性轉(zhuǎn)錄組的分析。 它不同于最近描述的Splintr連接酶26用于RNA/DNA雜交的Tempo-Sq4,它被用于通過特定的檢測器寡 核苷酸檢測任何,甚至是片段的RNA靶點(diǎn)。此外,Splintr連接酶的最佳工作溫度為37?℃,這可能限制了 已形成的RNA/DNA探針復(fù)合物預(yù)先連接的特異性。相比之下,tac-seq使用熱穩(wěn)定的水熱菌dna連接酶 27,使特異性雜交和連接在溫度超過45?°C?;赥aqDNA連接酶的這一特性,我們首次在60?°c進(jìn)行了 特異性探針-靶雜交,并在相同溫度下引入連接酶連接到臨近退火鏈中。 由于測序是NGS成本的主要來源,因此在常規(guī)NGS臨床應(yīng)用中應(yīng)用支持低覆蓋率測序的庫準(zhǔn)備是至關(guān)重 要的。通過現(xiàn)成試劑和基因組實(shí)驗(yàn)室常用儀器的使用,如標(biāo)準(zhǔn)熱循環(huán)儀和臺(tái)式NGS測序器,確保了 TAC-seq的成本效益。TAC-seq的運(yùn)行成本僅為一般NGS應(yīng)用的一小部分,如NIPT的全基因組測序或 mRNA和miRNA分析的RNA-seq。TAC-seq的建立成本取決于由于需要特定的檢測器寡核苷酸而研究的 位點(diǎn)數(shù)目(補(bǔ)充圖)。10)補(bǔ)充表2列出了消耗品及其大致價(jià)格,并在方法中加以解釋。根據(jù)自制文庫的制 備和測序,根據(jù)測序深度的不同,miRNA譜和cfDNA分析的總試劑成本小于30歐元/份,而mRNA生物標(biāo) 志物分析的成本低于26~40歐元/份。因此,TAC-seq有可能成為臨床研究后常規(guī)NIPT或檢測轉(zhuǎn)錄組生物 標(biāo)記物水平的一種具有成本效益的替代品。 TAC-seq探針的特異性由mRNA和gDNA上的54-BP長區(qū)決定.我們開發(fā)了自動(dòng)化的mRNA探針設(shè)計(jì)軟件 (http://nipt.ut.ee/design/),在使用上沒有限制,并在補(bǔ)充方法中進(jìn)行了描述),使探針設(shè)計(jì)過程自動(dòng) 化,并提供高特異性的寡核苷酸序列和可供合成的公共單元。miRNA分子的探針設(shè)計(jì)更加簡單,不需要 特殊的軟件(見補(bǔ)充圖)。6)另一個(gè)使NGS作為檢測方法選擇的簡化方法是用戶友好的數(shù)據(jù)分析。小型 NGS數(shù)據(jù)分析不需要強(qiáng)大的計(jì)算資源.為此,我們?yōu)樾⌒蛅ac-seq數(shù)據(jù)分析提供了用戶友好的個(gè)人計(jì)算機(jī) 軟件,并提供了用于密集分析的開放源代碼(鏈接在方法中)。簡單的分析流水線克服了NGS“大數(shù)據(jù)”的局限性。大多數(shù)需要資源的原始數(shù)據(jù)處理都是由Illumina云計(jì)算環(huán)境完成的。接下來的tc-seq分析是基于 文本文件操作的,消除了排序讀取映射的需要,使得在個(gè)人計(jì)算機(jī)中執(zhí)行NGS分析成為可能(參見方法 的詳細(xì)信息)。

應(yīng)用umi閾值取決于應(yīng)用類型和排序深度。cfDNA分析的基礎(chǔ)是期望所有研究的基因座都以相對(duì)相似的 拷貝數(shù)表示。如果對(duì)PCR周期進(jìn)行優(yōu)化以避免過度擴(kuò)增,我們建議使用umi?=?1或umi?=?2閾值(圖1)。4) 轉(zhuǎn)錄組生物標(biāo)志物分析面臨著原始分子計(jì)數(shù)的多樣性(補(bǔ)充圖)。4)轉(zhuǎn)錄組的差異根據(jù)低表達(dá)的分子決定 最優(yōu)的umi閾值。過于嚴(yán)格的閾值過濾掉低表達(dá)的生物標(biāo)記物。 總之,我們發(fā)展了一種高度靈敏和并行的方法來精確地計(jì)數(shù)研究樣品中核酸生物標(biāo)記分子的數(shù) 量。我們的原理證明表明,tac-seq方法在mRNA和miRNA的應(yīng)用中具有與金標(biāo)準(zhǔn)RNA-seq法相似 的靈敏度,能夠成功地檢測出類cfDNA材料中cfDNA分子的過量(指示染色體三體)。TAC-seq是一 種自動(dòng)化兼容的方法,旨在克服基因檢測實(shí)驗(yàn)室中基于連接和NGS的限制。雖然所有的應(yīng)用都需 要經(jīng)過仔細(xì)的臨床驗(yàn)證才能被使用,但所描述的方法是進(jìn)一步專業(yè)化和優(yōu)化的基礎(chǔ),以提供先進(jìn) 的DNA和RNA生物標(biāo)志物分析工具,從而提高相應(yīng)研究和保健應(yīng)用的范圍和質(zhì)量。

翻譯小組:

王俊豪、陳凱星、鄧峻瑋、黃敬潼、陳志榮、黃子亮、鄭凌伶

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容