?背景
? ? ? ?目前市面上的腫瘤靶向用藥基因檢測Panel已非常常見,除了直觀層面的gene種類、數(shù)目、捕獲建庫方法的不同外,對于腫瘤panel, 探針定制之初相關的MSI位點、融合斷點等設計,直接影響著同一個Panel下每一批探針的實際檢測效果。在探針設計層面,簡單直接的辦法就是確定gene列表后,直接外包探針定制公司代為設計或者自行在開源網(wǎng)站上設計優(yōu)化:
優(yōu)勢:所有gene全外顯子覆蓋,簡便高效;
弊端:對于中小型Panel,探針大小處于臨界值的情況不容易控制;遺漏掉內含子區(qū)域的有害突變;外顯子比例偏低的重要基因的CNV檢測的準確性會受到影響;對于腫瘤用藥檢測Panel,MSI位點跟融合斷點通常不在外顯子區(qū)間中,需要額外補充;測序成本較高--以TMB相伴而生的大Panel為例,市面上500個gene左右的大Panel,若所有gene采用全外顯子設計,探針大小普遍超過2Mb,在cfDNA樣本低頻突變要求的高深度測序模式下,即便10000X的原始測序深度,也需要20G以上的數(shù)據(jù)量,單測序費用就超過1000RMB,同時也延長了數(shù)據(jù)分析時間及交付周期。
為此,我們提出一種:結合Clinvar、COSMIC等數(shù)據(jù)庫,對重點gene和非重點gene區(qū)別對待,以有害或可能有害突變分布密度為單位的選擇性設計方案:
方法

具體步驟:
SNV/INDEL部分:
step1. 在Suredesign等軟件上獲取候選gene? list對應基因組版本的外顯子+3‘/5’UTR區(qū)間信息,同時根據(jù)用藥、檢測內容等信息確定候選gene list中的核心gene與非核心gene;
step2. 使用STIF、Polyphen2等主流突變有害性預測軟件對COSMIC、Clinvar數(shù)據(jù)庫中的全部位點進行注釋,設定判斷條件獲得原始有害候選位點集合,進一步將候選集和按exon、UTR、intron等注釋信息分類;
step3. 將step2得到的exon+UTR區(qū)域的有害位點信息mapping回step1得到的染色體區(qū)間,根據(jù)落入各區(qū)間的有害位點數(shù)目及區(qū)間長度得到有害位點分布密度;
step4. 結合step1確定的核心gene及非核心gene集合,設定對應的有害位點分布密度cutoff值,確定需要保留exon+UTR區(qū)域后,再引入intron等區(qū)域的有害位點;
CNV部分:
結合step1確定的gene exon區(qū)間總長、NCBI等數(shù)據(jù)庫收錄的gene全長信息,計算該gene全外顯子區(qū)域占比,若比例過低,則需隨機引入內含子區(qū)間作為補充,如果有文獻明確報道其CNV區(qū)域,也可直接引入文獻報道區(qū)間。
融合/微衛(wèi)星部分:
融合斷點以及微衛(wèi)星位點一般都不在exon區(qū)域,需要結合文獻、數(shù)據(jù)庫及同行同類產(chǎn)品收集整理并引入。
匯總迭代:
合并SNV/INDEL、CNV、融合/微衛(wèi)星部分的基因組位置信息,結合探針區(qū)間的目的大小,迭代優(yōu)化。
查遺:
1. 在終版探針定出之前,對TERT基因 promoter等特殊位點以及EGFR靶向用藥相關突變、FGFR融合斷點等重要位點進行查遺確認。
升級:
對于大panel: 如果對TMB與WES的相關性更關注,可以進一步根據(jù)目的癌種的不同,從SNV/INDEL的區(qū)間中迭代計算,選取與目的癌種spearman相關系數(shù)最高的區(qū)間,作為TMB計算的候選區(qū)域。??
?***注意軟件版本及參數(shù)更新對默認區(qū)間的影響:以AKT1基因為例:


原因:2020年7月份上線的基于機器學習方法進行探針區(qū)間優(yōu)化的“Select Optimized Probes” 默認參數(shù),對AKT1基因來講,雖然可以減少34%的探針數(shù)目和24%的區(qū)間,有效降低了探針合成與定制成本,但這個功能目前是存在bug的,會遺遺漏exon末端區(qū)間,而有些是包含重要用藥信位點的,導致下一步用默認的“Coding Exons”參數(shù)卻并不是真正的外顯子設計!
解決辦法:
1.需要控制區(qū)間大小——上一步改回原來的“Design new probes by tiling genes or regions”參數(shù);
2. 關注UTR區(qū)域——選擇Coding Exons + UTRs參數(shù);
3. 在探針定出后發(fā)現(xiàn)bug——適當延長原bed文件中每個外顯子的上下游區(qū)間,以回收部分遺漏區(qū)域。

建議每批探針設計完成后,隨機挑選重要基因或重要區(qū)域,在UCSC上加一步確認,以避免因更新優(yōu)化引入的新bug!
討論
1.市面上各家腫瘤基因檢測公司的產(chǎn)品,尤其是拼基因數(shù)目的大Panel,有多少是真正的所有gene全外顯子設計?
2、對腫瘤患者及藥企伴隨診斷而言,所有gene外顯子全部引入的設計模式性價比?