二代測(cè)序產(chǎn)生的數(shù)據(jù)類(lèi)型
常規(guī)的下一代高通量測(cè)序(next generation sequencing, NGS)實(shí)驗(yàn)通常產(chǎn)生大量短片段(reads),通常我們需要將這些reads比對(duì)到參考基因組/轉(zhuǎn)錄組上,即將它們置于生物學(xué)上有意義的基因背景下,才能獲得有意義的結(jié)果。一般我們認(rèn)為會(huì)產(chǎn)生兩種類(lèi)型的數(shù)據(jù)(當(dāng)然兩者并無(wú)嚴(yán)格意義上的區(qū)分):
1.表達(dá)類(lèi)
一般為固定區(qū)域,關(guān)注于定量比較。例如轉(zhuǎn)錄組測(cè)序結(jié)果中,數(shù)據(jù)庫(kù)中已有mRNA基因的表達(dá),lncRNA基因的表達(dá)等,這類(lèi)結(jié)果一般以矩陣形式存儲(chǔ),第一列是名字,其余列是表達(dá)值。CircRNA表達(dá),miRNA表達(dá)等歸于此類(lèi)。
2.基因組區(qū)域(富集峰)類(lèi)
一般區(qū)域不固定,關(guān)注于定性。例如ChIP-seq、ATAC-seq、Cut&tag等比對(duì)后獲得的富集峰。一般以bed格式存儲(chǔ),第一列是染色體,第二列是富集峰起始坐標(biāo),第三列是富集峰終止坐標(biāo)(圖1)。eccDNA,m6A,MeDIP等歸于此類(lèi)。

什么是富集峰注釋?zhuān)?/b>
基于抗體富集的原理,眾多reads片段比對(duì)到基因組上某區(qū)段,會(huì)形成一個(gè)類(lèi)似山峰的富集區(qū)。由于我們是在基因組背景下進(jìn)行生物醫(yī)學(xué)研究的,因此需要將基因組區(qū)域(富集峰,peak)與基因聯(lián)系起來(lái),即確定峰落在哪個(gè)基因上,落在該基因的哪種基因組特征上,距離TSS的位置是多少bp等,然后才能進(jìn)行后續(xù)的功能研究。這個(gè)過(guò)程叫做富集峰注釋?zhuān)╬eakannotation,圖2)。如果僅關(guān)注某幾個(gè)區(qū)域,就不需要用軟件注釋?zhuān)ㄗh直接用IGV或者UCSC Genome Browser查看。
富集峰注釋的難點(diǎn)
雖然CHIP-Seq已經(jīng)有近20年的歷史,然而由于基因組上基因的結(jié)構(gòu)非常復(fù)雜,不同注釋軟件在具體細(xì)節(jié)處理上往往不同,從而導(dǎo)致同一批數(shù)據(jù),用不同的軟件進(jìn)行注釋?zhuān)@得的結(jié)果略有不同(大同小異)。
1.注釋到轉(zhuǎn)錄本還是注釋到基因?
由于一個(gè)基因可能包含多個(gè)轉(zhuǎn)錄本,因此,我們?cè)谧⑨尩臅r(shí)候,到底是注釋到基因水平還是注釋到轉(zhuǎn)錄本水平?
2.基因位置重疊怎么處理?
由于同一個(gè)位置可能存在多個(gè)基因,如果兩個(gè)基因的坐標(biāo)有重疊,我們到底是注釋到A基因還是注釋到B基因?
3.最鄰近怎么判斷?
如果富集峰的中點(diǎn)(或者頂點(diǎn))正好落在兩個(gè)基因的中間,那么這個(gè)富集峰是注釋到A基因還是注釋到B基因,如何定義最鄰近?
4.基因組特征如何分類(lèi)?
不同文章、軟件對(duì)基因組特征分類(lèi)不同,例如有的分為promoter、intron、exon,5’UTR和3’UTR;有的分為:upstream、promoter、intron、exon、downstream等
5.如何定義?
不同文章、軟件定義promoter區(qū)也不同,有的定義TSS上游3K到下游3K都是promoter,有的定義TSS上游200bp到下游800bp是啟動(dòng)子。
6.不同基因組特征的注釋優(yōu)先級(jí)
當(dāng)一個(gè)很長(zhǎng)的富集峰橫跨同一個(gè)基因的intron、exon、3’UTR時(shí)候,這個(gè)富集峰該分到什么特征中呢?
7.注釋數(shù)據(jù)庫(kù)版本問(wèn)題
同樣是human hg38,如果注釋庫(kù)版本不同,那么注釋結(jié)果也會(huì)有差異。原因是:雖然基因組序列不變,然而注釋庫(kù)卻更新頻繁,有基因會(huì)更新坐標(biāo),有基因會(huì)添加新的轉(zhuǎn)錄本,有基因會(huì)從非編碼基因變成編碼基因等。

凡此種種,給我們的注釋工作帶來(lái)了巨大困難。然而,作為用戶(hù)(調(diào)包俠),我們基本不用深究注釋背后的細(xì)節(jié)。我們需要做的就是:找一個(gè)引用比較多的注釋工具,默認(rèn)參數(shù)進(jìn)行注釋即可。
常見(jiàn)富集峰注釋軟件

為什么要用新版注釋?zhuān)?/b>
由于注釋數(shù)據(jù)庫(kù)頻繁更新,如果你使用的注釋還是N年前的,那么reviewer在公共數(shù)據(jù)庫(kù)(例如UCSC、Ensembl、NCBI)上使用網(wǎng)站默認(rèn)版本查詢(xún)時(shí),就有可能查不到你的基因,或者你N年前的數(shù)據(jù),與新的數(shù)據(jù)聯(lián)合分析時(shí),由于使用的注釋數(shù)據(jù)庫(kù)不同,取交集時(shí),會(huì)漏掉一些基因。因此,我們強(qiáng)烈建議所有的測(cè)序數(shù)據(jù),包括RNA-seq、ChIP-seq、m6A-seq等都使用同一套注釋庫(kù)進(jìn)行注釋分析,并在結(jié)果中明確說(shuō)明所使用的注釋庫(kù)版本。這對(duì)于在不同公司,不同時(shí)間做的測(cè)序結(jié)果來(lái)說(shuō),是非常重要的。
由于上述所列在線工具都是N年前的,所以我們使用ChIPSeeker R包搭建了一個(gè)簡(jiǎn)易的在線peak注釋工具,可以對(duì)人、大鼠、小鼠的ChIP-seq,ATAC-seq,cut&tag等富集峰進(jìn)行一鍵注釋。
1,打開(kāi)繪圖頁(yè)面
首先,使用瀏覽器(推薦chrome或者edge)打開(kāi)ChIP-Seq富集峰注釋頁(yè)面。左側(cè)為常見(jiàn)作圖導(dǎo)航,中間為數(shù)據(jù)輸入框和可選參數(shù),右側(cè)為描述和結(jié)果示例。也可以在搜索框中搜索peak,找到注釋頁(yè)面。
http://www.bioinformatics.com.cn/basic_chipseq_atacseq_peak_annotation_by_chipseeker_t017

2,示例數(shù)據(jù)
點(diǎn)擊右側(cè)“示例數(shù)據(jù)”鏈接下載excel格式的示例數(shù)據(jù)。
示例數(shù)據(jù)包括4列,分別為:chr,start,end,-LOG10(pvalue)。
注意:為了遵循各大數(shù)據(jù)庫(kù)的使用,這里染色體必需使用chr+數(shù)字,即:chr1-22、chrX、chrY、chrM等。

3,粘貼示例數(shù)據(jù)
直接拷貝示例數(shù)據(jù)中的ABCD四列數(shù)據(jù),然后粘貼到輸入框。注意必需帶每一列的說(shuō)明行(header),此行將用于最終的excel表頭。
注意:不是拷貝excel文件,是拷貝excel文件里邊的數(shù)據(jù)。另外粘貼到輸入框后,格式亂了沒(méi)關(guān)系,只要在excel中是整齊的就行。同時(shí)數(shù)據(jù)矩陣中不能有空的單元格,中文字符等。

4,修改參數(shù),并提交
我們?cè)O(shè)置了promoter區(qū)的范圍選項(xiàng),及注釋所用的物種及注釋版本選項(xiàng)(例如human所使用的是hg38基因組,注釋版本為Ensembl v108),當(dāng)前僅支持human,mouse和rat。后續(xù)將支持更多物種。

5,提交出圖
粘貼好輸入數(shù)據(jù),調(diào)整好參數(shù)(重點(diǎn)是物種及注釋版本)后,點(diǎn)擊提交按鈕,約30秒鐘后(取決于數(shù)據(jù)多少),會(huì)在頁(yè)面右側(cè)出現(xiàn)peak分類(lèi)餅圖及excel格式的數(shù)據(jù)下載鏈接,請(qǐng)下載后解壓查看。


結(jié)果說(shuō)明
以peak_class為界,結(jié)果包括兩部分:左側(cè)為輸入的內(nèi)容,其中start添加了1 bp(因?yàn)閎ed格式是0-based,這里變成了1-based),并添加了peak長(zhǎng)度信息(end-start+1);右側(cè)為注釋信息,包括:peak分類(lèi),基因位置,基因/轉(zhuǎn)錄本注釋等信息。并基于peak_class的數(shù)據(jù)繪制了peak分布餅圖。
注意:
1,由于peak注釋與注釋庫(kù)及優(yōu)先級(jí)關(guān)系密切,因此最終放在paper里邊的圖,以IGV可視化結(jié)果為準(zhǔn)。
2,輸入peak默認(rèn)不考慮鏈,如需更精細(xì)地注釋?zhuān)?qǐng)參考ChIPSeeker R包。
3,默認(rèn)一個(gè)peak僅注釋到一個(gè)轉(zhuǎn)錄本
沒(méi)有預(yù)覽就是沒(méi)有出圖/結(jié)果,這時(shí)請(qǐng)參考示例數(shù)據(jù),檢查輸入數(shù)據(jù)的格式?;蛘呤褂梦覀兲峁┑男」ぞ?a href="http://www.itdecent.cn/p/20b005b360a0" target="_blank">pyinstaller打包python腳本為exe可執(zhí)行文件實(shí)例:錯(cuò)誤排查小腳本檢查輸入。
參考文獻(xiàn):
1. Yu G, Wang LG, He QY. ChIPseeker: anR/Bioconductor package for ChIP peak annotation, comparison and visualization.Bioinformatics. 2015 Jul 15;31(14):2382-3. doi: 10.1093/bioinformatics/btv145.Epub 2015 Mar 11. PMID: 25765347.
2. Huang W, Loganantharaj R, Schroeder B, FargoD, Li L. PAVIS: a tool for Peak Annotation and Visualization. Bioinformatics.2013 Dec 1;29(23):3097-9. doi: 10.1093/bioinformatics/btt520. Epub 2013 Sep 4.PMID: 24008416; PMCID: PMC3834791.
3. Heinz S, Benner C, Spann N, Bertolino E, LinYC, Laslo P, Cheng JX, Murre C, Singh H, Glass CK. Simple combinations oflineage-determining transcription factors prime cis-regulatory elementsrequired for macrophage and B cell identities. Mol Cell. 2010 May28;38(4):576-89. doi: 10.1016/j.molcel.2010.05.004. PMID: 20513432; PMCID:PMC2898526.
4. McLean CY, Bristor D, Hiller M, Clarke SL,Schaar BT, Lowe CB, Wenger AM, Bejerano G. GREAT improves functionalinterpretation of cis-regulatory regions. Nat Biotechnol. 2010May;28(5):495-501. doi: 10.1038/nbt.1630. Epub 2010 May 2. PMID: 20436461;PMCID: PMC4840234.
5. Zhu LJ, Gazin C, Lawson ND, Pagès H, Lin SM,Lapointe DS, Green MR. ChIPpeakAnno: a Bioconductor package to annotateChIP-seq and ChIP-chip data. BMC Bioinformatics. 2010 May 11;11:237. doi:10.1186/1471-2105-11-237. PMID: 20459804; PMCID: PMC3098059.
微生信助力高分文章,用戶(hù)73000+,引用990+