NCBI官方基因組坐標(biāo)轉(zhuǎn)換工具
本文轉(zhuǎn)載自網(wǎng)上教程
首先強調(diào)這是一篇實用貼,做基因組學(xué)研究的朋友們也許經(jīng)常會碰到準(zhǔn)確獲取基因或者某一功能位點在基因組上的位置的問題。隨著人類基因組計劃的完成,這項工作理論上很好解決,但問題是隨著基因組數(shù)據(jù)的不斷完善,序列信息在不斷更新,所以我們經(jīng)常會碰到不同的基因組assembly版本,如hg18, hg19, GRCh37, GRCh38等等。因此,使用一個快捷權(quán)威的基因組坐標(biāo)轉(zhuǎn)換工具尤為重要。小編通過親身經(jīng)歷,直接給讀者推薦一款來自NCBI網(wǎng)站的轉(zhuǎn)換工具——Remap
(1) Remap基本介紹
直接貼上網(wǎng)址:(http://www.ncbi.nlm.nih.gov/genome/tools/remap)。打開之后直接來到“Assembly-Assembly”菜單,如圖1

該菜單下面包含三個數(shù)據(jù)選擇框:Genome Information; Remapping Options; Data.
首先需要在Genome Information下面選擇物種信息和需要轉(zhuǎn)換的基因組版本。這里需要說明的是直接點擊空白框不會出現(xiàn)下拉菜單,需要先輸入索引詞,比如我要轉(zhuǎn)換的基因組來自人類,就先輸入”Homo”, 就可以看到想要的結(jié)果。接下來就是在”Source Assembly”和”Target Assembly”中分別選擇當(dāng)前基因組版本和目標(biāo)基因版本。這里我們以GRCh37.p13轉(zhuǎn)換到GRCh38.p7為例 (目前NCBI dbSNP數(shù)據(jù)庫僅保存這兩個版本的基因組坐標(biāo))。如圖2,選中對應(yīng)坐標(biāo),點擊即可。

接下來的”Remapping Options”只要使用默認(rèn)參數(shù)即可,無需進行更改。
(2)Remap數(shù)據(jù)輸入格式
最關(guān)鍵的是最后一步”Data”的選擇。主要有兩個注意事項:數(shù)據(jù)輸入格式和數(shù)據(jù)文件的制作。網(wǎng)站中提供的數(shù)據(jù)輸入格式有很多,但我這里推薦使用”BED”類型格式輸入。”BED”文件格式有專門的網(wǎng)站介紹,因為該格式能被很多生信軟件識別,讀者可以參考UCSC網(wǎng)站對其的具體說明(https://genome.ucsc.edu/FAQ/FAQformat.html#format1)。簡單來說,”BED”文件只包含三列即可:Chromosome, Start position, end position. 對于SNP來說,它的位置只有一個,如rs782212的GRCh37.p13位置為chromosome 1,72945666。那么該如何在BED文件中存儲它的位置呢?對于SNP,Remap的規(guī)則是在”end position”中存放對應(yīng)位置,”start position” 只需在”end position”基礎(chǔ)上減去1即可。其他類型的突變,只需傳入有chr,start,end 的bed文件或這輸入坐標(biāo)即可,如圖3:

點擊”Submit”后,等待頁面自動更新后即可出現(xiàn)結(jié)果頁面,如圖4。

(3)Remap結(jié)果展示
我們可以以Excel的格式下載結(jié)果文件,點擊”Download Full Mapping Report”即可。Remap給出的結(jié)果十分豐富,每一個input在輸出的文件里存儲一行,前12列以”source”開頭的是坐標(biāo)轉(zhuǎn)換之前的信息,后面6列以”mapped”等開頭的是轉(zhuǎn)換后的信息,其中”mapped_id”, “mapped_start”和”mapped_stop”是我們需要的關(guān)鍵信息。
