之前給大家介紹過(guò)如何使用haploview軟件進(jìn)行單倍型分析及LD單倍型圖形數(shù)據(jù)的導(dǎo)出。該軟件在運(yùn)行后可以輸出位點(diǎn)的統(tǒng)計(jì)結(jié)果、LD分布以及單倍型相關(guān)信息。
1 分析結(jié)果
- 1.1 數(shù)據(jù)統(tǒng)計(jì)
導(dǎo)入數(shù)據(jù)后自動(dòng)計(jì)算位點(diǎn)的maf、缺失等信息,會(huì)匯總成統(tǒng)計(jì)表,可以導(dǎo)出,示例如下
統(tǒng)計(jì)結(jié)果中,標(biāo)紅的部分是未通過(guò)過(guò)濾的位點(diǎn),系統(tǒng)會(huì)自動(dòng)全選所有通過(guò)過(guò)濾的位點(diǎn)參與單倍型的計(jì)算。圖片下方顯示的是參數(shù)設(shè)置窗口,可自行輸入閾值,點(diǎn)擊Rescore Markers即可重新統(tǒng)計(jì)。
ps:上圖中Advanced Views中會(huì)顯示表中沒(méi)有的統(tǒng)計(jì)結(jié)果,比如樣本的缺失率等,可以自行查看;此外,這些統(tǒng)計(jì)數(shù)據(jù)都可以導(dǎo)出
- 1.2 LD-Block圖
軟件會(huì)自動(dòng)根據(jù)輸入的數(shù)據(jù)繪制對(duì)應(yīng)LD-Block區(qū)域的單倍型塊結(jié)果,所有統(tǒng)計(jì)以及圖片結(jié)果都可以導(dǎo)出保存,示例如下
LD導(dǎo)出數(shù)據(jù):
L1 L2 D' LOD r^2 CIlow CIhi Dist T-int
chr5_23655 chr5_68528 1.0 3.79 0.023 0.63 1.0 44873 168.12
chr5_23655 chr5_75682 1.0 49.24 1.0 0.96 1.0 52027 -
chr5_23655 chr5_125073 1.0 17.37 0.354 0.89 1.0 101418 -
chr5_23655 chr5_176933 1.0 49.24 1.0 0.96 1.0 153278 -
chr5_23655 chr5_206310 1.0 48.48 1.0 0.96 1.0 182655 -
chr5_23655 chr5_271689 1.0 3.92 0.023 0.64 1.0 248034 -
單倍型塊數(shù)據(jù)Haplotypes:
BLOCK 1. MARKERS: 10 11 19 27 33 44
112412 (0.560) |0.548 0.000 0.000 0.000 0.000|
312412 (0.167) |0.088 0.045 0.037 0.002 0.000|
111413 (0.162) |0.018 0.066 0.060 0.007 0.007|
121242 (0.098) |0.002 0.053 0.018 0.015 0.011|
Multiallelic Dprime: 0.786
BLOCK 2. MARKERS: 56 74 84 86
1424 (0.652) |0.651 0.000|
1224 (0.170) |0.164 0.007|
3412 (0.124) |0.011 0.114|
3424 (0.034) |0.034 0.000|
3224 (0.013) |0.000 0.013|
Multiallelic Dprime: 0.935
2 運(yùn)行報(bào)錯(cuò)問(wèn)題排查
當(dāng)位點(diǎn)數(shù)目或者選擇的目標(biāo)區(qū)間比較小時(shí),一般使用默認(rèn)參數(shù)運(yùn)行即可,不會(huì)出現(xiàn)太大問(wèn)題。當(dāng)位點(diǎn)數(shù)目太多或者強(qiáng)連鎖的區(qū)域太長(zhǎng)時(shí),導(dǎo)入數(shù)據(jù)時(shí)會(huì)遇見(jiàn)一下錯(cuò)誤。
遇見(jiàn)這種問(wèn)題一般有兩點(diǎn),一個(gè)是數(shù)據(jù)量太大,一個(gè)是位點(diǎn)間強(qiáng)連鎖區(qū)域太長(zhǎng)。
- 2.1 數(shù)據(jù)量過(guò)大
對(duì)于數(shù)據(jù)量問(wèn)題,文章中給出的了參考示例,1.8?GHz Pentium 4處理器加1?GB內(nèi)存,可以輕松處理400樣本的200位點(diǎn),對(duì)于大樣本、多位點(diǎn)的情況,推薦使用命令行操作,我覺(jué)得最好在資源較多的服務(wù)器上操作。
如果位點(diǎn)太多,可以考慮先用其他軟件算一下連鎖情況,分區(qū)間提取位點(diǎn)進(jìn)行單獨(dú)分析
- 強(qiáng)連鎖區(qū)域太長(zhǎng)
最近遇到了這種問(wèn)題,我測(cè)試的數(shù)據(jù)集有905位點(diǎn),區(qū)間50k左右,一直出現(xiàn)內(nèi)存超限的問(wèn)題,后來(lái)發(fā)現(xiàn)是連鎖區(qū)域太長(zhǎng)的原因。對(duì)于這種問(wèn)題,可以在導(dǎo)入數(shù)據(jù)的時(shí)候,減小聯(lián)鎖區(qū)間的閾值。
界面上Ignore pairwise...對(duì)應(yīng)的參數(shù)就是連鎖區(qū)間設(shè)定的閾值,可以適當(dāng)調(diào)小。這種情況下,本應(yīng)該是同一個(gè)連鎖區(qū)域的兩端會(huì)分開(kāi),后續(xù)需要進(jìn)行更正。
參考文獻(xiàn):
[1] https://academic.oup.com/bioinformatics/article/21/2/263/186662