原網(wǎng)址:https://cloud.tencent.com/developer/article/1626413
對于不同的HLA Allel來說,exon2和exon3 序列的差異性尤為明顯,很多的HLA 分型軟件都會根據(jù)這部分序列,整理出HLA Allel序列參考數(shù)據(jù)庫。

seq2HLA也采用了類似的策略,通過HLA不同Allel的exon2和exon3的序列,整理了一份HLA參考數(shù)據(jù)庫,通過將RNA_seq的reads與該數(shù)據(jù)庫比對,確定HLA分型結(jié)果,原理示意圖如下

迭代兩次,每次挑選出覆蓋度最高的Allel 作為分型結(jié)果。
seq2HLA采用python和R進(jìn)行開發(fā),安裝過程較為簡單,直接下載源代碼即可,安裝過程如下
git clone https://github.com/TRON-Bioinformatics/seq2HLAcd seq2HLA/
用法如下:
python seq2HLA.py-1R1.fastq-2R2.fastq-r test-p10
-1和-2參數(shù)分別指定輸入的R1和R2端的fastq格式的序列;-r參數(shù)指定輸出文件名稱的前綴,-p指定線程數(shù),主要是bowtie比對時的線程。
輸出文件非常多,詳細(xì)列表如下
test.ambiguity
test-ClassI-class.bowtielog
test-ClassI-class.expression
test-ClassI-class.HLAgenotype2digits
test-ClassI-class.HLAgenotype4digits
test-ClassII.bowtielog
test-ClassII.expression
test-ClassII.HLAgenotype2digits
test-ClassII.HLAgenotype4digits
test-ClassI-nonclass.bowtielog
test-ClassI-nonclass.expression
test-ClassI-nonclass.HLAgenotype2digits
test-ClassI-nonclass.HLAgenotype4digits
我們主要關(guān)注后綴為HLAgenotype4digits的結(jié)果文件,可以看到,同時體用了HLA Clas I 和 Class II 兩種類型基因的分型結(jié)果。以HLA I型基因的4位分型結(jié)果為例,文件內(nèi)容如下
#Locus Allele1Confidence Allele2Confidence
A A*02:650.008687167A*02:65NA
B B*39:05'0.3821314B*13:480.09848174
C C*08:02' NA C*08:02NA
對于HlA? I型基因,給出了A, B, C 三個基因的分型結(jié)果,每個基因給出了兩個Allel, 對于每個Allel, 會給出對應(yīng)的打分值。
本文分享自微信公眾號 -?生信修煉手冊(shengxinxiulian),作者:lzyg
原文出處及轉(zhuǎn)載信息見文內(nèi)詳細(xì)說明,如有侵權(quán),請聯(lián)系?yunjia_community@tencent.com?刪除。
原始發(fā)表時間:2018-07-20
本文參與騰訊云自媒體分享計劃,歡迎正在閱讀的你也加入,一起分享。