seq2HLA:利用RNA_seq數(shù)據(jù)進(jìn)行HLA分型

原網(wǎng)址:https://cloud.tencent.com/developer/article/1626413



對于不同的HLA Allel來說,exon2和exon3 序列的差異性尤為明顯,很多的HLA 分型軟件都會根據(jù)這部分序列,整理出HLA Allel序列參考數(shù)據(jù)庫。


seq2HLA也采用了類似的策略,通過HLA不同Allel的exon2和exon3的序列,整理了一份HLA參考數(shù)據(jù)庫,通過將RNA_seq的reads與該數(shù)據(jù)庫比對,確定HLA分型結(jié)果,原理示意圖如下


迭代兩次,每次挑選出覆蓋度最高的Allel 作為分型結(jié)果。

seq2HLA采用python和R進(jìn)行開發(fā),安裝過程較為簡單,直接下載源代碼即可,安裝過程如下

git clone https://github.com/TRON-Bioinformatics/seq2HLAcd seq2HLA/

用法如下:

python seq2HLA.py-1R1.fastq-2R2.fastq-r test-p10

-1和-2參數(shù)分別指定輸入的R1和R2端的fastq格式的序列;-r參數(shù)指定輸出文件名稱的前綴,-p指定線程數(shù),主要是bowtie比對時的線程。

輸出文件非常多,詳細(xì)列表如下

test.ambiguity

test-ClassI-class.bowtielog

test-ClassI-class.expression

test-ClassI-class.HLAgenotype2digits

test-ClassI-class.HLAgenotype4digits

test-ClassII.bowtielog

test-ClassII.expression

test-ClassII.HLAgenotype2digits

test-ClassII.HLAgenotype4digits

test-ClassI-nonclass.bowtielog

test-ClassI-nonclass.expression

test-ClassI-nonclass.HLAgenotype2digits

test-ClassI-nonclass.HLAgenotype4digits

我們主要關(guān)注后綴為HLAgenotype4digits的結(jié)果文件,可以看到,同時體用了HLA Clas I 和 Class II 兩種類型基因的分型結(jié)果。以HLA I型基因的4位分型結(jié)果為例,文件內(nèi)容如下

#Locus Allele1Confidence Allele2Confidence

A A*02:650.008687167A*02:65NA

B B*39:05'0.3821314B*13:480.09848174

C C*08:02' NA C*08:02NA

對于HlA? I型基因,給出了A, B, C 三個基因的分型結(jié)果,每個基因給出了兩個Allel, 對于每個Allel, 會給出對應(yīng)的打分值。

本文分享自微信公眾號 -?生信修煉手冊(shengxinxiulian),作者:lzyg

原文出處及轉(zhuǎn)載信息見文內(nèi)詳細(xì)說明,如有侵權(quán),請聯(lián)系?yunjia_community@tencent.com?刪除。

原始發(fā)表時間:2018-07-20

本文參與騰訊云自媒體分享計劃,歡迎正在閱讀的你也加入,一起分享。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容