作者:biofan
審稿:童蒙
編輯:amethyst
繼一文看懂病原微生物檢測(cè)(上篇)介紹了樣本采集、實(shí)驗(yàn)建庫及測(cè)序的相關(guān)內(nèi)容,這篇讓小編帶領(lǐng)大家了解一下病原微生物檢測(cè)的信息分析流程。
信息分析流程
一般而言,mNGS的成功除了嚴(yán)格的實(shí)驗(yàn)條件之外呢,還需要嚴(yán)格的信息分析的流程?;静襟E如下:
1.數(shù)據(jù)質(zhì)控
2.去除人基因組
3.與數(shù)據(jù)庫比對(duì),鑒定病原微生物
4.生成報(bào)告
01 數(shù)據(jù)質(zhì)控
數(shù)據(jù)質(zhì)控主要包括去除低質(zhì)量的reads,去除adapter等等,可以用fastp(https://github.com/opengene/fastp)來快速實(shí)現(xiàn)數(shù)據(jù)質(zhì)控。
02 去除人源污染
由于測(cè)序數(shù)據(jù)中,人源背景占據(jù)90% 以上,為了排除人源序列的干擾,所以一般質(zhì)控之后必須去除人的基因組(如IDseq用多種比對(duì)方式去除人的基因組)。
而不同的軟件去除人的基因組的比例也有所不同,比如IDseq統(tǒng)計(jì)結(jié)果(如下圖)。
03 鑒定病原微生物
構(gòu)建病原數(shù)據(jù)庫
鑒定病原微生物的核心是要構(gòu)建病原微生物的庫。一般而言,數(shù)據(jù)庫往往從NCBI進(jìn)行下載并加以整理。
- NR/NT數(shù)據(jù)庫
NR(Non-Redundant Protein Sequence Database)是非冗余蛋白庫,包含所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,對(duì)于所有已知的或可能的編碼序列,NR記錄中都給出了相應(yīng)的氨基酸序列(通過已知或可能的讀碼框推斷而來)以及專門蛋白數(shù)據(jù)庫中的序列號(hào)。NR庫相當(dāng)于一個(gè)以核酸序列為基礎(chǔ)的交叉索引,將核酸數(shù)據(jù)和蛋白數(shù)據(jù)聯(lián)系起來。
NT(Nucleotide Sequence Database)是核酸序列數(shù)據(jù)庫,是NR庫的子集,NT,NR 數(shù)據(jù)庫可通過ftp://ftp.ncbi.nih.gov/blast/db/FASTA/ 這個(gè)鏈接進(jìn)行下載整理。
- RefSeq數(shù)據(jù)庫
RefSeq數(shù)據(jù)庫是參考序列數(shù)據(jù)庫,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences),是具有生物意義上的非冗余基因、轉(zhuǎn)錄本和蛋白質(zhì)序列,是經(jīng)過NCBI和其他組織校正的數(shù)據(jù)庫。RefSeq數(shù)據(jù)庫可通過ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ 這個(gè)鏈接進(jìn)行下載整理。
- Taxonomy物種庫
Taxonomy是NCBI的分類數(shù)據(jù)庫,包括大約7萬余個(gè)物種的名字和種系,這些物種至少在遺傳數(shù)據(jù)庫中有一條核酸或蛋白序列。其目的是為序列數(shù)據(jù)庫建立一個(gè)一致的種系發(fā)生分類學(xué),可從https://ftp.ncbi.nih.gov/pub/taxonomy/ 這個(gè)鏈接進(jìn)行下載整理。
而關(guān)于taxdump文件夾里有相應(yīng)的readme,對(duì)每個(gè)文件進(jìn)行了細(xì)致的描述。此外網(wǎng)上一篇文章也進(jìn)行了詳細(xì)闡述https://blog.csdn.net/u011262253/article/details/95304930 。
如果是自己動(dòng)手搭建流程的話,就可以根據(jù)不同的比對(duì)軟件,構(gòu)建相應(yīng)的索引啦。
微生物鑒定分析軟件
目前包含建庫、質(zhì)控、比對(duì)以及出具報(bào)告的比較全面軟件有OneCodex,Sunbeam,SUPRI 和IDSeq。OneCodex,Sunbeam是需要付費(fèi)。非流程性的快速檢測(cè)的軟件包括kraken,pathseq,kaiju等等。
我們選擇其中幾個(gè),介紹一下。
SURPI
SURPI提供比較老2014年的代碼,在Github開源(https://github.com/chiulab/SURPI-plus-dist),但建議大家不要嘗試,因?yàn)楫?dāng)你費(fèi)勁千辛萬苦裝完了一系列的的依賴,安裝完相應(yīng)的庫后,你會(huì)發(fā)現(xiàn)流程可執(zhí)行性很差,以過來人的身份建議還是莫要輕易嘗試,很容易竹籃打水一場(chǎng)空,而SURPI最新版本需要付費(fèi)訂閱。
IDSeq
IDseq流程目前屬于開源的狀態(tài)??梢酝ㄟ^Github 進(jìn)行下載。
IDSeq提供的資源有:
- idseq-web - Frontend portal
- idseq-workflows - Bioinformatics workflows
- idseq-cli - Command line upload interface
- idseq-bench - Pipeline benchmarking tools (here)
其參考數(shù)據(jù)庫需要從從Amazon S3下載(https://github.com/chanzuckerberg/idseq-workflows/wiki/Running-WDL-workflows-locally)。
Kraken
kraken軟件在不斷更新,2014年發(fā)布kraken1,2018年發(fā)布krakenUniq以及2019年發(fā)表了kraken2。kraken是一款速度比較快,準(zhǔn)確度較高,安裝極為方便的軟件。kraken2可從Github 下載安裝 (https://github.com/DerrickWood/kraken2)。
Kraken2軟件安裝即為簡(jiǎn)單,只需如下命令:
sh install_kraken2.sh ${install_path}
Kraken2構(gòu)建數(shù)據(jù)庫也很方便,根據(jù)不同參數(shù)利用kraken2-build即可完成數(shù)據(jù)庫下載和建立索引工作(例如以下命令):
kraken2-build --standard --db $DBNAME
kraken2-build --build --db $DBNAME
kraken檢測(cè)病原體可以輸入fasta或fastq文件。
kraken2 --db $DBNAME seqs.fa
kraken2 --paired --classified-out cseqs#.fq seqs_1.fq seqs_2.fq
最后輸出樣本的物種注釋信息(如下):
C @SRR1106119.1.1 1 2697049 29903 2697049:15
結(jié)果共5列:
第一列 "C"/"U":是序列的分類(C:分類;U:未分類);第二列是reads的ID號(hào);第三列是taxonomy ID;第四列和第五列分別是測(cè)序reads長度以及kmer的LCA映射。
04 報(bào)告生成
檢測(cè)報(bào)告一般需要涵蓋病毒、細(xì)菌、真菌以及寄生蟲檢出序列條數(shù),以及覆蓋度等信息。
如果mNGS 檢測(cè)報(bào)告中提示某種 / 某些微生物檢出序列數(shù)較高、基因組覆蓋度高,表示檢測(cè)到該病原微生物 ; 在排除背景菌、污染菌和定植菌的情況下,可以考慮該微生物是致病病原體,可以結(jié)合患者的臨床特征、當(dāng)?shù)丶?xì)菌耐藥的流行病學(xué)協(xié)助指導(dǎo)抗菌藥物的選擇。
結(jié)語
以上便是對(duì)病原微生物的簡(jiǎn)單介紹,希望大家能從背景、臨床實(shí)驗(yàn)以及信息分析流程對(duì)病原微生物檢測(cè)有一定的了解。后續(xù)我們會(huì)持續(xù)介紹的,請(qǐng)大家多多關(guān)注。
參考文獻(xiàn)
- IDseq—An open source cloud-based pipeline and analysis service for metagenomic pathogen detection and monitoring
- A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples
- Improved metagenomic analysis with Kraken 2
- 宏基因組分析和診斷技術(shù)在急危重癥感染應(yīng)用的專家共識(shí)