一文看懂病原微生物檢測(cè)(下篇)

作者:biofan
審稿:童蒙
編輯:amethyst

一文看懂病原微生物檢測(cè)(上篇)介紹了樣本采集、實(shí)驗(yàn)建庫及測(cè)序的相關(guān)內(nèi)容,這篇讓小編帶領(lǐng)大家了解一下病原微生物檢測(cè)的信息分析流程。

信息分析流程

一般而言,mNGS的成功除了嚴(yán)格的實(shí)驗(yàn)條件之外呢,還需要嚴(yán)格的信息分析的流程?;静襟E如下:
1.數(shù)據(jù)質(zhì)控
2.去除人基因組
3.與數(shù)據(jù)庫比對(duì),鑒定病原微生物
4.生成報(bào)告

01 數(shù)據(jù)質(zhì)控

數(shù)據(jù)質(zhì)控主要包括去除低質(zhì)量的reads,去除adapter等等,可以用fastp(https://github.com/opengene/fastp)來快速實(shí)現(xiàn)數(shù)據(jù)質(zhì)控。

02 去除人源污染

由于測(cè)序數(shù)據(jù)中,人源背景占據(jù)90% 以上,為了排除人源序列的干擾,所以一般質(zhì)控之后必須去除人的基因組(如IDseq用多種比對(duì)方式去除人的基因組)。

而不同的軟件去除人的基因組的比例也有所不同,比如IDseq統(tǒng)計(jì)結(jié)果(如下圖)。

03 鑒定病原微生物

構(gòu)建病原數(shù)據(jù)庫
鑒定病原微生物的核心是要構(gòu)建病原微生物的庫。一般而言,數(shù)據(jù)庫往往從NCBI進(jìn)行下載并加以整理。

  • NR/NT數(shù)據(jù)庫

NR(Non-Redundant Protein Sequence Database)是非冗余蛋白庫,包含所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,對(duì)于所有已知的或可能的編碼序列,NR記錄中都給出了相應(yīng)的氨基酸序列(通過已知或可能的讀碼框推斷而來)以及專門蛋白數(shù)據(jù)庫中的序列號(hào)。NR庫相當(dāng)于一個(gè)以核酸序列為基礎(chǔ)的交叉索引,將核酸數(shù)據(jù)和蛋白數(shù)據(jù)聯(lián)系起來。

NT(Nucleotide Sequence Database)是核酸序列數(shù)據(jù)庫,是NR庫的子集,NT,NR 數(shù)據(jù)庫可通過ftp://ftp.ncbi.nih.gov/blast/db/FASTA/ 這個(gè)鏈接進(jìn)行下載整理。

  • RefSeq數(shù)據(jù)庫

RefSeq數(shù)據(jù)庫是參考序列數(shù)據(jù)庫,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences),是具有生物意義上的非冗余基因、轉(zhuǎn)錄本和蛋白質(zhì)序列,是經(jīng)過NCBI和其他組織校正的數(shù)據(jù)庫。RefSeq數(shù)據(jù)庫可通過ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ 這個(gè)鏈接進(jìn)行下載整理。

  • Taxonomy物種庫

Taxonomy是NCBI的分類數(shù)據(jù)庫,包括大約7萬余個(gè)物種的名字和種系,這些物種至少在遺傳數(shù)據(jù)庫中有一條核酸或蛋白序列。其目的是為序列數(shù)據(jù)庫建立一個(gè)一致的種系發(fā)生分類學(xué),可從https://ftp.ncbi.nih.gov/pub/taxonomy/ 這個(gè)鏈接進(jìn)行下載整理。

而關(guān)于taxdump文件夾里有相應(yīng)的readme,對(duì)每個(gè)文件進(jìn)行了細(xì)致的描述。此外網(wǎng)上一篇文章也進(jìn)行了詳細(xì)闡述https://blog.csdn.net/u011262253/article/details/95304930 。

如果是自己動(dòng)手搭建流程的話,就可以根據(jù)不同的比對(duì)軟件,構(gòu)建相應(yīng)的索引啦。

微生物鑒定分析軟件
目前包含建庫、質(zhì)控、比對(duì)以及出具報(bào)告的比較全面軟件有OneCodex,Sunbeam,SUPRI 和IDSeq。OneCodex,Sunbeam是需要付費(fèi)。非流程性的快速檢測(cè)的軟件包括kraken,pathseq,kaiju等等。

我們選擇其中幾個(gè),介紹一下。
SURPI
SURPI提供比較老2014年的代碼,在Github開源(https://github.com/chiulab/SURPI-plus-dist),但建議大家不要嘗試,因?yàn)楫?dāng)你費(fèi)勁千辛萬苦裝完了一系列的的依賴,安裝完相應(yīng)的庫后,你會(huì)發(fā)現(xiàn)流程可執(zhí)行性很差,以過來人的身份建議還是莫要輕易嘗試,很容易竹籃打水一場(chǎng)空,而SURPI最新版本需要付費(fèi)訂閱。


IDSeq
IDseq流程目前屬于開源的狀態(tài)??梢酝ㄟ^Github 進(jìn)行下載。
IDSeq提供的資源有:

Kraken
kraken軟件在不斷更新,2014年發(fā)布kraken1,2018年發(fā)布krakenUniq以及2019年發(fā)表了kraken2。kraken是一款速度比較快,準(zhǔn)確度較高,安裝極為方便的軟件。kraken2可從Github 下載安裝 (https://github.com/DerrickWood/kraken2)。

Kraken2軟件安裝即為簡(jiǎn)單,只需如下命令:

sh install_kraken2.sh ${install_path}
Kraken2構(gòu)建數(shù)據(jù)庫也很方便,根據(jù)不同參數(shù)利用kraken2-build即可完成數(shù)據(jù)庫下載和建立索引工作(例如以下命令):
kraken2-build --standard --db $DBNAME
kraken2-build --build --db $DBNAME

kraken檢測(cè)病原體可以輸入fasta或fastq文件。
kraken2 --db $DBNAME seqs.fa
kraken2 --paired --classified-out cseqs#.fq seqs_1.fq seqs_2.fq

最后輸出樣本的物種注釋信息(如下):
C @SRR1106119.1.1 1 2697049 29903 2697049:15

結(jié)果共5列:
第一列 "C"/"U":是序列的分類(C:分類;U:未分類);第二列是reads的ID號(hào);第三列是taxonomy ID;第四列和第五列分別是測(cè)序reads長度以及kmer的LCA映射。

04 報(bào)告生成

檢測(cè)報(bào)告一般需要涵蓋病毒、細(xì)菌、真菌以及寄生蟲檢出序列條數(shù),以及覆蓋度等信息。

如果mNGS 檢測(cè)報(bào)告中提示某種 / 某些微生物檢出序列數(shù)較高、基因組覆蓋度高,表示檢測(cè)到該病原微生物 ; 在排除背景菌、污染菌和定植菌的情況下,可以考慮該微生物是致病病原體,可以結(jié)合患者的臨床特征、當(dāng)?shù)丶?xì)菌耐藥的流行病學(xué)協(xié)助指導(dǎo)抗菌藥物的選擇。

結(jié)語

以上便是對(duì)病原微生物的簡(jiǎn)單介紹,希望大家能從背景、臨床實(shí)驗(yàn)以及信息分析流程對(duì)病原微生物檢測(cè)有一定的了解。后續(xù)我們會(huì)持續(xù)介紹的,請(qǐng)大家多多關(guān)注。

參考文獻(xiàn)

  1. IDseq—An open source cloud-based pipeline and analysis service for metagenomic pathogen detection and monitoring
  2. A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples
  3. Improved metagenomic analysis with Kraken 2
  4. 宏基因組分析和診斷技術(shù)在急危重癥感染應(yīng)用的專家共識(shí)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容