聲明：本文部分內(nèi)容和部分圖片來源于網(wǎng)絡(luò)。本文為生信小白學(xué)習(xí)筆記，不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威。? ? ? ?

? ? ? ?下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理，序列回帖到數(shù)據(jù)可視化的工作流程，包含了較多的軟件（Linux環(huán)境運(yùn)行）和若干個包（R語言環(huán)境運(yùn)行），本系列將按下圖，對每一個步驟進(jìn)行學(xué)習(xí)和理解。

某RNAseq分析流程

HISAT2

簡介

? ? ? ?HISAT2是將下一代測序讀段結(jié)果基于圖比對到一組基因組（graph-based alignment of next generation sequencing reads to a population of genomes）。

? ? ? ?HISAT2是一種快速而靈敏的比對程序，可用于將下一代測序數(shù)據(jù)（包括DNA和RNA）比對到人類基因組和單個參考基因組上?；趫D的BWT擴(kuò)展，創(chuàng)造性地設(shè)計并完成了一個圖FM索引（GFM）。除了使用一個代表全人類基因組的全球GFM索引，HISAT2使用大量小的GFM索引，這些索引共同覆蓋了全基因組。這些小的索引（也被稱為局部索引），與集中比對方式結(jié)合在一起，能夠?qū)崿F(xiàn)快速和準(zhǔn)確的序列比對。這個新的索引方案被稱為層次圖片F(xiàn)M索引（HGFM）。

HISAT2工作原理

1. HISAT2應(yīng)用了基于bowtie2的方法處理很多低水平的用于構(gòu)建和查詢FM索引的操作。（*）

2. 與其他比對器相比，HISAT2應(yīng)用了兩類不同的索引類型，代表全基因組的全局FM索引和大量的局部小索引，每個索引代表64000bp。

3. 以人類基因組為例，創(chuàng)建了48000個局部索引，每一個覆蓋1024bp，最終可以覆蓋這個3 billion堿基的基因組。這種存在交叉（overlap）的邊界可以輕松的比對那些跨區(qū)域的read（可變剪切體）。

4. 盡管有很多索引，但是HISAT2可以把他們使用合適的方式進(jìn)行壓縮，最終只占4GB左右的內(nèi)存。

模式

報告模式

? ? ? ?報告模式管理HISAT2尋找多少個比對以及如何報告它們。

通常，當(dāng)我們說一個讀段有一個比對，是指它有一個有效比對。當(dāng)我們說一個讀段有多個比對時，是指它有多個有效且彼此不同的比對方式。

? ? ? ?默認(rèn)情況下，HISAT2會對5‘和3’端進(jìn)行溫和地剪切。

比對總結(jié)

當(dāng)HISAT2完成運(yùn)行，會輸出運(yùn)行結(jié)果。這些信息將輸入到‘標(biāo)準(zhǔn)錯誤’（stderr）文件中。對包含未匹配讀段地數(shù)據(jù)文件，HISAT2總結(jié)可能如下所示：

針對包含已匹配讀段的數(shù)據(jù)文件，HISAT2總結(jié)如下所示：

Alignment rate越高表示HISAT2對該文件比對成功率越高。

索引大小

hisat2-build能夠索引任何尺寸的參考基因組。對小于40億個核苷酸長度的基因組，hisat2-build使用32位數(shù)字在索引的不同位置建立一個‘小’索引。當(dāng)基因組更長，hisat2-build能夠使用64位數(shù)字建立較大的索引。小索引保存在.ht2文件中，而大索引會保存在.ht21文件中。使用者無需擔(dān)心特定的索引的尺寸，HISAT2中的包裝腳本將自動生成并使用合適的索引。

性能調(diào)試

如果運(yùn)行的電腦有多線程或多核，可以使用 -p

-p選項可以使HISAT2啟動一定數(shù)量的并行搜索線程。每一個線程運(yùn)行在一個不同的中央處理器或核中，而所有的線程并行地查找比對，將比對量提高了大概并行線程的倍數(shù)（雖然在現(xiàn)實中，加速有時比線性較差）。

HISAT2使用

主要參數(shù)

??hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]

1.? -x?<hisat2-idx>

參考基因組索引的名字。該名稱是任何索引文件的名稱。HISAT2會首先尋找在現(xiàn)有文件中特定的索引，然后再在HISAT2_INDEXES指定地環(huán)境變量的目錄中搜索。

2.? -1 <m1>

逗號分隔的文件列表包括了雙端測序的文件1，例如，-1 flyA_1.fq,flyB_1.fq。使用此命令指定的文件-文件的順序必須與<m2>讀取-讀取的順序相一致。

3.? -2 <m2>

逗號分隔的文件列表包括了雙端測序的文件2，例如，-2 flyA_2.fq,flyB_2.fq。對文件順序的要求同上。

4.? -U <r>

逗號分隔的文件列表包含待比對的未成功匹配（unpaired）讀段，例如，lane1.fq,lane2.fq,lane3.fq,lane4.fq

5.?--sra-acc <SRA accession number>

逗號分隔的SRA登錄號文件列表，例如，--sra-acc SRR353653,SRR353654

6. -s <hit>

寫入SAM比對結(jié)果的文件。

選項

輸入選項

比對選項

計分選項

拼接對齊選項

報告選項

雙端測序選項

輸出選項

SAM選項

性能選項

其他選項

具體選項見鏈接。

HISAT2比對操作

HISAT2提供了一些示例文件，這些示例文件的結(jié)果并不具有科學(xué)意義，這些文件只供運(yùn)行HISAT2和相應(yīng)的下游分析。

首先是獲取和安裝HISAT2，并設(shè)置相應(yīng)的環(huán)境變量到包含hisat2, hisat2-build和hisat2-inspect的HISAT2目錄中。

比對實例讀段

從HISAT2網(wǎng)站獲取待分析物種參考基因組，下一步將待分析讀段比對到參考基因組上。命令如下：

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -U $HISAT2_HOME/example/reads/reads_1.fa -S eg1.sam

本例使用的是使用hisat2-build構(gòu)建的索引文件（22_20-21M_snp）。這行命令將一組未配對的讀段數(shù)據(jù)比對到索引上。比對結(jié)果被寫入進(jìn)eg1.sam文件中，同時，一段簡短的比對總結(jié)被寫入進(jìn)console。

可使用下列語句查看SAM文件的前幾行。

head eg1.sam

可能會得到下圖類似的結(jié)果。

上圖前幾行（以@開始）是SAM文件表頭行，其他行是SAM比對結(jié)果，每讀段或每對讀段一行。

雙端測序比對

為了使用HISAT2比對雙端測序數(shù)據(jù)，首先，需要需要進(jìn)入相同更多目錄然后運(yùn)行以下命令：

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -1 $HISAT2_HOME/example/reads/reads_1.fa -2 $HISAT2_HOME/example/reads/reads_2.fa -S eg2.sam

SAMtools轉(zhuǎn)換文件格式

SAMtools是管理和分析SAM和BAM比對文件的一組工具，提供了一個可以方便轉(zhuǎn)換SAM和BAM文件格式。在HISAT2軟件進(jìn)行序列比對后，可用SAMtools將SAM文件轉(zhuǎn)換為BAM文件，命令如下：

samtools view -bS eg2.sam > eg2.bam

同時，SAMtools也可以轉(zhuǎn)換為BAM文件的同時進(jìn)行排序（版本需要1.2或更高）。命令如下：

samtools sort eg2.bam -o eg2.sorted.bam

對BAM進(jìn)行排序時非常有用的，因為比對通常是壓縮的，這對于長期存儲是很方便的，同時，排序的BAM文件也有助于突變的發(fā)現(xiàn)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

生信分析學(xué)習(xí)筆記 - RNAseq （五） HISAT2回帖及評估

生信分析學(xué)習(xí)筆記 - RNAseq （五） HISAT2回帖及評估

HISAT2

簡介

HISAT2工作原理

模式