給FASTA文件建立索引的目的是為了更快速的訪問(wèn)序列文件的某一特定的內(nèi)容。比如,可以通過(guò)指定基因組中的具體某個(gè)染色體上的某段位置,來(lái)找到其對(duì)應(yīng)的序列。
實(shí)現(xiàn)方法是通過(guò)samtools工具中的faidx命令來(lái)執(zhí)行。
首先需要對(duì)原始的FASTA文件生成索引文件:
```
samtools faidx <文件名>
```
之后就會(huì)在相應(yīng)的目錄中生成一個(gè)與FASTA同名,并以.fai結(jié)尾的文件,這個(gè)文件即是對(duì)應(yīng)的索引文件。
然后 我們就可以通過(guò)位置進(jìn)行查找了:
```bash
samtools faidx <in.fa> <region>
```
<in.fa>即是FASTA 文件名,<region>的格式是染色體號(hào):其實(shí)堿基位置-結(jié)束堿基位置
如:
```bash
samtools faidx Mus.....8.fa 8:123407082-123410744?
```
即是Mus..8.fa這個(gè)FASTA文件中,找8號(hào)染色體上,123407082到123410744位置之間的堿基序列。
支持同時(shí)寫(xiě)多個(gè)序列<region>同時(shí)查找。