基本概念
相似性(similarity)
- 一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其他一些合適的度量
- 如:A序列和B序列的相似性是80%
同源性(homology)
- 從一些數(shù)據(jù)中推斷出的兩個(gè)基因或者蛋白序列具有共同祖先的結(jié)論,屬于質(zhì)的判斷
- 可以說(shuō)A序列和B序列是同源序列,但不能說(shuō)同源性80%
常用工具
- BLAST
- BLAT
BLAST(Basic Local Alignment Search Tool,局部相似性基本查詢工具)
BLAST(Basic Local Alignment Search Tool)是一套在蛋白質(zhì)數(shù)據(jù)庫(kù)或DNA數(shù)據(jù)庫(kù)中進(jìn)行相似性比較的分析工具。BLAST程序能迅速與公開(kāi)數(shù)據(jù)庫(kù)進(jìn)行相似性序列比較。BLAST結(jié)果中的得分是對(duì)一種對(duì)相似性的統(tǒng)計(jì)說(shuō)明。
資源
- 網(wǎng)絡(luò)版:https://blast.ncbi.nlm.nih.gov/Blast.cgi
- 單機(jī)版:https://ftp.ncbi.nlm.nih.gov/blast/
網(wǎng)絡(luò)版BLAST
- Nucleotide BLAST:核酸與核酸比對(duì)
- Protein BLAST:蛋白質(zhì)與蛋白質(zhì)比對(duì)
- blastx:核酸與蛋白質(zhì)比對(duì)
- tblastn:蛋白質(zhì)與核酸比對(duì)
- BLAST Genomes:把序列對(duì)應(yīng)到基因組上去

網(wǎng)絡(luò)版BLAST
Nucleotide BLAST(blastn)
- Enter Query Sequence:提交序列的窗口
- Choose Search Set:BLAST參數(shù)選擇
- Database:通常選擇nr數(shù)據(jù)庫(kù)(最全面)

BLAST查詢界面
完成設(shè)置之后點(diǎn)擊BLAST即可進(jìn)行BLAST分析
Protein BLAST(blastp)
- Enter Query Sequence:提交序列的窗口
- Choose Search Set:BLAST參數(shù)選擇
- Database:通常選擇nr數(shù)據(jù)庫(kù)(最全面)
- Program Selection:通常選擇blastp
BLAT(The BLAST-Like Alignment Tool)
- 速度快(直接把數(shù)據(jù)庫(kù)索引讀入內(nèi)存,無(wú)需訪問(wèn)硬盤)
- 對(duì)于比較小的序列和大基因組的比對(duì),BLAT是首選
資源
- 網(wǎng)絡(luò)版:http://genome.ucsc.edu/cgi-bin/hgBlat
操作方法
- Genome:選擇物種,比如人
- Assembly:版本號(hào)
- Query type:用于查詢的序列類型(DNA/蛋白質(zhì))
- Sort output:結(jié)果排序方式
- Output type:輸出格式
- hyperlink:指向結(jié)果的超鏈接,便于可視化
- psl:制表符分隔的表格,便于數(shù)據(jù)處理
查詢結(jié)果(hyperlink)
| ACTIONS | QUERY | SCORE | START | END | QSIZE | IDENTITY | CHROM | STRAND | START | END | SPAN | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| browser | details | CRP_HUMAN | 671 | 1 | 224 | 224 | 100.0% | chr1 | +- | 159713528 | 159714485 | 958 |
| browser | details | CRP_HUMAN | 105 | 119 | 183 | 224 | 77.0% | chr1 | +- | 159705131 | 159705325 | 195 |
| browser | details | CRP_HUMAN | 54 | 117 | 188 | 224 | 62.5% | chr1 | ++ | 159276797 | 159277012 | 216 |
詳情
點(diǎn)擊Browser可以進(jìn)入詳情界面

BLAT分析結(jié)果
查詢結(jié)果(psl)
| match | mismatch | rep. match | N's | Q gap count | Q gap bases | T gap count | T gap bases | strand | Q name | Q size | Q start | Q end | T name | T size | T start | T end | block count | blockSizes | qStarts | tStarts |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 224 | 0 | 0 | 0 | 0 | 0 | 1 | 286 | +- | CRP_HUMAN | 224 | 0 | 224 | chr1 | 248956422 | 159713527 | 159714485 | 2 | 19,205, | 0,19, | 89241937,89242280, |
| 50 | 15 | 0 | 0 | 0 | 0 | 0 | 0 | +- | CRP_HUMAN | 224 | 118 | 183 | chr1 | 248956422 | 159705130 | 159705325 | 1 | 65, | 118, | 89251097, |
| 45 | 27 | 0 | 0 | 0 | 0 | 0 | 0 | ++ | CRP_HUMAN | 224 | 116 | 188 | chr1 | 248956422 | 159276796 | 159277012 | 1 | 72, | 116, | 159276796, |