【202301】
Q:write a genome assembly and annotation pipeline for each step with bioinformatic tool references
A:基因組組裝與注釋流程如下:
- 原始數(shù)據(jù)處理:
- 長度過濾:使用Trimmomatic(http://www.usadellab.org/cms/?page=trimmomatic)對長度過短的讀長進(jìn)行過濾。
- 去重:使用FASTX-Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/)對重復(fù)的讀長進(jìn)行去重。
- 合并:使用PEAR(https://sco.h-its.org/exelixis/web/software/pear/)將同一樣品的讀長進(jìn)行合并。
- 基因組組裝:
- De novo組裝:使用SPAdes(http://cab.spbu.ru/software/spades/)或ABySS(https://www.bcgsc.ca/platform/bioinfo/software/abyss)對原始數(shù)據(jù)進(jìn)行De novo組裝。
- 參考比對:使用BWA(http://bio-bwa.sourceforge.net/)或Bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)將組裝結(jié)果與參考基因組進(jìn)行比對。
- 基因預(yù)測:
- 基因預(yù)測:使用AUGUSTUS(http://bioinf.uni-greifswald.de/augustus/)或SNAP(http://snap.cs.berkeley.edu/)對比對結(jié)果進(jìn)行基因預(yù)測。
- 基因注釋:
- 序列比對:使用DIAMOND(https://github.com/bbuchfink/diamond)或BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)將預(yù)測出的基因序列與已知數(shù)據(jù)庫(如UniProt,NCBI NR等)進(jìn)行比對。
- 功能分配:使用InterProScan(https://www.ebi.ac.uk