基因組文獻閱讀旨在了解更多物種基因組特征,研究進展,以及了解更多新的分析方法分析思路。這是該系列第一篇文章,閱讀更加詳細一些,了解框架以后后面文章就只讀個大概了。
T?rresen et al. BMC Genomics (2017) 18:95
DOI 10.1186/s12864-016-3448-x
第一版的大西洋鱈魚基因組(gadMor1)于2011年發(fā)表。該基因組組裝基于454測序數(shù)據(jù),并使用Ensemble Project注釋。其基因組大小為832Mbp,其中27%的堿基是gaps,contig N50為2.3kbp,包含17.8%的TEs和5.9%的TRs。
第二版的基因組(gadMor2)組裝基于pacbio,illumina,454,Sanger BAC-end測序數(shù)據(jù)。相較于gadMor1,基因組contigN50長度增加到50倍,gap堿基減少至1/15,顯著提升了基因組的組裝質量。與其他脊椎動物相比,該組裝版本中串聯(lián)重復(tandem repeats ,TRs)密度更高,TRs在基因組中占比21%,其中19%在啟動子區(qū)域,12%在編碼序列區(qū)域。
重復序列分為散在重復序列(interspersed)和串聯(lián)重復序列(tandem repeats, TRs)。散在重復序列包括轉座子原件(transposable elements ,TEs),在基因組中占比555%。TRs是重復單元串聯(lián)兩次以上的序列,在真核基因組中占比0.53%。TRs可分為微隨體(簡單重復或短串聯(lián)重復,microsatellites,STRs,串聯(lián)重復單元為1-9bp),微衛(wèi)星(小衛(wèi)星,minisatellites,10-100 bp)及衛(wèi)星重復(satellite repeats,>100 bp)。TRs通過添加或去除重復單位的方式發(fā)生突變,其突變率比基因組的其余部分高10-10,000倍。
原始數(shù)據(jù):
~40x Roche/454
~0.1x Sanger BAC-ends
~480x Illumina
~19x PacBio
轉錄組組裝:
對不同組織及生長階段的樣本分別進行多個平臺測序,得到3個版本的轉錄本。
| 組裝數(shù)據(jù) | 組裝軟件 | 轉錄本(條) |
|---|---|---|
| Illumina | Trinity | 59,379 |
| 454 | Newbler | 79,025 |
| PacBio | SMRT-Analysis | 62,392 |
基因組組裝:
1. 組裝策略:
| 組裝版本 | 組裝軟件 | 組裝數(shù)據(jù) |
|---|---|---|
| NEWB454 | Newbler | 454;Sanger BAC-end |
| ALPILM | ALLPATHS-LG | Illumina |
| CA454ILM | Celera Assembler | 454;Illumina |
| CA454PB | Celera Assembler | 454 paired reads;Illumina;raw, uncorrected PacBio reads |
2. 補洞及提升組裝質量:
補洞:PBJelly將PacBio reads 比對到組裝版本進行補洞(close gaps)
提升組裝質量:Pilon用454 reads,300bp 和5 kbp插入片段文庫的Illumina reads糾錯
每個組裝版本得到4個處理版本:1)未經(jīng)任何處理的初始組裝版本;2)僅PBJelly處理的版本;3)僅Pilon處理的版本;4)PBJelly,Pilon處理的版本。
3. 組裝版本的驗證及選擇:
使用多種方法為4個組裝版本選擇最佳的處理版本:1)使用REAPR 和FRCbam通過糾錯后paired Illumina reads來評估各個處理版本的錯誤率;2)使用Isoblat檢測轉錄本與各個處理版本的比對情況;3)使用CEGMA,BUSCO評估各個處理版本組裝完整度;4)使用blat_parse.py通過linkage map(包含9355個SNP)與不同處理版本的比較,來評估完整度及長距離的正確性。
ALPILM, NEWB454 and CA454PB選擇由PBJelly,Pilon都處理的組裝版本,CA454ILM選擇僅Pilon處理的組裝版本。
4. 組裝版本合并:
首先在各組裝版本中存在分歧的linkage map位置斷開序列,并去除小于1000bp的序列;使用Mugsy進行多個版本的比對,得到的“alignment graph structure”橫跨CA454ILM(CA454ILM為經(jīng)BUSCO評估含最多基因的原始版本)的組裝路徑作為skeleton(骨架);使用ALPILM和NEWB454原始組裝版本的比對結果得到含最少gap的CA454PB組裝版本作為補充(sequencing contribution assembly);bwa將所有paired reads(Illumina,454和BAC)比對到基因組,使用SGA 的scaffold module合并組裝版本,使得scaffold N50從850Kbp增加到了1.15Mbp;最后Pilon提升組裝堿基準確性及補洞。Scaffold定位及排序:
基于linkage data,Scaffold被定位到linkage groups,之間用100Ns連接。

基因組大小評估:
SGA PreQC基于Illumina reads(150x)評估基因組大?。╧mer1731),評估基因組大小約613 Mbp±11 Mbp;ALLPATHSLG評估基因組大小為651 Mbp。盡管gadMor1有832 Mbp,但是其中有26.9% gaps (224 Mbp in gaps),contigs序列為608 Mbp。
注釋:
使用MAKER2進行基因注釋,丟掉低質量的注釋結果后,還剩23,243個基因。
雜合度:
BWA-MEM將100,300bp 的Illumina paired-end reads比對到gadMor2,并用FreeBayes call snp,得到2,621,997個SNP,計算得出雜合度為4.07 × 10-3;indel rate為0.98 ×10-3;基于PacBio reads,使用blasr和PBHoney call indels,得到70,278 indels(size ≥20 bp), indel rate為0.1 × 10-3 。
重復序列注釋:
結合RepeatModeler,LTRharvest,LTRdigest,TransposonPSI以及來自RepBase已知的真核TE序列創(chuàng)建重復序列庫,該庫masked了31.3%的基因組序列,其中22.9% 是interspersed repeats,8.0%是TRs。
TR:
研究不同測序技術及不同組裝軟件對注釋TR的影響。結果顯示,Celera組裝得出的TRs更多。該組裝版本中dinucleotide TRs是TRs的主要組成部分,占比48.7%;mononucleotide, trinucleotide和Tetranucleotide分別占7.6%, 6.3% ,6.3%。gadMor2與其他基因組(包括gadMor1,California sea hare等)比較,顯示gadMor2的TRs密度大約高出其他脊椎動物的3倍。
雜合TRs:
lobSTR可檢測雜合TRs(同源染色體相同位置的重復長度不同)。lobSTR注釋到980,400 STRs(過濾前1,182,796個),其中47,718個是雜合的。Phobos注釋到640,938個TRs(1-6 bp),lobSTR注釋到的TRs數(shù)目是Phobos結果的2倍。從注釋結果TRs的長度分布上看,兩者差異較大,即lobSTR鑒定相對較短的STRs,而Phobos注釋相對較長的STRs。采用另一種注釋方法,使用lobSTR和FreeBayes(使用Illumina reads)或PBHoney(使用PacBio reads)的交集,最終640,938 STRs (1-6 bp unit size)中檢測到145,435 indels;使用Phobos和FreeBayes(使用Illumina reads)或PBHoney(使用PacBio reads)的交集,最終876,691 TRs(1-50 bp unit size)中檢測到183,898 indels。表明五分之一的TRs是雜合的。