全基因組復制
- 全基因組復制事件是物種的染色體由于某種原因整體復制加倍的事件;
- 大多數(shù)被子植物都經(jīng)歷過多倍化事件;
- 物種在自然選擇壓力較大的時候可能會發(fā)生全基因組復制來豐富自己的DNA原件,如基因、轉(zhuǎn)座子;
- 全基因組復制之后,小部分有利于物種進化的基因被保留,而大多數(shù)冗余的基因會消失或變成假基因。
WGD鑒定方法
? intragenome duplication :通過嚴格的比對標準和統(tǒng)計驗證將基因組序列與自身進行比對。
– Ks 同義替換率
– 4DTv (4 fold Degenerate Transversion) ,四重簡并位點顛換率
? double synteny :直接比較不同物種基因組間的線性關(guān)系。
理論上,兩對由復制產(chǎn)生的基因應該有同樣的“年齡”,也就是說由于多倍化產(chǎn)生的復制gene pair間序列的分歧應該是一致的。Ks 常用來作為分子鐘計算來計算分化或者復制時間,因此Ks分布產(chǎn)生的峰值常用來表示復制(物內(nèi)分析)或者分化(種間分析)

使用 wgd 軟件進行分析
wgd 軟件網(wǎng)址:https://github.com/arzwa/wgd
物種內(nèi) Ks 值計算
數(shù)據(jù)準備:物種的cds(1.cds.fasta)
# diamond 比對 并進行MCL聚類
wgd dmd -e 1e-10 --nostrictcds -o output.dmd 1.cds.fasta
# 計算Ks值
wgd ksd --n_threads 10 -mp 500 -o output1.ksd output1.dmd/1.cds.fasta.mcl 1.cds.fasta
# 共線性分析,提取共線性基因?qū)s值
wgd syn -o output1.syn -ks output1.ksd/1.cds.fasta.ks.tsv -f mRNA -a ID 1.gff output1.dmd/1.cds.fasta.mcl
# 基于mcscanx結(jié)果,提取共線性基因?qū)s值
perl ks_mcscanx.pl output1.ksd/1.cds.fasta.ks.tsv 1.collinearity > 1.syn.ks.tsv

物種間 Ks 值計算
數(shù)據(jù)準備:兩個物種的cds序列(1.cds.fasta、2.cds.fasta)
# diamond 比對和提取直系同源基因
wgd dmd --nostrictcds -e 1e-10 -o output2.dmd 1.cds.fasta 2.cds.fasta
# 計算Ks值
wgd ksd --n_threads 10 -o output2.ksd output2.dmd/i1.cds.fasta_2.cds.fasta.rbh 1.cds.fasta2.cds.fasta

Ks 繪圖
ks1=output1.ksd/1.cds.fasta.ks.tsv
ks2=output12.ksd/1.cds.fasta_2.cds.fasta.ks.tsv
ks3=1.syn.ks.tsv
# 每組數(shù)據(jù)過濾小于0.0005Ks值,并加標簽
awk -F "\t" 'NR>1 && $9 >= 0.0005 {print $1"\t"$9"\t1"}' $ks1 | sort -u > 1.ks
awk -F "\t" 'NR>1 && $9 >= 0.0005 {print $1"\t"$9"\t1_2"}' $ks2 | sort -u > 1_2.ks
awk -F "\t" 'NR>1 && $9 >= 0.0005 {print $1"\t"$9"\t1_syn"}' $ks3 | sort -u > 1.syn.ks
# 合并Ks數(shù)據(jù)
cat 1.ks 1_2.ks 1.syn.ks |sed '1s/?/pair\tKs\tspc\n/' > all.ks
# 繪制Ks分布圖
Rscript ks.R all.ks WGD
