2020-03-17

合并矩陣: 輸入:每個(gè)樣本定量結(jié)果,輸出:reads.count矩陣(gene_count.matrix)用于差異分析,標(biāo)準(zhǔn)化后的矩陣(tpm.matrix樣本內(nèi)標(biāo)準(zhǔn)化).再標(biāo)準(zhǔn)化形成TMM(tmm.matrix樣本間標(biāo)準(zhǔn)化)
程序:abundance_estimate_to_matrix.pl
代碼:perl script/abundance_estimates_to_matrix.pl --est_method featureCounts --quant_files genes.quant_files.txt --out_prefix genes
count文件:genes.quant_files.txt存放上一步生成的count文件

genes.quant_files.txt

contrasts.txt

差異表達(dá)分析(分組):輸入:reads count矩陣(gene_count.matrix)
軟件:DESeq2 和 edgeR(這兩個(gè)軟件內(nèi)部都能標(biāo)準(zhǔn)化)安裝conda install bioconductor-deseq2 或者BiocManager::install('DESeq2')
樣品表:sample
分組設(shè)計(jì)contrasts:
sample.txt

sample.txt

代碼
perl /pub/anaconda3/opt/trinity-2.1.1/Analysis/DifferentialExpression/run_DE_analysis.pl \ --matrix ../3.Merge_result/genes.counts.matrix \ --method DESeq2 \ --samples_file ../data/samples.txt #\ --contrasts contrasts.txt

run_DE_analysis.pl

組間的差異大于組內(nèi)差異
差異分析基于假設(shè)檢驗(yàn),假設(shè)基于概率模型

去掉文件的第一行sed '1d' file

篩選差異基因sed '1d' genes.counts.matrix.KID_S1_vs_KID_S3.DESeq2.DE_results |awk 'sqrt($5*$5)>1 && $9<0.05{print $1,$5,$9} ' |sort -k 2n
n:number,表示以數(shù)字大小排序

第七天:功能注釋

蛋白功能注釋?zhuān)喝说饶J缴锟梢酝ㄟ^(guò)R包biomart查詢基因的功能
基于相似性和結(jié)構(gòu)域確定蛋白功能
比對(duì)算法:動(dòng)態(tài)規(guī)劃算法,兩條序列滑動(dòng)比對(duì)打分

物種分化是直系同源基因,通過(guò)拷貝增加的是旁系同源
基因家族COG/KOG:NCBI把一個(gè)基因組的基因分成24類(lèi),廣義的基因家族。
輸入文件:蛋白文件
常用流程:
軟件(eggNOG-mapper)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容