合并矩陣: 輸入:每個(gè)樣本定量結(jié)果,輸出:reads.count矩陣(gene_count.matrix)用于差異分析,標(biāo)準(zhǔn)化后的矩陣(tpm.matrix樣本內(nèi)標(biāo)準(zhǔn)化).再標(biāo)準(zhǔn)化形成TMM(tmm.matrix樣本間標(biāo)準(zhǔn)化)
程序:abundance_estimate_to_matrix.pl
代碼:perl script/abundance_estimates_to_matrix.pl --est_method featureCounts --quant_files genes.quant_files.txt --out_prefix genes
count文件:genes.quant_files.txt存放上一步生成的count文件


差異表達(dá)分析(分組):輸入:reads count矩陣(gene_count.matrix)
軟件:DESeq2 和 edgeR(這兩個(gè)軟件內(nèi)部都能標(biāo)準(zhǔn)化)安裝conda install bioconductor-deseq2 或者BiocManager::install('DESeq2')
樣品表:sample
分組設(shè)計(jì)contrasts:
sample.txt

代碼
perl /pub/anaconda3/opt/trinity-2.1.1/Analysis/DifferentialExpression/run_DE_analysis.pl \ --matrix ../3.Merge_result/genes.counts.matrix \ --method DESeq2 \ --samples_file ../data/samples.txt #\ --contrasts contrasts.txt

組間的差異大于組內(nèi)差異
差異分析基于假設(shè)檢驗(yàn),假設(shè)基于概率模型
去掉文件的第一行sed '1d' file
篩選差異基因sed '1d' genes.counts.matrix.KID_S1_vs_KID_S3.DESeq2.DE_results |awk 'sqrt($5*$5)>1 && $9<0.05{print $1,$5,$9} ' |sort -k 2n
n:number,表示以數(shù)字大小排序
第七天:功能注釋
蛋白功能注釋?zhuān)喝说饶J缴锟梢酝ㄟ^(guò)R包biomart查詢基因的功能
基于相似性和結(jié)構(gòu)域確定蛋白功能
比對(duì)算法:動(dòng)態(tài)規(guī)劃算法,兩條序列滑動(dòng)比對(duì)打分
物種分化是直系同源基因,通過(guò)拷貝增加的是旁系同源
基因家族COG/KOG:NCBI把一個(gè)基因組的基因分成24類(lèi),廣義的基因家族。
輸入文件:蛋白文件
常用流程:
軟件(eggNOG-mapper)