2018-09-03

第一天 數(shù)據(jù)下載
https://sra-explorer.info/?

SRA Explorer

流程:全部選中--add to collection--saved datasets--Aspera commands for downloading FastQ files

第二天 數(shù)據(jù)過濾
安裝conda
流程:下載minconda--配置倉庫(condarc)--安裝軟件
htop F5顯示進程
下載fastp
替換”rename 's///' *.gz“
打印文件名ls *.gz >test
打印文件中第一列 awk '{print 1}' +file 生成樣品表sample 批量化命令awk '{print “fastp -i ”1 -o “clean/"1 "-h"1".html -j"$1".json &" }' +file >run_fastp.sh

第三天 參考基因組下載
Ensemble下載基因組序列,注釋文件,蛋白序列
基因組序列:下載primary_assembly
toplevel里面包含搞不明白的DNA序列,不考慮
下載的數(shù)據(jù),解壓 cat *.fa>genome.fa

注釋文件:chr.gtf全部定位到基因組了
abinitio從頭注釋,軟件預測,不靠譜
將gff轉變?yōu)間tf代碼:gffread -T -o file.gtf file.gff3
蛋白文件:awk '{print 1}' file 打印第一列 分隔符改為-: awk -F '-' '{print1}' file
第三列中基因的個數(shù) awk '$3=="gene"' file |wc -l

第四天

軟件包FastX-toolkit用于裁斷基因每行的個數(shù),80個,長度轉化
conda install fastx-toolkit
一行70個字符:fasta_formatter -i genome.fa -o genome_formater.fa -w 70

分析思路:
比對到基因組: Hisat2,STAR
比對到轉錄組; Bowties

飽和性曲線Saturation curve
6G:堿基數(shù)目 對于大多數(shù)動植物樣本,推薦20M reads X (150+150)=6000M

表達定量Quantification
subread --featureCounts進行定量
鏈特異性文庫可以區(qū)分正義量

標準化Normalization
TPM

比對
第一步(構建參考基因組):參考基因組處理,構建index,排序。用于比對順利
輸入:基因組序列 輸出:構建好參考基因組 軟件:hisat2
代碼:`hisat2-build ../ref/genome.fasta ../ref/genome 1>hisat2-build.log 2>&1
第二步(比對):
輸入:構建好的基因組,測序數(shù)據(jù) 輸出:比對結果(sam)軟件:hisat2
代碼

hisat2 --new-summary -p 10 -x ../ref/genome -U ../data/BLO_S1_LD1.fq.gz -S BLO_S1_LD1.sam --rna-strandness R 1>BLO_S1_LD1.log 2>&1
第三步(壓縮和排序):
輸入:sam 輸出:bam 軟件:samtools sort
代碼
samtools sort -o BLO_S1_LD1.bam BLO_S1_LD1.sam
第四步:bam文件索引
輸入:bam 輸出bam.bai 軟件:
代碼:samtools index BLO_S2_LD3.bam

IGV:基因組文件 基因注釋文件 bam文件 sample.bam.bai
第一步:構建基因組:輸入基因組文件,基因組解釋文件。


基因組構建

第二步:將bam文件,bam.bai文件放于一個文件夾
在IGV中選擇File--loadfile--選擇bam文件即可,無需選擇bam.bai文件

第五天 定量

multiqc生成比對報告
samtools flagstat file.bam 查看比對情況
log文件更推薦查看比對

IGV查看比對情況:
HIsat2--stingtie:通過轉錄組拼接對于原來的基因結構優(yōu)化(不推薦)
PASA對原來的基因結構進行優(yōu)化

個體重測序本質是基因分型
群體重測序本質是等位基因頻率

表達定量:
輸入得到的bam文件,基因注釋文件,輸出:定量結果文件,軟件:Rsubread(featurecounts)R語言
安裝:(1)R包來源于于CRAN
install.packages("")
(2)R包來源于Bioconductor,查看安裝文檔

Rscript file.R
代碼:Rscript script/run-featurecounts.R -b ../1.Mapping/BLO_S1_LD1.bam -g ../ref/genes.gtf -o BLO_S1_LD1

-b:bam文件 -g:gtd文件 -o:輸出文件前綴

批量腳本:awk '{print "Rscript script/run-featurecounts.R -b ../1.Mapping/" $2".bam -g ../ref/genes.gtf -o "$2}' ../data/samples.txt

生成count

第六天 表達定量生成矩陣

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容