1.準(zhǔn)備轉(zhuǎn)錄組數(shù)據(jù)
轉(zhuǎn)錄組數(shù)據(jù)可以從數(shù)據(jù)庫中下載,也可以使用公司返回的測(cè)序數(shù)據(jù),在服務(wù)器上下載完成后將原始文件名改為自己熟悉的格式,方便后期分析的進(jìn)行。
2.準(zhǔn)備樣本信息表
樣本信息表主要包括三部分,第一部分樣品分組,第二部分:樣本名稱,第三部分:測(cè)序數(shù)據(jù)存在的絕對(duì)路徑,例如以下的示例:
CB_S1 CB_S1_CF1 /path/to/your/workplace/CB_S1_CF1_1.fq.gz /path/to/your/workplace/CB_S1_CF1_2.fq.gz
#第一列,樣品分組。第二列,樣本名稱。第三列,正向測(cè)序文件存在的絕對(duì)位置。第四列,反向測(cè)序文件存在的絕對(duì)位置。
使用awk命令生成sample.txt文件
先將所有測(cè)序文件的文件名放在一個(gè)文件中,再替換掉不需要的部分,以下是相應(yīng)代碼。
ls *.gz > name.lst
#將所有以.gz結(jié)尾的文件的文件名寫入一個(gè)名為name.lst的文件中
sed -i 's/.fq.gz//' name.lst
#將name.lst文件中所有.fq.gz替換成空格,sed -i 是原位替換,會(huì)直接更改文件中的內(nèi)容
awk -F '_' '{print $1"_"$2"\t"$1"_"$2"_"$3"\t/path/to/your/workplace/"$1"_"$2"_"$3"_"$4".fq.gz""\t/path/to/your/workplace/"$1"_"$2"_"$3"_""2.fq.gz"}' name.lst
#使用awk命令批量生成代碼,-F '_'表示以_為分隔符,\t為制表符,即大空格,其他部分同awk命令。
3. hisat2構(gòu)建參考基因組
在正式比對(duì)前還需要構(gòu)建參考基因組,所使用的軟件是hisat2,基本命令為hisat2 -build,基礎(chǔ)命令為:
hisat2-build /path/to/the/genome.fasta /path/to/your/output/genome 1>hisat2-build.log 2>&1
以上各代碼分別為:
/path/to/the/genome.fasta:參考基因組所處位置;
/path/to/your/output/genome:輸出文件所存儲(chǔ)位置及所使用的前綴;
1>hisat2-build.log 2>&1:將標(biāo)準(zhǔn)輸出流與錯(cuò)誤輸出流同時(shí)輸入到hisat2_build.log這個(gè)文件中。
step1的結(jié)果文件會(huì)存放在參考基因組所在的文件夾
4.比對(duì)(參考基因組與測(cè)序結(jié)果生成sam文件)
記在前面的話:如果生成的比對(duì)日志文件比對(duì)率在70%以下,可能就需要調(diào)整命令中的相關(guān)參數(shù)
4.1 使用hisat2比對(duì)的基本命令
hisat2 --new-summary -p 6 -x /path/to/genome -U /path/to/the/seqdata -S outname.sam --rna-strandness R 1>name.log 2>&1
hisat2 --new-summary:命令的開頭
-p 6:軟件運(yùn)行的線程數(shù),一般為2-6
-x /path/to/genome:參考基因組所處的文件夾及構(gòu)建的hisat2索引文件開頭
-U /path/to/the/seqdata:測(cè)序文件所處的文件夾
**-S outname.sam **:比對(duì)結(jié)果的輸出文件名
--rna-strandness:測(cè)序的策略,一般為非鏈特異性測(cè)序,所以此步可省略
R 1>name.log 2>&1:指定日志文件的輸出的文件名
4.2 使用awk命令批量生成命令
要點(diǎn):靈活使用常量與變量
awk '{print "hisat2 --new-summary -p 6 -x /path/to/genome -U "$3" -S "$2".sam --rna-strandness R 1>"$2".log 2>&1 &"}' sample.txt > step2.hisat_run.sh
以上命令是針對(duì)單末端測(cè)序項(xiàng)目的,單末端測(cè)序只產(chǎn)生一個(gè)測(cè)序文件,故直接使用-U后接$3即可,但是如果是雙末端測(cè)序,則會(huì)產(chǎn)生兩個(gè)測(cè)序文件,此時(shí)需要指定兩個(gè)輸入文件,命令有所變化,如下所示:
awk '{print "hisat2 --new-summary -p 6 -x /path/to/genome -1 "$3" -2 " $4" -S "$2".sam --rna-strandness R 1>"$2".log 2>&1 &"}' sample.txt > step2.hisat_run.sh
4.3 samtools壓縮文件生成bam文件
awk '{print "samtools sort -o "$2".bam "$2".sam"}' sample.txt > step3_sam2bam.sh
使用awk命令批量生成命令,使用的軟件是samtools,生成的命令保存到step3_sam2bam.sh腳本中
4.4 samtools構(gòu)建索引
awk '{print "samtools index "$2".bam"}' sample.txt > step4.bamindex.sh
使用awk命令批量生成命令,使用的軟件是samtools,生成的命令保存到step4.bamindex.sh腳本中
5.IGV對(duì)測(cè)序比對(duì)結(jié)果可視化
5.1可視化所需數(shù)據(jù)
(1)基因組序列:參考基因組(genome.fasta;gene.gtf)
(2)壓縮后的bam文件和對(duì)應(yīng)的bai文件
5.2 IGV的使用
5.2.1創(chuàng)建基因組
Genomescreate a genome file
unique identifier(文件名)
descriptive name(描述名稱)
fasta file(參考基因組)
gene file(gtf文件)
OK
5.2.1導(dǎo)入測(cè)序文件
fileload from file
bam文件