基因課FTP地址：ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
聽張旭東老師的課

服務(wù)器間數(shù)據(jù)拷貝

兩臺服務(wù)器間的數(shù)據(jù)拷貝用 scp 用戶名@服務(wù)器：文件路徑

樣本名稱處理

sed -i 's/.fastq.gz//' xxx.file,類似rename的方式處理文件內(nèi)容
awk 利用文件名生成樣本信息表

構(gòu)建參考基因組

hisat2-build genome.fasta genome
運行時間 —— 二十分鐘以內(nèi)

比對

hisat2 -x [ref-genome] -U [input_filename].fq.gz -S [output_file name].sam -p [threads] --new-summary --rna-strandness R

-U 寫基因組名，不寫后綴
PE 的輸入文件-U項換為 -1 和 -2
線程數(shù)建議一般設(shè)置為2-6即可
--new-summary 歷史原因，使用tophat的舊日志文件格式則不加此項，用新格式日志文件則加此項
--rna-strandness 鏈特異性文庫
鏈特異性測序針對性解決的問題是：某些基因所在的正鏈與另一些基因的反鏈有交集，表達量定給誰？
若不是鏈特異性測序，去掉此項
若是鏈特異性測序，要問清楚是用的哪個技術(shù)，大部分都用的是dUTP(90%) 如果是，
單末端測序(SE) --rna-strandness參數(shù)設(shè)置為R
PE 設(shè)置為RF
目前絕大部分為鏈特異性測序
非連特異性測序按照鏈特異性測序比對，有問題
連特異性測序按照非鏈特異性測序比對，問題不大
對于網(wǎng)上下載的測序數(shù)據(jù)有一些沒有寫明是鏈特異性測序還是非鏈特異性測序，解決方法：先假設(shè)是非連特異性測序，比對后在IGV上發(fā)現(xiàn)序列都是同一方向，則為鏈特異性文庫
比對DNA序列到基因組用bwa軟件
批量生成比對腳本，用awk實現(xiàn)
vim的Ctrl+v也可以實現(xiàn)
linux for循環(huán)也可以實現(xiàn)
一般不需要設(shè)置錯配率，默認就好。若比對后發(fā)現(xiàn)比對率特別低，則需要考慮。
比對率一般至少70以上，比對率和參考基因組測序組裝質(zhì)量、比對軟件、測序品種與參考基因組物種親緣關(guān)系相關(guān)
并行總線程可超過CPU數(shù)，超過即排隊

比對結(jié)果查看

PE比對結(jié)果log文件

比對率97.44%

比對結(jié)果比對率統(tǒng)計與可視化

比對率結(jié)果在.log文件中
用軟件MultiQC將多個log文件的結(jié)果統(tǒng)計

比對結(jié)果壓縮排序

samtools sort -o xxx.bam xxx.sam

這步比較耗內(nèi)存，可以一個一個來
samtools view是只負責(zé)sam → bam的格式轉(zhuǎn)換
bam文件構(gòu)建好后，sam文件就可以刪除了

對一個bam文件進行統(tǒng)計

samtools flagstat xxx.bam

統(tǒng)計比對率(不同軟件比對出來有差異)
不同比對策略算出來的比對率略有不同，有primery的比對和secondary的比對，有區(qū)別
轉(zhuǎn)錄組中建議以hisat2統(tǒng)計結(jié)果為準(zhǔn)
samtools的統(tǒng)計是通用的，沒有對特定軟件進行優(yōu)化

構(gòu)建bam index

samtools index xxx.bam

構(gòu)建index在轉(zhuǎn)錄組分析中除了IGV展示，沒有其他用處
在重測序中，bam文件構(gòu)建index可用于變異檢測等

IGV可視化

IGV官網(wǎng) software.broadinstitute.org/software/igv/download
用Java寫的軟件，跨平臺(優(yōu)點)，易報錯(劣)
需要的文件
①導(dǎo)入基因組文件 genome.fasta
②基因注釋文件genes.gtf
③sample.bam
④sample.bam.bai
使用步驟
- 建立基因組庫
  Genomes → Creat .genome File...
- 加載bam文件
  File → Load from file
  
  igv基因組建立
  
  gtf文件內(nèi)容差不多長這樣，只有transcript和exon

igv查看mapping結(jié)果

桌面軟件
同一基因區(qū)同一堿基處，若大概一半一半的A/C概率，則為雜合，若極少量SNP可能是測序錯誤或RNA編輯
DNA測序鑒定突變：參考基因組為A,測序基因組絕大部分是A
個體重測序更關(guān)心的是基因分型，不是只關(guān)心變異區(qū)域，表型=基因+環(huán)境，表型不完全有基因型決定。關(guān)心的是比例問題，概率問題

附加：轉(zhuǎn)錄本基因結(jié)構(gòu)組裝

hisat2對應(yīng)軟件為stringtie
如果別人的基因組組裝做的太差，可選擇自己組裝
自己組裝建議使用PASA流程，組裝轉(zhuǎn)錄本

代碼集中營

nohup hisat2-build xxx_genome.fasta xxx_genome 1>hisat2-build.log 2>&1 & # 標(biāo)準(zhǔn)輸出與錯誤輸出到同一文件
# 比對
# SE
hisat2 -x [ref-genome] -U [input_filename].fq.gz -S [output_file name].sam -p [threads] --new-summary --rna-strandness R 1>hisat2.log 2>&1
# PE
hisat2 -x [ref-genome] -1 [input_filename]_1.fq -2 [input_filename]_2.fq -S [output_file name].sam -p [threads] --new-summary --rna-strandness RF 1>hisat2.log 2>&1

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

測序數(shù)據(jù)比對到參考基因組

測序數(shù)據(jù)比對到參考基因組

服務(wù)器間數(shù)據(jù)拷貝

樣本名稱處理

構(gòu)建參考基因組

比對

比對結(jié)果查看

比對結(jié)果比對率統(tǒng)計與可視化

比對結(jié)果壓縮排序

對一個bam文件進行統(tǒng)計

構(gòu)建bam index

IGV可視化

附加：轉(zhuǎn)錄本基因結(jié)構(gòu)組裝

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

測序數(shù)據(jù)比對到參考基因組

服務(wù)器間數(shù)據(jù)拷貝

樣本名稱處理

構(gòu)建參考基因組

比對

比對結(jié)果查看

比對結(jié)果比對率統(tǒng)計與可視化

比對結(jié)果壓縮排序

對一個bam文件進行統(tǒng)計

構(gòu)建bam index

IGV可視化

附加：轉(zhuǎn)錄本基因結(jié)構(gòu)組裝

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av