Biostar第六課 測序儀和QC

454測序是第一個出來的二代測序,但是現(xiàn)在沒人用了,因為數(shù)據(jù)處理太復雜,而且由于不是很普及,所以大家都沒有心情去開發(fā)軟件,現(xiàn)在的都是老版的軟件了,說不定還有兼容性的問題。

現(xiàn)在用的最普遍的就是illumina的了
有很多型號
Miniseq Myseq
Nextseq500這個比較不錯

高通量的可以上hiseq2500

如果是產(chǎn)業(yè)性的就來個Hiseq3000/4000 最牛逼的是X 10 這個一般的實驗室和基礎設施都是玩不轉(zhuǎn)的,這么高的通量一般都要國家基礎設施類型的使用

PacBio現(xiàn)在很火

其中的核心技術叫做 零基波導,名字倒是牛逼哄哄的挺唬人。

subread就是一條序列被測了好幾次

CCS需要聚合酶來回測同一條序列,得到至少兩個subread,才能形成CCS

CCS可以提高準確性,比單個align回基因組的錯誤率小很多

怎樣計算基因組覆蓋度
C= 總測序堿基數(shù)/基因組的堿基數(shù)

QC

這個怎么說呢,如果測序數(shù)據(jù)本身爛,再怎么QC也救不回來。QC只做最基本的,不要花時間在QC上折騰,沒啥用,還白費勁。不要對本身就不錯的數(shù)據(jù)過分的矯正,矯正過程本身就引入新的錯誤信息

trim

靠譜的程序有
bbduk trimmomatic flexbar cutadpt

illumina的

# TruSeq Indexed Adapter
GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNATCTCGTATGCCGTCTTCTGCTTG
前面還可以加個A

告訴Fastqc去檢測哪一個adaptor , 到fastqc的安裝目錄下找到 configuration文件夾

可以寫好adaptor的fasta文件,然后在trim adaptor里面引用

用trimmomatic 的時候命令順序比較重要

trimmomatic PE SRR519926_1.fastq SRR519926_2.fastq trimmed_1.fq unpaired_1.fq trimmed_2.fq unpaired_2.fq SLIDINGWINDOW:4:30 TRAILING:30 ILLUMINACLIP:adapter.fa:2:30:5 

一般來說,如果是重測序,也就是基因組信息已知的情況下,不需要去先去adaptor
但是如果拼接基因組的情況下,就需要去adpator了

序列的重復冗余

這個是很重要的
來源: 1 基因組里面本來就有很多重復序列 2 PCR的重復序列
咋找到這些重復序列?兩條路
1 序列完全一樣的
2 align到同一個位置上的

但是這個得很小心的去做,因為有風險在里面,就是說測序特別準的重復序列會被干掉,但是出現(xiàn)測序錯誤的重復序列因為不能彼此匹配從而留了下來,這就導致了我們反而在數(shù)據(jù)中對測序錯誤進行了富集,這是給自己找事啊

現(xiàn)在出了一個新套路,就是先分析序列中的K mer , 然后根據(jù)k mer去重復

序列的重復冗余不好的地方就是,在call variant的時候
因為每個variant的打分是根據(jù)他們出現(xiàn)的次數(shù)來的,所以一旦有一條PCR 的duplicate,就多打了一分,但是這個分是靠PCR騙來的,導致某一個比較罕見variant顯得很重要的高頻一樣

在FASTQC的duplicate的報告中
在最頂上的那個數(shù)字最重要,這里面說的是整一個數(shù)據(jù)集中不重復的序列占多大比例

怎么找出重復序列

在進行到bam文件之后用picard markduplicates 來標記重復序列

怎樣把PE的reads搞成一個長reads

用FLASH
bbmerge

可以用bbrename重命名每一條reads

AfterQC也是個不錯的工具,但是得用python2.7

進行錯誤矯正:

這個牛逼的功能也是剛接觸,還可以這么玩
bb套裝中有個tadpole.sh 可以直接的進行錯誤的矯正

tadpole.sh in=SRR519926_1.fastq out=tadpole.fq mode=correct out=r1.fq out2=r2.fq overwrite=true

這個bb真是個牛人,認識一下,Brian Bushnell , 套裝的開發(fā)者,膜拜

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容