二,Illumina Hiseq 測序的相關(guān)內(nèi)容
組成:
1,高精度顯微光學掃描儀
2,一整套液流系統(tǒng)
3,計算機軟硬件
4,溫控系統(tǒng)
flowcell---lane---swath---tile---四張照片
如何從圖像文件得到測序數(shù)據(jù)
1,掃描出來的初始文件是一個.tiff文件(圖像文件),但是文件太大,只作為中間文件使用。
2,由軟件對四張圖片進行匹配,找到最合適的位置,ACTG是均勻存在的,易匹配。(若一些堿基特別多,一些堿基很少,那么一些圖就特別亮,一些就特別暗,所以就會提供一些堿基平衡文庫,如人類基因組文庫或illuminate提供的標準的phix文庫。
3,bcl文件難以閱讀并很難改動,將bcl文件經(jīng)bcl2FASTQ軟件處理得到FASTQ文件。.CIF文件是可保留的圖像文件(客戶可以向測序公司提出保留.cif),比.tiff小很多,Hiseq升級到v10以后,.cif文件保留被取消。
ACTG相對應的四種熒光素在四種波長的光下有四種不同的貢獻率,組成一個4*4的貢獻率表格,等于一個4元一次方四聯(lián)方程。
phasing:主要是由酶活性不足引起的。如5000個序列同時測序,由于某些序列上堿基的延伸掉隊的情況,循環(huán)次數(shù)越多掉隊越多。
prephasing:堿基增添時比大部隊超前的情況。是由于dNTP上的疊N基團掉了。
chasting:濃度最高的熒光素的量/(最高+第二高)。標準>0.6.
PF篩選:一條read的錢25個堿基中,最多只能有一個堿基chastiny<0.6.
Quality Score:
Pe:Possibility of error,即某堿基判讀錯誤的可能性。
Q:Q30即出錯的可能性為1/1000。
Q30比例:指在所有PF數(shù)據(jù)中達到或超過Q30標準的數(shù)據(jù)比例。
FASTQ文件中的Q值是+33轉(zhuǎn)化ASCALL存入的。
FASTQ
1,序列目錄,即該read來自哪個Hiseq,第幾個RUN,第幾個lane,第幾個tile,及xy軸的位置。
2,堿基序列。
3,及其對應堿基序列的質(zhì)量信息。