最近在梳理知識,從基本常識開始惡補(bǔ)。
先貼上收集的一些資料:
解螺旋的礦工
從零開始完整學(xué)習(xí)全基因組測序(WGS)數(shù)據(jù)分析:第1節(jié) DNA測序技術(shù)
沈夢圓博客中的RNA seq
簡簡單單講insertion size
鏈特異建庫那點(diǎn)事
NGS測序數(shù)據(jù)的質(zhì)量控制 (Quality Control,QC)
華大轉(zhuǎn)錄組常見問題解答
不同組學(xué)研究建議采用的測序策略
轉(zhuǎn)錄組分析工具大比拼 (完整翻譯版)
在查資料的時候才發(fā)現(xiàn)自己連很多基本的概念都是不太清楚的,比如:
插入片段的大小到底是什么?為什么會有插入片段大小這種東西?
插入片段大?。╥nsertion size)是adaptors之間的序列,并不是至R1和R2之間的unknown gap。而unknown gap則稱為inner mate。

因此,insertion size小的好處就是:測序的覆蓋度高,但在進(jìn)行de novo 組裝時,如果重復(fù)序列長于reads長度,那就無法確定重復(fù)序列的位置,無法進(jìn)行拼接,也就只能得到一些contig。這個時候就會需要一些long reads看來確定位置,也就是MP文庫。
但問題又來了:為什么又需要雙端測序呢?因?yàn)榻?jīng)常reads的長度短于insertion,為了增加覆蓋度就從insert兩端同時測序。
還有就是為何在測序的數(shù)據(jù)里會需要去接頭呢?像trimmomatic里的接頭文件里的universal adaptor和indexed adatpor又是什么?
在軟件中我們會看到的5-3的universal adaptor和3-5的indexed adatpor。接頭在illumina中一般分為P5和P7接頭,其中一個帶有和flowcell上的探針反向互補(bǔ)的序列,以完成待測序列和探針結(jié)合的作用,另外一個接頭帶有barcord序列以區(qū)分不同的樣本。因此,這個接頭就不是我們所需要測的樣品里的序列,需要把它去掉。
那為何會測到接頭呢?這是因?yàn)槿绻鹖nsertion 太小的話,就會直接測穿,也就是測到了adaptor。
又比如在IGV的說明里會看到reads分為RF、FR等等方向,一直沒搞懂。
原來是RNA seq里特異鏈建庫中uDTP測序方法中的fr-firstrand,也就是RF。
dUTP測序中pair read 中的read1(R1)和基因方向相反,read2(R2)和基因方向相同。

切記在看資料時,邊看邊思考,問問自己到底是怎么回事?
才能將問題想明白。