組學(xué)資料集合

最近在梳理知識,從基本常識開始惡補(bǔ)。
先貼上收集的一些資料:
解螺旋的礦工
從零開始完整學(xué)習(xí)全基因組測序(WGS)數(shù)據(jù)分析:第1節(jié) DNA測序技術(shù)
沈夢圓博客中的RNA seq
簡簡單單講insertion size
鏈特異建庫那點(diǎn)事
NGS測序數(shù)據(jù)的質(zhì)量控制 (Quality Control,QC)
華大轉(zhuǎn)錄組常見問題解答
不同組學(xué)研究建議采用的測序策略
轉(zhuǎn)錄組分析工具大比拼 (完整翻譯版)

在查資料的時候才發(fā)現(xiàn)自己連很多基本的概念都是不太清楚的,比如:
插入片段的大小到底是什么?為什么會有插入片段大小這種東西?

插入片段大?。╥nsertion size)是adaptors之間的序列,并不是至R1和R2之間的unknown gap。而unknown gap則稱為inner mate。

插入片段大小.png

因此,insertion size小的好處就是:測序的覆蓋度高,但在進(jìn)行de novo 組裝時,如果重復(fù)序列長于reads長度,那就無法確定重復(fù)序列的位置,無法進(jìn)行拼接,也就只能得到一些contig。這個時候就會需要一些long reads看來確定位置,也就是MP文庫。

但問題又來了:為什么又需要雙端測序呢?因?yàn)榻?jīng)常reads的長度短于insertion,為了增加覆蓋度就從insert兩端同時測序。

還有就是為何在測序的數(shù)據(jù)里會需要去接頭呢?像trimmomatic里的接頭文件里的universal adaptor和indexed adatpor又是什么?
在軟件中我們會看到的5-3的universal adaptor和3-5的indexed adatpor。接頭在illumina中一般分為P5和P7接頭,其中一個帶有和flowcell上的探針反向互補(bǔ)的序列,以完成待測序列和探針結(jié)合的作用,另外一個接頭帶有barcord序列以區(qū)分不同的樣本。因此,這個接頭就不是我們所需要測的樣品里的序列,需要把它去掉。
那為何會測到接頭呢?這是因?yàn)槿绻鹖nsertion 太小的話,就會直接測穿,也就是測到了adaptor。

又比如在IGV的說明里會看到reads分為RF、FR等等方向,一直沒搞懂。
原來是RNA seq里特異鏈建庫中uDTP測序方法中的fr-firstrand,也就是RF。
dUTP測序中pair read 中的read1(R1)和基因方向相反,read2(R2)和基因方向相同。

RF.png

切記在看資料時,邊看邊思考,問問自己到底是怎么回事?
才能將問題想明白。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容