轉(zhuǎn)錄組學(xué)(Transcriptomics)，是一門在真整體水平上研究細(xì)胞中基因轉(zhuǎn)錄的情況及轉(zhuǎn)錄調(diào)控規(guī)律的學(xué)科，從RNA水平研究基因的表達(dá)情況。轉(zhuǎn)錄組測(cè)序是通過(guò)二代測(cè)序平臺(tái)快速全面地獲得某一物種特定細(xì)胞或組織在某一狀態(tài)下的幾乎所有的轉(zhuǎn)錄本及基因序列，可以用來(lái)研究基因表達(dá)量、基因功能、結(jié)構(gòu)、可變剪接和預(yù)測(cè)新的轉(zhuǎn)錄本等等。轉(zhuǎn)錄組（transcriptome），是指特定生長(zhǎng)階段某組織或細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合，狹義上指所有mRNA的集合。

轉(zhuǎn)錄組測(cè)序類型

1. 根據(jù)RNA種類

可以分為mRNA測(cè)序，SmallRNA測(cè)序，LncRNA測(cè)序、CircRNA測(cè)序、全轉(zhuǎn)錄組測(cè)序等

2. 根據(jù)物種特點(diǎn)

比如真核生物或者原核生物，是否有參考基因組，測(cè)序平臺(tái)的不同，分為真核有參和無(wú)參轉(zhuǎn)錄組測(cè)序，原核轉(zhuǎn)錄組測(cè)序，全長(zhǎng)轉(zhuǎn)錄組測(cè)序等

3. 根據(jù)相互關(guān)系

分為互作轉(zhuǎn)錄組，比較轉(zhuǎn)錄組等等；

此外，基因組甲基化會(huì)影響到基因的轉(zhuǎn)錄調(diào)控，也屬于轉(zhuǎn)錄調(diào)控測(cè)序范疇；還有用于研究轉(zhuǎn)錄因子與DNA的交互作用或組蛋白修飾在基因組上的分布的ChIP-Seq，研究RNA與蛋白互作關(guān)系的RIP-Seq，以及研究RNA甲基化的MeRIP-Seq等。

應(yīng)用領(lǐng)域

圖片.png

術(shù)語(yǔ)概念

基本的術(shù)語(yǔ)介紹：

轉(zhuǎn)錄本：是由一條基因通過(guò)轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。
PE 150/SE 150：PE（Pair end）為雙端測(cè)序的意思，測(cè)序文庫(kù)中的一條序列從兩端開始讀取，得到read 1與read 2，即通常所說(shuō)的R1與R2。SE（Single end）為單端測(cè)序的意思，即一條序列從一端讀取。這里的150為150bp的意思，即讀取150bp長(zhǎng)度的測(cè)序模式。
Read：測(cè)序得到的每一條序列稱為一個(gè) Read。
Raw Data/ Raw Reads：測(cè)序下得到的原始圖像數(shù)據(jù)經(jīng)過(guò)base calling轉(zhuǎn)化而來(lái)的機(jī)的原始數(shù)據(jù)。
Clean Data / Clean Reads：去除接頭和低質(zhì)量 Reads 后的數(shù)據(jù)，后續(xù)分析均基于Clean Data。統(tǒng)計(jì)指標(biāo)為Q20/Q30的值，一般平均質(zhì)量分?jǐn)?shù)< Q20,
接頭/ Adapter：接頭是測(cè)序時(shí)在序列兩端分別加上的一段人工序列，接頭上含有與測(cè)序引物互補(bǔ)結(jié)合的序列，通過(guò)和測(cè)序引物結(jié)合來(lái)對(duì)目的片段進(jìn)行測(cè)序。當(dāng)加上接頭后的序列片段比實(shí)際測(cè)序讀長(zhǎng)短時(shí)， 3’端會(huì)測(cè)到接頭序列，接頭序列在分析之前需要去除掉。
RPKM:Reads Per Kilobase of exon modelper Million mapped reads (每千個(gè)堿基的轉(zhuǎn)錄每百萬(wàn)映射讀取的reads)，主要用來(lái)對(duì)單端測(cè)序（single-end RNA-seq）進(jìn)行定量的方法。
FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千個(gè)堿基的轉(zhuǎn)錄每百萬(wàn)映射讀取的fragments)，主要是針對(duì)pair-end測(cè)序表達(dá)量進(jìn)行計(jì)算（公式算法基本與上述RPKM一致，兩種都是RNAseq中常見的標(biāo)準(zhǔn)化方法，除此還有其他標(biāo)準(zhǔn)化方法后續(xù)會(huì)再單獨(dú)介紹）。
模糊堿基/ N：測(cè)序中不能確定的堿基，以N表示。一條序列中 N 越多說(shuō)明該序列質(zhì)量越低，一般該種序列需要剔除掉。
Read count：比對(duì)到一個(gè)基因上的 Reads 數(shù)目。
P value：顯著性，統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的P 值，一般以P < 0.05 為顯著， P <0.01 為非常顯著，其含義是樣本間的差異由抽樣誤差所致的概率小于0.05 或0.01。
差異倍數(shù)(Fold change)：fold change翻譯過(guò)來(lái)就是倍數(shù)變化，假設(shè)A基因表達(dá)值為1，B表達(dá)值為3，那么B的表達(dá)就是A的3倍。一般我們都用count、TPM或FPKM來(lái)衡量基因表達(dá)水平，所以基因表達(dá)值肯定是非負(fù)數(shù)，那么fold change的取值就是(0, +∞)。
log2 Fold Change：同一基因在兩個(gè)樣品中的表達(dá)量之商取2的對(duì)數(shù)，即log2（sampleA/sampleB）。

注意：
為什么我們經(jīng)常看到差異基因里負(fù)數(shù)代表下調(diào)、正數(shù)代表上調(diào)？因?yàn)槲覀冇昧薼og2 fold change。當(dāng)expr(A) < expr(B)時(shí)，B對(duì)A的fold change就大于1，log2 fold change就大于0（見下圖），B相對(duì)A就是上調(diào)；當(dāng)expr(A) > expr(B)時(shí)，B對(duì)A的fold change就小于1，log2 fold change就小于0。通常為了防止取log2時(shí)產(chǎn)生NA，我們會(huì)給表達(dá)值加1（或者一個(gè)極小的數(shù)），也就是log2(B+1) - log2(A+1).

圖片.png

為什么不直接用表達(dá)之差，差直接有正負(fù)啊？假設(shè)A表達(dá)為1，B表達(dá)為8，C表達(dá)為64；直接用差B相對(duì)A就上調(diào)了7，C就相對(duì)B上調(diào)了56；用log2 fold change，B相對(duì)A就上調(diào)了3，C相對(duì)B也只上調(diào)了3. 通過(guò)測(cè)序觀察我們發(fā)現(xiàn)，不同基因在細(xì)胞里的表達(dá)差異非常巨大，所以直接用差顯然不合適，用log2 fold change更能表示相對(duì)的變化趨勢(shì)，但是呢雖然大家都在用log2 fold change，但顯然也是有缺點(diǎn)，這里給大家推薦個(gè)鏈接看下，作者解釋的很詳細(xì)~

另外我們也要具備基本分子生物學(xué)常識(shí)如轉(zhuǎn)錄、翻譯的過(guò)程(中心法則)，以及何為外顯子，內(nèi)含子，前體RNA，CDS，ORF這些概念，這些課本或網(wǎng)上都有介紹，不再過(guò)多贅述。

中心法則

圖片.png

前體RNA

圖片.png

關(guān)系：

圖片.png

流程

測(cè)序流程

樣品RNA準(zhǔn)備
測(cè)序文庫(kù)構(gòu)建
DNA成簇(Cluster)擴(kuò)增
高通量測(cè)序(Illumina)
數(shù)據(jù)分析

圖片.png

鏈特異性建庫(kù)(了解)

目前構(gòu)建鏈特異性文庫(kù)的方法有多種，其中用的最普遍的是dUTP方法，跟普通建庫(kù)方式相比，鏈特異性建庫(kù)會(huì)在第二鏈 cDNA 合成時(shí)，用dUTP代替dTTP，加接頭后用UDGase處理，降解掉有U的第二條cDNA，這樣使得測(cè)序后的數(shù)據(jù)可以確定鏈的方向性，從而可以判斷轉(zhuǎn)錄本是來(lái)自正義還是反義DNA鏈。與普通轉(zhuǎn)錄組測(cè)序相比，它能更準(zhǔn)確地統(tǒng)計(jì)轉(zhuǎn)錄本的數(shù)量和確定基因的結(jié)構(gòu)。推薦個(gè)帖子感興趣的可以學(xué)習(xí)一下該建庫(kù)方式的原理

下面通過(guò)這張建庫(kù)示意圖來(lái)看看普通RNA-Seq建庫(kù)和鏈特異性建庫(kù)的差異在什么地方

圖片.png

數(shù)據(jù)分析流程

圖片.png

數(shù)據(jù)量大小

轉(zhuǎn)錄調(diào)控測(cè)序所需的數(shù)據(jù)量隨項(xiàng)目類型不同而有所差異，數(shù)據(jù)量還與基因組大小、復(fù)雜度有關(guān)目前，為保證數(shù)據(jù)分析結(jié)果的可靠性和準(zhǔn)確性，對(duì)于Illumina平臺(tái)、PacBio平臺(tái)：

真核轉(zhuǎn)錄組測(cè)序推薦采用6Gb 數(shù)據(jù)量進(jìn)行后續(xù)分析，如果想檢測(cè)到更低豐度的轉(zhuǎn)錄本，推薦采用8-10Gb數(shù)據(jù)量；

原核生物轉(zhuǎn)錄組，推薦采用4Gb數(shù)據(jù)量進(jìn)行后續(xù)分析；

關(guān)注點(diǎn)

轉(zhuǎn)錄組的分析大致有以下幾種情況：

同一物種在發(fā)育過(guò)程中的各時(shí)間節(jié)點(diǎn)的基因表達(dá)特點(diǎn)及存在的差異；
不同品系之間存在的差異表達(dá)基因；
不同的外界條件處理，如細(xì)菌、真菌、病毒、光照、紫外、干旱、高溫、高鹽脅迫，對(duì)基因表達(dá)的影響；
同一個(gè)體，不同組織之間的基因表達(dá)差異。

其他常見問(wèn)題

生物學(xué)重復(fù)問(wèn)題

生物學(xué)差異是基因自身表達(dá)的特性，與檢測(cè)技術(shù)的選擇以及數(shù)據(jù)處理的方式無(wú)關(guān)，如果沒有生物學(xué)重復(fù)，或者生物學(xué)重復(fù)的數(shù)量不夠，就不能得到有統(tǒng)計(jì)意義的實(shí)驗(yàn)結(jié)果。獲得的差異表達(dá)基因很可能僅僅是少數(shù)個(gè)體差異的表現(xiàn)，并不能反映疾病或者某種特定生理狀態(tài)的群體本質(zhì)特征，并且有些審稿人會(huì)很在意生物學(xué)重復(fù)這個(gè)問(wèn)題。

對(duì)于動(dòng)植物樣品，建議5個(gè)以上生物學(xué)重復(fù)，對(duì)生物學(xué)樣品之間做相關(guān)性檢驗(yàn)，提高實(shí)驗(yàn)結(jié)果的可信度。
對(duì)于細(xì)胞樣品，生物學(xué)重復(fù)之間的差異性相對(duì)較小，建議3個(gè)以上生物學(xué)重復(fù)。
對(duì)于臨床樣品，由于供試者的基因型、生活方式、生活環(huán)境、年齡、性別可能存在差異，需要更多的生物學(xué)重復(fù)，一般要求10個(gè)生物學(xué)重復(fù)以上。

對(duì)于有無(wú)生物學(xué)重復(fù)后續(xù)計(jì)算差異基因時(shí)候算法也是不同的，目前主流差異分析軟件DEseq2，limma，edgeR等基本都是針對(duì)有重復(fù)的轉(zhuǎn)錄組數(shù)據(jù)。至于沒有重復(fù)的轉(zhuǎn)錄組數(shù)據(jù)，edgeR包中其實(shí)也有一種方法去計(jì)算，或者我們可以簡(jiǎn)單算兩組的fold change然后根據(jù)閾值去篩選，另外同濟(jì)大學(xué)之前也發(fā)布過(guò)一款軟件GFOLD軟件可以針對(duì)無(wú)重復(fù)數(shù)據(jù)計(jì)算(后續(xù)再說(shuō))。

差異倍數(shù)很大但P值>0.05不顯著

對(duì)于差異倍數(shù)較大，但P值也較大，差異不顯著的原因，可能有兩個(gè)：

生物學(xué)重復(fù)不好，即生物學(xué)個(gè)體之間差異比較大，從統(tǒng)計(jì)學(xué)角度講，就是同一個(gè)基因在組內(nèi)的差異較大，誤差線比較大，這樣往往差異不顯著。比如，某個(gè)基因在A組的三個(gè)生物學(xué)重復(fù)的表達(dá)量分別為100、200、300，在另一組中為110、150、30，雖然平均值差異倍數(shù)大于2，但因?yàn)榻M內(nèi)重復(fù)不好，可能會(huì)導(dǎo)致無(wú)差異；而另外一個(gè)基因，在一組中為100、110、120，另一組為45、50、55，可能就是顯著差異的。
BaseMean值比較低，即基因的豐度比較低，比如某個(gè)基因，在A組中的表達(dá)量均值為16，在B中的平均表達(dá)量為2，雖然差了8倍，但由于豐度低，可信度就低，很有可能也會(huì)判定為無(wú)差異。

解決方法：

對(duì)于第一種情況，盡量控制單一變量，比如取同一性別，同一親本，同一發(fā)育時(shí)期的小鼠，并增加生物學(xué)重復(fù)；
對(duì)于第二種情況，建議增加數(shù)據(jù)量。

差異基因數(shù)目過(guò)多或者過(guò)少

為什么不同基因ID有著相同的蛋白注釋？且為什么有相同蛋白注釋信息的基因有的上調(diào)表達(dá)有的下調(diào)表達(dá)？

這是在分析結(jié)果中比較多見的現(xiàn)象，主要原因有兩個(gè)：

多因一能：不同的基因通過(guò)注釋具有相同的功能，而不同的基因其差異情況并不一樣；
許多酶是復(fù)合物：組成酶的復(fù)合物包含了一個(gè)家族的多個(gè)基因和不同的調(diào)控因子，它們之間的調(diào)控機(jī)制尚不清楚，反映在圖上會(huì)有部分上調(diào)，部分下調(diào)。

如何選取qPCR定量驗(yàn)證基因

根據(jù)GO或者是KEGG富集結(jié)果，或者是科研人員關(guān)注的基因，選取有代表性的進(jìn)行qRT-PCR驗(yàn)證。
根據(jù)FPKM值，選擇FPKM值差異倍數(shù)大，同時(shí)P值小的基因進(jìn)行qRT-PCR驗(yàn)證。

qPCR結(jié)果和轉(zhuǎn)錄組測(cè)序結(jié)果不一致

RNA測(cè)序后，往往需要通過(guò)qPCR來(lái)進(jìn)行驗(yàn)證。由于這兩種實(shí)驗(yàn)的目的都是在檢測(cè)基因的相對(duì)表達(dá)量。用qPCR驗(yàn)證的目的，是為了檢測(cè)轉(zhuǎn)錄組測(cè)序結(jié)果的準(zhǔn)確性。我們要求轉(zhuǎn)錄組和qPCR的結(jié)果趨勢(shì)一樣，比如轉(zhuǎn)錄組中顯著上調(diào)，qPCR中也是顯著上調(diào)。一般推薦先盡量多做幾個(gè)，拿20-40個(gè)基因進(jìn)行qPCR驗(yàn)證，因?yàn)椴灰欢總€(gè)基因都會(huì)符合，盡管最后有幾個(gè)不符合轉(zhuǎn)錄組的結(jié)果，我們舍去也無(wú)所謂，注意選取的基因盡量表達(dá)量不要太低，如果太低，無(wú)論轉(zhuǎn)錄組還是qPCR的準(zhǔn)確性都會(huì)有所下降。

qPCR結(jié)果和轉(zhuǎn)錄組測(cè)序結(jié)果不一致，要考慮以下幾個(gè)問(wèn)題：

用于做轉(zhuǎn)錄組的樣品和做qPCR的樣品是同一個(gè)樣品嗎？不同生物學(xué)個(gè)體，雖然同樣的處理，但個(gè)體差異也會(huì)導(dǎo)致不同。
樣品在-80℃冰箱保存的時(shí)間或在液氮中保存的時(shí)間一樣嗎？且保存方式是否一樣？即使同一個(gè)樣品，保存時(shí)間與保存方式差異較大，也會(huì)有影響。
樣品之間是否弄反？例如對(duì)照與處理之間，以及不同處理之間的樣品是否出現(xiàn)弄亂的可能。
是否嘗試過(guò)相同條件處理？不同批次的qPCR的測(cè)序？即使是相同處理，不同批次的qPCR結(jié)果也很可能不同，還有可能是由于生物個(gè)體之間本身的差異；
所選的基因是否豐度很低？如果豐度偏低，轉(zhuǎn)錄組測(cè)序和qPCR測(cè)序的結(jié)果都會(huì)受到影響。
qPCR操作是否規(guī)范。定量實(shí)驗(yàn)對(duì)實(shí)驗(yàn)人員的操作，試劑的質(zhì)量，實(shí)驗(yàn)環(huán)境都有著嚴(yán)格的要求。還有可能發(fā)生同一人員操作，得到兩次的定量結(jié)果互相不一致的情況。
引物設(shè)計(jì)是否合理。在RNA-Seq中大多數(shù)基因會(huì)包含不止一個(gè)轉(zhuǎn)錄本，甚至有一些特別復(fù)雜的轉(zhuǎn)錄本形式，如果設(shè)計(jì)引物不合理就會(huì)使qPCR結(jié)果不準(zhǔn)，還可能會(huì)有假基因的干擾。所以，qPCR的引物盡可能全都設(shè)計(jì)在基因的轉(zhuǎn)錄本共有外顯子上，別是某些特定轉(zhuǎn)錄本的；引物設(shè)計(jì)好以后可以到NCBI做Primer Blast，保證引物不會(huì)Blast到一些基因組上的假基因上，避免假基因表達(dá)的干擾。
兩種技術(shù)本身的差異。轉(zhuǎn)錄組測(cè)序與定量實(shí)驗(yàn)，都是檢測(cè)基因表達(dá)情況的有效手段，但是兩種技術(shù)在原理與方法上是不一樣的，本身會(huì)存在一定概率結(jié)果不一致的可能。轉(zhuǎn)錄組測(cè)序一般是對(duì)基因進(jìn)行定量，即所有來(lái)源于該基因的轉(zhuǎn)錄本的reads均歸入該基因，而我們qPCR的設(shè)計(jì)的引物擴(kuò)增片段有可能不能代表所有的轉(zhuǎn)錄本

好了，我們先說(shuō)這么多，內(nèi)容參考自《轉(zhuǎn)錄組學(xué)與多組學(xué)整合研究指南》，內(nèi)容比較豐富，適合新手入門了解。電子書可搜索關(guān)注本人公眾號(hào)BioparaMeta 回復(fù) ‘干貨’ 中(轉(zhuǎn)錄組鏈接)獲取，除轉(zhuǎn)錄組也有宏基因組，單細(xì)胞轉(zhuǎn)錄組及編程資料可以獲取，歡迎關(guān)注~~

圖片.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

談?wù)勣D(zhuǎn)錄組測(cè)序基礎(chǔ)知識(shí)及常見問(wèn)題

談?wù)勣D(zhuǎn)錄組測(cè)序基礎(chǔ)知識(shí)及常見問(wèn)題

轉(zhuǎn)錄組測(cè)序類型

1. 根據(jù)RNA種類

2. 根據(jù)物種特點(diǎn)

3. 根據(jù)相互關(guān)系

應(yīng)用領(lǐng)域

術(shù)語(yǔ)概念

流程

測(cè)序流程

鏈特異性建庫(kù)(了解)

數(shù)據(jù)分析流程

數(shù)據(jù)量大小

關(guān)注點(diǎn)

其他常見問(wèn)題

生物學(xué)重復(fù)問(wèn)題

差異倍數(shù)很大但P值>0.05不顯著

差異基因數(shù)目過(guò)多或者過(guò)少

為什么不同基因ID有著相同的蛋白注釋？且為什么有相同蛋白注釋信息的基因有的上調(diào)表達(dá)有的下調(diào)表達(dá)？

如何選取qPCR定量驗(yàn)證基因

qPCR結(jié)果和轉(zhuǎn)錄組測(cè)序結(jié)果不一致

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

談?wù)勣D(zhuǎn)錄組測(cè)序基礎(chǔ)知識(shí)及常見問(wèn)題

轉(zhuǎn)錄組測(cè)序類型

1. 根據(jù)RNA種類

2. 根據(jù)物種特點(diǎn)

3. 根據(jù)相互關(guān)系

應(yīng)用領(lǐng)域

術(shù)語(yǔ)概念

流程

測(cè)序流程

鏈特異性建庫(kù)(了解)

數(shù)據(jù)分析流程

數(shù)據(jù)量大小

關(guān)注點(diǎn)

其他常見問(wèn)題

生物學(xué)重復(fù)問(wèn)題

差異倍數(shù)很大但P值>0.05不顯著

差異基因數(shù)目過(guò)多或者過(guò)少

為什么不同基因ID有著相同的蛋白注釋？且為什么有相同蛋白注釋信息的基因有的上調(diào)表達(dá)有的下調(diào)表達(dá)？

如何選取qPCR定量驗(yàn)證基因

qPCR結(jié)果和轉(zhuǎn)錄組測(cè)序結(jié)果不一致

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

為什么不同基因ID有著相同的蛋白注釋？且為什么有相同蛋白注釋信息的基因有的上調(diào)表達(dá)有的下調(diào)表達(dá)？