今天就當一個小故事看吧,看了statQuest,感覺講的很棒,于是分享給大家
原版視頻后臺回復(fù)“RNAseq”??
花花今天效率太低寫不完推送,于是我從晚上10點半開始幫她,有點緊張呀
背景 1
假設(shè)有一群正常的神經(jīng)細胞(藍色)和一群變異的神經(jīng)細胞(紅色)

那么,為什么它們會出現(xiàn)差別呢?是什么遺傳機制導(dǎo)致了這個事情呢?
因此,我們需要看一看它們的基因表達差異
背景 2
我們知道,每個細胞都由一堆染色體組成,每個染色體由一堆基因組成,當然并不是所有的基因都是活躍的,只有一部分基因是可以表達,而表達的中間過程就要經(jīng)歷mRNA轉(zhuǎn)錄本,通過高通量測序,我們就能得知:哪些基因是活躍可以表達的,并且產(chǎn)生了多少轉(zhuǎn)錄本(也就是衡量基因表達量的指標)

背景 3
將正常的細胞測一遍,再將變異的細胞測一遍,得到它們的表達量,我們后來就是比較它們的表達量差異

可以看出,基因1在兩組樣本中差異不大或者沒有差異;基因2在正常組中基本不表達,而在變異組中表達量很高,二者差別甚大;基因3有差別但比較小
RNA-seq主要的3步
Step1 構(gòu)建測序文庫
分離RNA=》將RNA打斷成小片段=〉將小RNA片段反轉(zhuǎn)錄成DNA=》加接頭
接頭兩個作用:測序儀識別;允許一臺測序儀同時運行多個樣本,提高性價比
但是需要注意:加接頭的過程是隨機的,并不是所有的接頭都被加上,有些反轉(zhuǎn)錄的DNA片段沒有加上接頭
=》PCR擴增(只有加上接頭的測序片段才能被擴增)=〉質(zhì)量檢查QC(看下文庫的濃度和片段長度)

對文庫進行測序
一塊測序板上(想象下載玻片,其實人家真名是Flowcell)能包含多于400,000,000個片段,垂直于測序板排列。
測序儀有四種顏色的熒光探針A、T、C、G,與測序片段上堿基互補,結(jié)合上就“放煙花”表示慶祝??(就是閃一下自己帶的熒光,比如A帶紅光,G帶藍光,C綠光,T橙光)。當然,這一切都逃不過測序儀自帶的高精度照相機的法眼【測序儀為什么貴?就是在于它的高精度照相機,想想要分辨這么微小的亮光,密密麻麻,密集恐機癥都犯了??】許許多多的測序片段中同一排的堿基測完了,就把原來熒光的那個堿基沖掉了,再放下一個熒光堿基進來結(jié)合、放光

測序就是這樣,結(jié)果就得到了raw data,就是fastq數(shù)據(jù)
Step 2 原始數(shù)據(jù)處理
質(zhì)控=》過濾garbage reads=〉比對到參考基因組=》再數(shù)一下每個基因比對上多少reads
garbage reads:
有些時候接頭并沒有加到測序片段,而是他們直接結(jié)合,也能進行測序,但測得結(jié)果是沒用的
比對到參考基因組
先將大的基因組序列打斷成許多小片段,然后為了方便接下來尋找這些片段,需要對他們進行構(gòu)建索引index(目的就是標注每個小片段的位置)
再將測序的reads和基因組一樣,也是打斷成小片段,然后把它的小片段比對到基因組的小片段上,比對上的會給出位置信息

統(tǒng)計reads數(shù)得到表達矩陣
就想這樣:第一列是基因名(人類基因組有大概2w基因,因此大概有2w行)
其他列是每個測序樣本比對上的數(shù)量(6-成百上千不等),這里的6的考慮的是處理對照各3個重復(fù),即Bulk-seq;大樣本量的RNA-seq比如Single-cell,每個細胞都是一個樣本,因此成百上千
每一行都是原始的統(tǒng)計值,每個基因在每個樣本中被抓到多少次

標準化表達矩陣
進行標準化的原因是:某些樣本可能本身測序質(zhì)量就差,但并不代表人家沒東西;或者有的樣本測序的時候加的濃度比較高,因此統(tǒng)計時占優(yōu)勢,但并不公平!
因此需要讓大家在同一起跑線

Step 3 可視化
比如PCA分析,看看樣本之間能否區(qū)分開,另外可以排除明顯不對的樣本,比如這里的wt2

然后看差異表達基因(就是正常與變異樣本的差異)
紅色是差異的,黑色是共同的

如果發(fā)現(xiàn)了感興趣的差異基因,怎么辦?
- 這個基因是你研究的,接下來通過實驗驗證
- 對這個基因不熟悉,只是感興趣,就可以做GO、KEGG注釋,看看它在正常還是變異樣本中有富集
歡迎關(guān)注我們的公眾號~_~
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個不拽術(shù)語、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到Bioplanet520@outlook.com
