2019-12-09

學習內(nèi)容(RNA-Seq的原理及流程)

知識理論

今天上課的內(nèi)容是關(guān)于轉(zhuǎn)錄組RNA-Seq的學習,首先先從為什么要懂得測序,然后講解了測序的發(fā)展歷程,再

從測序的一代測序到三代測序的講解,因為之前有了解基礎(chǔ)內(nèi)容,所以在聽的時候感覺很通暢。成熟的流程,完善的數(shù)據(jù)處理方案。

一代測序:歷史:第一代DNA測序技術(shù)(又稱Sanger測序)在1975年,由Sanger等人開創(chuàng),并在1977年完成第一個基因組序列(噬菌體X174),全長5375個堿基。研究人員經(jīng)過30年的實踐并對技術(shù)及測序策略的不斷改進(如使用了不同策略的作圖法、鳥槍法),2001年完成的首個人類基因組圖譜就是以改進了的Sanger法為其測序基礎(chǔ)。

原理:在4個DNA合成反應(yīng)體系(含dNTP)中分別加入一定比例帶有標記的ddNTP(分為:ddATP,ddCTP,ddGTP和ddTTP),通過凝膠電泳和放射自顯影后可以根據(jù)電泳帶的位置確定待測分子的DNA序列。由于ddNTP的2’和3’都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA合成反應(yīng)

二代測序:歷史:第一代DNA測序技術(shù)(又稱Sanger測序)在1975年,由Sanger等人開創(chuàng),并在1977年完成第一個基因組序列(噬菌體X174),全長5375個堿基。研究人員經(jīng)過30年的實踐并對技術(shù)及測序策略的不斷改進(如使用了不同策略的作圖法、鳥槍法),2001年完成的首個人類基因組圖譜就是以改進了的Sanger法為其測序基礎(chǔ)。

原理:在4個DNA合成反應(yīng)體系(含dNTP)中分別加入一定比例帶有標記的ddNTP(分為:ddATP,ddCTP,ddGTP和ddTTP),通過凝膠電泳和放射自顯影后可以根據(jù)電泳帶的位置確定待測分子的DNA序列。由于ddNTP的2’和3’都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA合成反應(yīng)

三代測序:單分子測序
背景:測序技術(shù)經(jīng)過第一代、第二代的發(fā)展,讀長從一代測序的近1000bp,降到了二代測序的幾百bp,通量和速度大幅提升,那么第三代測序的發(fā)展思路在于保持二代測序的速度和通量優(yōu)勢同時,彌補其讀長較短的劣勢。三代測序與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增。

1、Oxford nanopore

納米孔 + 電流檢測技術(shù)

原理:該技術(shù)設(shè)計了一種特殊的納米孔,孔內(nèi)共價結(jié)合有分子接頭,最終得到電信號而不是光信號或pH信號的測序技術(shù)。當DNA堿基通過納米孔時,電荷將發(fā)生變化,因而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的),靈敏的電子設(shè)備檢測到這些變化從而鑒定所通過的堿基。

優(yōu)勢劣勢:

①讀長很長,大約在幾十kb,甚至100 kb;

②錯誤率目前相比較高,且是隨機錯誤,而不是聚集在讀取的兩端;

③數(shù)據(jù)可實時讀取;

④通量很高(30x人類基因組有望在一天內(nèi)完成);

⑤起始DNA在測序過程中不被破壞;

⑥樣品制備簡單又便宜;

⑦可直接測序RNA。

轉(zhuǎn)錄調(diào)控的測序包括:轉(zhuǎn)錄組測序,表達譜測序,small RNA測序,Cric RNA測序,LncRNA測序,全長轉(zhuǎn)錄組測序,甲基化測序。

完善的項目流程:售前咨詢,樣品提取,文庫構(gòu)建,上機測序,信息分析,技術(shù)答疑

到測序平臺再到測序?qū)嶒炘O(shè)計講解到位,之后進入實戰(zhàn)的操作。

實戰(zhàn)操作

環(huán)境安裝

昨天在小郭老師的提前演示下,有了大概基礎(chǔ)流程框架,在今天的講課下,有了深刻的印象。

通過 lsb_release –a 命令查看系統(tǒng):第一行版本信息,第二行發(fā)行者id,第三行該發(fā)行版的描述信息,第四行當前系統(tǒng)是發(fā)行版的具體版號;第五行是發(fā)行版代號。

查看CPU個數(shù) cat /proc/cpuinfo | grep “physical id” | uniq | wc –l ; 查看CPU核數(shù) cat /proc/cpuinfo | grep "cpu cores" | uniq | wc –l ; 查看CPU線程 cat /proc/cpuinfo | grep "processor" |wc -l

通過free –m查看內(nèi)存

通過df –H查看剩余空間

Anaconda是一個自動化管理軟件的工具 Pro:1.安裝簡介,2.各個軟件依賴的環(huán)境一同打包且相互隔離 Con:文件較大,包含大量的包 Miniconda為其精簡版a 需要什么軟件再去下載 Bioconda 是生物軟件庫 可以利用Conda快速安裝絕大多數(shù)生物學軟件

wget -c https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.sh ? 安裝Miniconda sh Miniconda2-latest-Linux-x86_64.sh ? ? 更新系統(tǒng)環(huán)境 source ~/.bashrc ? 調(diào)用幫助文檔? 創(chuàng)建名為rna的軟件環(huán)境來安裝轉(zhuǎn)錄組學分析的生物信息學軟件 conda create -n rna python=2 創(chuàng)建小環(huán)境成功,并成功安裝python2版本 每建立一個小環(huán)境,安裝一個python=2的軟件作為依賴 ? 查看當前conda環(huán)境 conda info --envs ? 每次運行前,激活創(chuàng)建的小環(huán)境rna conda activate rna

補充:

? 可以一次安裝多個軟件 conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon conda install --help ? 運行以下語句,不出現(xiàn)報錯表示安裝成功 prefetch –help; fastq-dump --help trim_galore –help; fastqc --help hisat2 –h; featureCounts; multiqc --help

數(shù)據(jù)下載

了解基因組原理:指生物體所有遺傳物質(zhì)的總和。這些遺傳物質(zhì)包括DNA或RNA(病毒RNA)

參考基因組:測序得到的是幾百bp的短read, 相當于把拼圖打散了給你。如果沒有參考基因組,從頭(de novo)組裝等于是重走人類基因組計劃的老路,也就是打散了拼圖,卻不告訴你原來是什么樣子,那么任務(wù)將會及其艱巨。?還好人類基因組已經(jīng)組裝好了,我們只需要把我們測得序列回貼(mapping)回去,畢竟人與人之間的差距只有不到1%差異, 允許mismatch就行。

在之的數(shù)據(jù)下載中就是對基因和參考基因進行下載

參考基因組三大網(wǎng)站:1、Ensembl http://www.ensembl.org/index.html 2、 NCBI https://www.ncbi.nlm.nih.gov/guide 3、 UCSC http://genome.ucsc.edu

下載參考基因組:ftp用wget

http 用類似迅雷軟件下載

參考基因組的注釋文件:GFF3全稱為general feature format,這種格式主要是用來注釋基因組。 GTF全稱為gene transfer format,主要是用來對基因進行注釋


image.png
  1. type :屬性的類型,如gene,repeat_region,exon,CDS等。

  2. start position :屬性對應(yīng)片段的起點。從1開始計數(shù)。

  3. end position :屬性對應(yīng)片段的終點。一般比起點的數(shù)值要大。

  4. score :得分,對于一些可以量化的屬性,可以在此設(shè)置一個數(shù)值以表示程度的不同。如果為空,用點(.)代替。

  5. strand :“+”表示正鏈,“-”表示負鏈,“.”表示不需要指定正負鏈。

  6. phase :步進。對于編碼蛋白質(zhì)的CDS來說,本列指定下一個密碼子開始的位置。可以是0,1或2,表示到達下一個密碼子需要跳過的堿基個數(shù)。對于其它屬性,則用點(.)代替。

  7. attributes :屬性一個包含眾多屬性的列表。常用的標簽有:IDFeature的標識。該ID具有唯一性。NameFeature的展示名稱。Name的值在可視化的時候得到展示。因此,Name可以根據(jù)自己展示的需要隨意取值。AliasFeature的第2個Name。

數(shù)據(jù)下載的網(wǎng)站

Gencode數(shù)據(jù)庫:ENCODE計劃的衍生品,主要記錄了基因組的功能注釋(https://www.gencodegenes.org)

GSEA分析數(shù)據(jù)(MSigDB:對于human的基因,從位置,功能,代謝途徑,靶標結(jié)合等多種角度出發(fā),構(gòu)建出了許多的基因集合,一個基因集合中就是具有相近位置或類似功能的許多基因的,Broad Institute研究所將它們構(gòu)建的基因集合保存在MSigDB數(shù)據(jù)庫中。(官網(wǎng):http://software.broadinstitute.org/gsea/index.jsp

到MSigDB官網(wǎng) (需要郵箱注冊) http://software.broadinstitute.org/gsea/downloads.jsp#msigdb 用迅雷類似軟件一鍵全部下載。

其他相關(guān)數(shù)據(jù)網(wǎng)站:? ShortReadArchive(SRA)(http://www.ncbi.nlm.nih.gov/sra)是NCBI提供的數(shù)據(jù)存儲服務(wù),儲存海量的公開的高通量測序數(shù)據(jù)。 ? SRAHandbook(http://www.ncbi.nlm.nih.gov/books/NBK47528/)包含ShortRead Archive的詳細說明。

SRA數(shù)據(jù)庫

方法1.獲取所需下載鏈接(https://www.ncbi.nlm.nih.gov/sra?term=SRP139147&cmd=DetailsSearch),通過文獻得到SRA數(shù)據(jù)庫里的名字,獲取RunInfo

本地打開RunInfo文件找到下載路徑

在Linux上下載Aspera Connect wget https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz

注意下載的版本,不同版本可能命令不一樣,所以要多查看幫助文檔

安裝Aspera Connect bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh 添加并激活環(huán)境變量 echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc source ~/.bashrc 調(diào)用幫助文檔 ascp --help

通過Aspera Connect下載

他的下載規(guī)律:/sra/sra-instant/reads/ByRun/sra/{SRR|ERR|DRR}/<first 6 characters of accession>/<accession>/<accession>.sra

ascp -QT -l 300m -P33001 i/home/ydzhou/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR697/ SRR6974318 /SRR6974318.sra ./

方法二:用ENA數(shù)據(jù)庫

European Nucleotide Archive,屬于EBI (European Bioinformatics Institute),功能同SRA數(shù)據(jù)庫,最方便的是可以直接下載fastq (.gz)文件,可以省去了一部分工作量。

1.獲取所需下載鏈接

2.通過文獻得到ENA數(shù)據(jù)庫里的名字

3.獲取ftp下載鏈接

4.下載完成之后,打開txt文件

利用批量aspera去下載

先建好目錄 mkdir -p ~/raw/PRJNA449418 mkdir ~/raw/PRJNA449427 cd ~/raw/PRJNA449418 寫入txt cat > id.txt 將上面的文件全部粘貼進去并統(tǒng)一前綴統(tǒng)一改為 era-fasp@fasp.sra.ebi.ac.uk: cat id.txt |tr “;” “\n”| sed 's/ //:/'|sed 's/ftp/era-fasp@fasp/g’

把openssh拷貝過來到當前目錄 cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ./

寫bash腳本 cat> wget.sh #!bin/bash cat id.txt |while read id;do (ascp -QT -l 300m -P33001 -i /home/ydzhou/zzz/asperaweb_id_dsa.openssh $id ./);done /home/ydzhou/.aspera/connect/etc/home/ydzhou/.aspera/connect/etc/asperaweb_id_dsa.openssh查看指令是否正確 cat wget.sh

后臺運行 nohup sh wget.sh &

fastq-dump是sratoolkit軟件中的一個功能。sra是NCBI 推出的存儲高通量數(shù)據(jù)的格式,而平常我們工作用得多是fastq格式,所以需要把sra轉(zhuǎn)成fastq格式

直接下載ENA數(shù)據(jù)庫可以跳過這一步??!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容