R-loop數(shù)據(jù)分析之R-ChIP(環(huán)境準(zhǔn)備)

提高自己分析能力的一個(gè)好的方法就是重復(fù)別人文章里的分析策略,所以這里會(huì)嘗試對(duì)第一篇介紹R-ChIP技術(shù)文章"R-ChIP Using Inactive RNase H Reveals Dynamic Coupling of R-loops with Transcriptional Pausing at Gene Promoters"里的所有分析進(jìn)行重復(fù),我重復(fù)所用代碼會(huì)更新在我的GitHub上,地址為https://github.com/xuzhougeng/R-ChIP-data-analysis

選擇這篇文章進(jìn)行重復(fù)的理由有三點(diǎn):

  • 一:最近要探索R-loop數(shù)據(jù)分析流程
  • 二:這篇文章的通訊作者是大牛,Xiang-Dong Fu
  • 三:這篇文章將分析所用代碼都托管在https://github.com/Jia-Yu-Chen

背景知識(shí)

我整理下和數(shù)據(jù)分析有關(guān)的幾個(gè)知識(shí)點(diǎn):

  • R-loop是一種RNA/DNA三鏈結(jié)構(gòu)體,與基因組穩(wěn)定性和轉(zhuǎn)錄調(diào)控有關(guān)。
  • 通過電鏡觀察,R-loop大小在150~500bp之間。
  • 硫酸氫鹽測(cè)序(bisulfate sequencing)表明R-loop主要出現(xiàn)在基因啟動(dòng)子的下游。
  • R-loop所在非模板鏈(又稱編碼鏈)具有很強(qiáng)的序列偏好性,計(jì)算方式為(G-C)/(G+C)

R-loop的高通量分析方法目前都是依賴于S9.6抗體捕獲RNA/DNA雜合體,然后超聲打斷或酶切,如果后續(xù)對(duì)DNA進(jìn)行測(cè)序,那就是DRIP-seq(DNA:RNA immunoprecipitation [DRIP] sequencing),如果后續(xù)對(duì)RNA逆轉(zhuǎn)成的cDNA繼續(xù)測(cè)序,那就是 [DRIPc]-seq(DNA:RNA immunoprecipitation followed by cDNA conversion)。 然而酶切的分辨率不夠,超聲又容易破壞脆弱的R-loop結(jié)構(gòu),于是就導(dǎo)致目前很多文獻(xiàn)報(bào)道有矛盾。

這篇文章就開發(fā)了一種新方法,基于RNase H的體內(nèi)R-loop譜檢測(cè)策略。作者構(gòu)建一種沒有催化活性,且在C端有一個(gè)V5標(biāo)簽的RNASE H1,RNASEH1與RNA/DNA結(jié)合,超聲打碎,用anti-V5抗體進(jìn)行染色體免疫共沉淀(ChIP)。隨后RNA/DNA雜合體轉(zhuǎn)換成雙鏈DNA(ds-DNA), 之后便是鏈特異性測(cè)序。

關(guān)于鏈特異性測(cè)序,推薦拜讀鏈特異性測(cè)序那點(diǎn)事

R-loop

準(zhǔn)備分析環(huán)境

軟件部分

文章中"Software and Algorithms"這部分列出了分析主要所用的軟件,加上下載SRA數(shù)據(jù)所需工具和一些常用軟件,一共要安裝的軟件如下:

  • SRA Toolkit: 數(shù)據(jù)下載工具
  • Bowtie2: 比對(duì)工具
  • SAMtools: SAM格式處理工具
  • BEDtools: BED格式處理工具
  • MACS2: 比對(duì)后找peak
  • R: 統(tǒng)計(jì)作圖
  • Ngsplot: 可視化工具
  • Deeptools: BAM文件分析工具, 可作圖。

軟件安裝部分此處不介紹,畢竟如果你連軟件安裝都有困難,那你應(yīng)該需要先學(xué)點(diǎn)Linux基礎(chǔ),或者去看生信必修課之軟件安裝

分析項(xiàng)目搭建

使用mkdir創(chuàng)建項(xiàng)目文件夾,用于存放后續(xù)分析的所用到的數(shù)據(jù)、中間文件和結(jié)果

mkdir -p r-chip/{analysis/0-raw-data,index,scripts,results}

個(gè)人習(xí)慣,在項(xiàng)目根目錄下創(chuàng)建了四個(gè)文件夾

  • analysis: 存放原始數(shù)據(jù)、中間文件
  • index: 存放比對(duì)軟件索引
  • scripts: 存放分析中用到的腳本
  • results: 存放可用于放在文章中的結(jié)果

后續(xù)所有的操作都默認(rèn)在r-chip下進(jìn)行,除非特別說明。

數(shù)據(jù)下載

根據(jù)文章提供的GEO編號(hào)(GEO: GSE97072)在NCBI上檢索, 按照如下步驟獲取該編號(hào)下所有數(shù)據(jù)的元信息, 我將其重命名為"download_table.txt"然后上傳到服務(wù)器, 。

獲取數(shù)據(jù)元信息

使用如下命令進(jìn)行數(shù)據(jù)下載

tail -n+2 download_table.txt | cut -f 6 | xargs -i prefetch {} >> download.log &

下載的數(shù)據(jù)默認(rèn)情況下存放在~/ncbi/public/sra, 需要用fastq-dump解壓縮到analysis/0-raw-data. fastq-dump的使用說明見Fastq-dump: 一個(gè)神奇的軟件

新建一個(gè)腳本,叫做uncompress.sh,存放在scripts文件下,代碼如下

#!/bin/bash
set -e
set -o pipefail 
set -u

tail -n+2 download_table.txt | cut -f 6 | while read id; 
do 
fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' &id -O analysis/0-raw-data & 
done

然后用bash scripts/uncompress.sh運(yùn)行。

注意:這是單端測(cè)序,所以每個(gè)SRR只會(huì)解壓縮出一個(gè)文件

此外還需要下載human genome (hg19)的bowtie2索引,用于后續(xù)bowtie2比對(duì)。

curl -s ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/hg19.zip -o index/hg19.zip &
cd index
unzip hg19.zip
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容