提高自己分析能力的一個(gè)好的方法就是重復(fù)別人文章里的分析策略,所以這里會(huì)嘗試對(duì)第一篇介紹R-ChIP技術(shù)文章"R-ChIP Using Inactive RNase H Reveals Dynamic Coupling of R-loops with Transcriptional Pausing at Gene Promoters"里的所有分析進(jìn)行重復(fù),我重復(fù)所用代碼會(huì)更新在我的GitHub上,地址為https://github.com/xuzhougeng/R-ChIP-data-analysis
選擇這篇文章進(jìn)行重復(fù)的理由有三點(diǎn):
- 一:最近要探索R-loop數(shù)據(jù)分析流程
- 二:這篇文章的通訊作者是大牛,Xiang-Dong Fu
- 三:這篇文章將分析所用代碼都托管在https://github.com/Jia-Yu-Chen
背景知識(shí)
我整理下和數(shù)據(jù)分析有關(guān)的幾個(gè)知識(shí)點(diǎn):
- R-loop是一種RNA/DNA三鏈結(jié)構(gòu)體,與基因組穩(wěn)定性和轉(zhuǎn)錄調(diào)控有關(guān)。
- 通過電鏡觀察,R-loop大小在150~500bp之間。
- 硫酸氫鹽測(cè)序(bisulfate sequencing)表明R-loop主要出現(xiàn)在基因啟動(dòng)子的下游。
- R-loop所在非模板鏈(又稱編碼鏈)具有很強(qiáng)的序列偏好性,計(jì)算方式為(G-C)/(G+C)
R-loop的高通量分析方法目前都是依賴于S9.6抗體捕獲RNA/DNA雜合體,然后超聲打斷或酶切,如果后續(xù)對(duì)DNA進(jìn)行測(cè)序,那就是DRIP-seq(DNA:RNA immunoprecipitation [DRIP] sequencing),如果后續(xù)對(duì)RNA逆轉(zhuǎn)成的cDNA繼續(xù)測(cè)序,那就是 [DRIPc]-seq(DNA:RNA immunoprecipitation followed by cDNA conversion)。 然而酶切的分辨率不夠,超聲又容易破壞脆弱的R-loop結(jié)構(gòu),于是就導(dǎo)致目前很多文獻(xiàn)報(bào)道有矛盾。
這篇文章就開發(fā)了一種新方法,基于RNase H的體內(nèi)R-loop譜檢測(cè)策略。作者構(gòu)建一種沒有催化活性,且在C端有一個(gè)V5標(biāo)簽的RNASE H1,RNASEH1與RNA/DNA結(jié)合,超聲打碎,用anti-V5抗體進(jìn)行染色體免疫共沉淀(ChIP)。隨后RNA/DNA雜合體轉(zhuǎn)換成雙鏈DNA(ds-DNA), 之后便是鏈特異性測(cè)序。
關(guān)于鏈特異性測(cè)序,推薦拜讀鏈特異性測(cè)序那點(diǎn)事

準(zhǔn)備分析環(huán)境
軟件部分
文章中"Software and Algorithms"這部分列出了分析主要所用的軟件,加上下載SRA數(shù)據(jù)所需工具和一些常用軟件,一共要安裝的軟件如下:
- SRA Toolkit: 數(shù)據(jù)下載工具
- Bowtie2: 比對(duì)工具
- SAMtools: SAM格式處理工具
- BEDtools: BED格式處理工具
- MACS2: 比對(duì)后找peak
- R: 統(tǒng)計(jì)作圖
- Ngsplot: 可視化工具
- Deeptools: BAM文件分析工具, 可作圖。
軟件安裝部分此處不介紹,畢竟如果你連軟件安裝都有困難,那你應(yīng)該需要先學(xué)點(diǎn)Linux基礎(chǔ),或者去看生信必修課之軟件安裝
分析項(xiàng)目搭建
使用mkdir創(chuàng)建項(xiàng)目文件夾,用于存放后續(xù)分析的所用到的數(shù)據(jù)、中間文件和結(jié)果
mkdir -p r-chip/{analysis/0-raw-data,index,scripts,results}
個(gè)人習(xí)慣,在項(xiàng)目根目錄下創(chuàng)建了四個(gè)文件夾
- analysis: 存放原始數(shù)據(jù)、中間文件
- index: 存放比對(duì)軟件索引
- scripts: 存放分析中用到的腳本
- results: 存放可用于放在文章中的結(jié)果
后續(xù)所有的操作都默認(rèn)在r-chip下進(jìn)行,除非特別說明。
數(shù)據(jù)下載
根據(jù)文章提供的GEO編號(hào)(GEO: GSE97072)在NCBI上檢索, 按照如下步驟獲取該編號(hào)下所有數(shù)據(jù)的元信息, 我將其重命名為"download_table.txt"然后上傳到服務(wù)器, 。

使用如下命令進(jìn)行數(shù)據(jù)下載
tail -n+2 download_table.txt | cut -f 6 | xargs -i prefetch {} >> download.log &
下載的數(shù)據(jù)默認(rèn)情況下存放在~/ncbi/public/sra, 需要用fastq-dump解壓縮到analysis/0-raw-data. fastq-dump的使用說明見Fastq-dump: 一個(gè)神奇的軟件
新建一個(gè)腳本,叫做uncompress.sh,存放在scripts文件下,代碼如下
#!/bin/bash
set -e
set -o pipefail
set -u
tail -n+2 download_table.txt | cut -f 6 | while read id;
do
fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' &id -O analysis/0-raw-data &
done
然后用bash scripts/uncompress.sh運(yùn)行。
注意:這是單端測(cè)序,所以每個(gè)SRR只會(huì)解壓縮出一個(gè)文件
此外還需要下載human genome (hg19)的bowtie2索引,用于后續(xù)bowtie2比對(duì)。
curl -s ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/hg19.zip -o index/hg19.zip &
cd index
unzip hg19.zip