在實(shí)踐之前,我先查找了一下有關(guān)組蛋白修飾的知識(shí)點(diǎn):
(參考文章:http://www.itdecent.cn/p/8aca72809c5c)
組蛋白修飾能預(yù)測(cè)染色質(zhì)的類型(異染色質(zhì)或常染色質(zhì))、區(qū)分基因組功能元件(啟動(dòng)子、增強(qiáng)子、基因主體)以及檢測(cè)決定這些元件處于活性狀態(tài)或是抑制狀態(tài)。例如H3K4me2和H3K4me3修飾大多數(shù)富集在轉(zhuǎn)錄起始位點(diǎn)附近的啟動(dòng)子上激活基因表達(dá),而H3K27me2和H3K27me3與基因抑制相關(guān)。因此可通過(guò)CHIP-seq分析組蛋白修飾的分布尋找基因的啟動(dòng)子區(qū)和增強(qiáng)子區(qū)域及其是激活或抑制基因表達(dá)。
H3K4me1可作為增強(qiáng)子的標(biāo)志,H3K4me3作為啟動(dòng)子標(biāo)志。研究表明,H3K4me1和H3K4me3與基因激活相關(guān),H3K4me3主要富集在轉(zhuǎn)錄起始位點(diǎn)附近的啟動(dòng)子區(qū)域,而大多數(shù)H3K4me1修飾富集在增強(qiáng)子區(qū)域;H3K27ac與基因激活相關(guān),主要富集在增強(qiáng)子和啟動(dòng)子區(qū)域,當(dāng)增強(qiáng)子區(qū)只有H3K4me1修飾富集時(shí),該增強(qiáng)子處于平衡狀態(tài),而當(dāng)增強(qiáng)子區(qū)域同時(shí)富集H3K4me1和H3K27ac修飾時(shí),該增強(qiáng)子就處于激活狀態(tài)促進(jìn)基因表達(dá);H3K27的甲基化是可逆的過(guò)程,H3K27me1顯示出對(duì)轉(zhuǎn)錄具有正向影響,啟動(dòng)子區(qū)域的H3K27me3甲基化修飾時(shí)抑制基因的轉(zhuǎn)錄,而H3K27me2廣泛分布并且在沉默非細(xì)胞類型特異性增強(qiáng)子中起作用。
下表為常見的組蛋白修飾的主要分布及功能:
異染色質(zhì)是染色質(zhì)的濃縮,轉(zhuǎn)錄無(wú)活性狀態(tài),H3K9甲基化是異染色質(zhì)的標(biāo)志。H3K27me1和H3K9me3存在于著絲粒異染色質(zhì)區(qū)域,而H3K27me3和H3K9me2共同存在于抑制的常染色質(zhì)區(qū)域中。H3K9ac也與H3K14ac和H3K4me3高度共存共同作為活性基因啟動(dòng)子的標(biāo)志。
本次實(shí)踐文章:
Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma
用不同濃度的OSCC抗癌物THZ1處理兩種OSCC細(xì)胞系:KYSE510和TE7。
尋找藥物處理后的超級(jí)增強(qiáng)子。
1.下載SRA原始數(shù)據(jù):
#!/bin/bash
for ((i=251;i<=254;i++))
do wget https://sra-download.ncbi.nlm.nih.gov/traces/sra28/SRR/003028/SRR3101$i
done
2.提取fastq文件:
#!/bin/bash
for i in SRR310125*
do
echo $i
fastq-dump --gzip --split-files $i
done
每運(yùn)行一個(gè)文件,都會(huì)在家目錄下的ncbi文件里生成一個(gè)臨時(shí)文件,非常占內(nèi)存。由于我的存儲(chǔ)空間沒有了,所以我就直接下載了fastq文件。下載fastq文件的網(wǎng)址是:https://www.ebi.ac.uk/ena/data/view/SRX1530372。再?gòu)?fù)制下fastq.gz文件的地址。
網(wǎng)上有的文章提到:盡量不要用wget或curl去下載sra文件,某些情況下會(huì)導(dǎo)致下載的文件不完整。所以這次我也嘗試了用ascp下載的方法。
這里說(shuō)一下用ascp下載的方法。
安裝ASCP:
#下載
$ wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
$ tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安裝
$ bash aspera-connect-3.7.4.147727-linux-64.sh
#要去home目錄里查看是否有.aspera文件夾
$ cd /home
$ ls -a
#如果看到.aspera文件夾,代表安裝成功
#永久添加環(huán)境變量
$ echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
$ source ~/.bashrc
#查看是否可以調(diào)用
$ ascp --help
ascp的用法:ascp [參數(shù)] 目標(biāo)文件 目標(biāo)地址,在線文檔
ascp命令的常用參數(shù):
-v verbose mode 嘮叨模式,能讓你實(shí)時(shí)知道程序在干啥,方便查錯(cuò)。
-T 取消加密,否則有時(shí)候數(shù)據(jù)下載不了。
-i 提供私鑰文件的地址。
-l 設(shè)置最大傳輸速度,一般200m到500m,如果不設(shè)置,反而速度會(huì)比較低,可能有個(gè)較低的默認(rèn)值。
-k 斷點(diǎn)續(xù)傳,一般設(shè)置為值1
-Q 一般加上它
-P 提供SSH port,一般是33001。
在EBI網(wǎng)站copy下載地址一般是ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR310/004/SRR3101254/SRR3101254.fastq.gz這樣的格式。需要把ftp://ftp.sra.ebi.ac.uk換成era-fasp@fasp.sra.ebi.ac.uk:。NOTE: 這篇文章的ChIP-seq是單端測(cè)序。
我的代碼:
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/001/SRR3101251/SRR3101251.fastq.gz .
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/002/SRR3101252/SRR3101252.fastq.gz .
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/003/SRR3101253/SRR3101253.fastq.gz .
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/004/SRR3101254/SRR3101254.fastq.gz .
另外要注意的是:era-fasp@fasp.sra.ebi.ac.uk后面是:號(hào),不是路徑
最后gz結(jié)尾有一個(gè)空格,然后是"."。如果沒有空格和點(diǎn),則會(huì)報(bào)錯(cuò)。無(wú)法下載。
3.使用fastqc質(zhì)量檢查
4.bowtie2比對(duì)
下面這些代碼是按照上一次實(shí)踐的方法寫的,直接生成bam文件。因?yàn)檫@篇文獻(xiàn)的測(cè)序結(jié)果質(zhì)量很好,所以沒有去掉3'端的幾個(gè)堿基
#!/bin/bash
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101251.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_H3K27Ac.bam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101252.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_input.bam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101253.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_H3K27Ac.bam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101254.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_input.bam
下面這些代碼是bowtie2比對(duì)后生成sam文件的方法。有些文章里在進(jìn)行比對(duì)的時(shí)候是用的bowtie進(jìn)行比對(duì)的,并且設(shè)置了只保留比對(duì)一次的reads。我這里用的是bowtie2,所以沒有設(shè)置這個(gè)參數(shù)。
#!/bin/bash
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101251.fastq.gz -S TE7_H3K27Ac.sam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101252.fastq.gz -S TE7_input.sam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101253.fastq.gz -S KYSE510_H3K27Ac.sam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101254.fastq.gz -S KYSE510_input.sam
#比對(duì)率如下:
64273075 reads; of these:
64273075 (100.00%) were unpaired; of these:
1285733 (2.00%) aligned 0 times
46680241 (72.63%) aligned exactly 1 time
16307101 (25.37%) aligned >1 times
98.00% overall alignment rate
[bam_sort_core] merging from 16 files and 1 in-memory blocks...
64402758 reads; of these:
64402758 (100.00%) were unpaired; of these:
1271927 (1.97%) aligned 0 times
45320875 (70.37%) aligned exactly 1 time
17809956 (27.65%) aligned >1 times
98.03% overall alignment rate
[bam_sort_core] merging from 16 files and 1 in-memory blocks...
64555367 reads; of these:
64555367 (100.00%) were unpaired; of these:
901311 (1.40%) aligned 0 times
48336949 (74.88%) aligned exactly 1 time
15317107 (23.73%) aligned >1 times
98.60% overall alignment rate
[bam_sort_core] merging from 16 files and 1 in-memory blocks...
68947224 reads; of these:
68947224 (100.00%) were unpaired; of these:
4955211 (7.19%) aligned 0 times
45955461 (66.65%) aligned exactly 1 time
18036552 (26.16%) aligned >1 times
92.81% overall alignment rate
[bam_sort_core] merging from 17 files and 1 in-memory blocks...
5.使用MACS獲得Chip-seq富集區(qū)
以下是官方網(wǎng)站對(duì)于常規(guī)峰和“寬”峰的一些解釋(https://www.encodeproject.org/chip-seq/histone/) 。有的文章說(shuō)常規(guī)峰和寬峰分析過(guò)程會(huì)有些不一樣,所以我特異查了一下H3K27Ac是什么峰,根據(jù)這個(gè)表來(lái)看屬于常規(guī)峰。
- For narrow-peak histone experiments, each replicate should have 20 million usable fragments.
- For broad-peak histone experiments, each replicate should have 45 million usable fragments.
- H3K9me3 is an exception as it is enriched in repetitive regions of the genome. Compared to other broad marks, there are few H3K9me3 peaks in non-repetitive regions of the genome in tissues and primary cells. This results in many ChIP-seq reads that map to a non-unique position in the genome. Tissues and primary cells should have 45 million total mapped reads per replicate.

- For narrow-peak histone experiments, each replicate should have 10 million usable fragments(https://www.encodeproject.org/data-standards/terms/#read-depth).
- For broad-peak histone experiments, each replicate should have 20 million usable fragments.
$ macs2 callpeak -c /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_input.bam -t /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_H3K27Ac.bam -m 10 30 -p 1e-5 -f BAM -g hs -n TE7_H3K27Ac 2>TE7_H3K27Ac.masc2.log
$ macs2 callpeak -c /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_input.bam -t /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_H3K27Ac.bam -m 10 30 -p 1e-5 -f BAM -g hs -n KYSE510_H3K27Ac 2>KYSE510_H3K27Ac.masc2.log
-c:對(duì)照組。
-t:處理組。
--format:輸入的文件類型。
--輸出的文件前綴名稱。
--keep-dup對(duì)于重復(fù)序列的處理方式,1效果最好。指明MACS在染色體同一位置的reads(重復(fù)序列處理方式)。
--wig:輸出的文件類型。
--single-profile表示輸出單文件。
--space是文獻(xiàn)中的要求。(Wiggle files were generated using read pileups for every 50 base pair bins)
--m:This parameter is used to select the regions within MFOLD range of high-confidence enrichment ratio against background to build model. The regions must be lower than upper limit, and higher than the lower limit of fold enrichment. DEFAULT:10,30 means using all regions not too low (>10) and not too high (<30) to build paired-peaks model. If MACS can not find more than 100 regions to build model, it will use the --shiftsize parameter to continue the peak detection.This parameter is used to select the regions within MFOLD range of high-confidence enrichment ratio against background to build model. The regions must be lower than upper limit, and higher than the lower limit of fold enrichment. 構(gòu)建雙峰模型時(shí)使用,默認(rèn)[10,30]。表示選擇那些倍數(shù)變化在10-30之間的富集區(qū)域,如果找不到100個(gè)區(qū)域構(gòu)建模型,并且你還設(shè)置了--fix-biomodal,它就會(huì)用--shiftsize參數(shù)繼續(xù)分析。
call peak 后得到以下幾個(gè)文件類型:

打開peak.xls文件后,表頭有幾行顯示:

6.構(gòu)建index文件
為了在IGV里查看peak,需要把bam文件先構(gòu)建index,即生成bam.bai文件:
$ samtools index TE7_H3K27Ac.bam TE7_H3K27Ac.bam.bai
$ samtools index TE7_input.bam TE7_input.bam.bai
$ samtools index KYSE510_H3K27Ac.bam KYSE510_H3K27Ac.bam.bai
$ samtools index KYSE510_input.bam KYSE510_input.bam.bai
順便插一句:[生信人必會(huì)之samtools](https://vip.biotrainee.com/d/117-samtools)
這篇文章大概是我看到過(guò)寫的最好最全面的samtool使用方法。
7.用deeptools里的bamcoverage工具將bam文件標(biāo)準(zhǔn)化
$ bamCoverage -b TE7_H3K27Ac.bam -o TE7_H3K27Ac.bw -p 10 --normalizeUsing RPKM
$ bamCoverage -b TE7_input.bam -o TE7_input.bw -p 10 --normalizeUsing RPKM
$ bamCoverage -b KYSE510_H3K27Ac.bam -o KYSE510_H3K27Ac.bw -p 10 --normalizeUsing RPKM
$ bamCoverage -b KYSE510_input.bam -o KYSE510_input.bw -p 10 --normalizeUsing RPKM
將生成的bw文件(標(biāo)準(zhǔn)化后的)導(dǎo)入IGV:




其他文獻(xiàn)里涉及到的IGV的圖,都幾乎和我做出來(lái)的一模一樣,說(shuō)明分析過(guò)程基本沒啥問(wèn)題。
7.ROSE篩選super-enhancer
這部分是本次實(shí)踐的重點(diǎn),ROSE官網(wǎng):http://younglab.wi.mit.edu/super_enhancer_code.html
有關(guān)這個(gè)ROSE軟件講解的比較好的中文版的文章:https://blog.csdn.net/oxygenjing/article/details/77862115
ROSE的最主要用法有ROSE_main.py和ROSE_geneMapper.py。其中ROSE_main.py 用于尋找增強(qiáng)子而ROSE_geneMapper.py 用于為增強(qiáng)子相關(guān)的基因進(jìn)行注釋。
首先看一下ROSE_mian.py 用法:
(1)安裝ROSE,我們直接從其托管在Bitbucket倉(cāng)庫(kù)中克隆Python腳本
git clone https://bitbucket.org/young_computation/rose.git
也可以像這篇文章一樣https://blog.csdn.net/oxygenjing/article/details/77862115,安裝ROSE
$ wget https://bitbucket.org/young_computation/rose/get/1a9bb86b5464.zip
$ unzip 1a9bb86b5464.zip
(2)安裝后,首先準(zhǔn)備文件:peaks的gff文件。這個(gè)peak文件是MACS2 call peak之后生成的peaks文件。
官方網(wǎng)站對(duì)gff文件的格式要求:
.gff must have the following columns:
1: chromosome (chr#)
2: unique ID for each constituent enhancer region
4: start of constituent
5: end of constituent
7: strand (+,-,.)
9: unique ID for each constituent enhancer region
所以要先從peak文件里提取這些要用的列。這里要注意的是:1,2,4,5,7,9是gff文件的列數(shù),第3,6,8列不是不要了,而是要都寫成“ ”空格形式。
(剛開始我以為其他三列都不要了,所以在gff文件里只有6列,結(jié)果一直報(bào)錯(cuò)。后來(lái)按照某篇教程里寫的其他三列都換成".",結(jié)果也一直報(bào)錯(cuò)......整整折騰了我3天的時(shí)間,死活跑不通。)
$ awk '{print $1"\t"$10"\t"" ""\t"$2"\t"$3"\t"" ""\t"".""\t"" ""\t"$10}' TE7_H3K27Ac_peaks.bed > TE7_peaks.gff
這里的\t是以制表符分割的意思。每一列用\t分割,并且用""括起來(lái)。
(3)接下來(lái)創(chuàng)建一個(gè)虛擬的python2.7的環(huán)境,因?yàn)槲已b的是python3,所以需要?jiǎng)?chuàng)建一個(gè)虛擬的環(huán)境來(lái)運(yùn)行ROSE。
source activate py27
(4)還需要將samtools的PATH設(shè)置到這個(gè)文件夾里,因?yàn)镽OSE運(yùn)行時(shí)需要調(diào)用samtools。如果你的samtool沒有設(shè)置全局變量,是要多一步添加PATH的。但是因?yàn)槲业膕amtool已經(jīng)在全局變量里,可以直接在這個(gè)文件夾里打"samtools"就可以調(diào)用,所以我就沒有再設(shè)置環(huán)境變量了。
(5)之后我們需要bam文件(這個(gè)bam文件是需要先sort的。處理組,對(duì)照組),gff文件(處理組),bam.bai文件(也就是bam的index文件,處理組和對(duì)照組)。把這些文件全都放進(jìn)ROSE安裝的文件夾里,切記:運(yùn)行ROSE的時(shí)候也要在其安裝的文件夾里運(yùn)行,我也不知道這軟件開發(fā)的人是咋想的。。。
然后一切準(zhǔn)備好之后,就是見證奇跡的時(shí)刻了。(雖然我這個(gè)奇跡到了第4天才看到。。。之前3.9天都在解決報(bào)錯(cuò)問(wèn)題了)
python ROSE_main.py -g HG19 -i ./TE7/TE7_peaks.gff -r ./TE7/TE7_H3K27Ac_sorted.bam -c ./TE7/TE7_input_sorted.bam -o roseresult -s 12500 -t 2500
如果運(yùn)行時(shí)有報(bào)錯(cuò),例如有類似如下顯示:
Traceback (most recent call last):
File "ROSE_bamToGFF.py", line 249, in <module>
main()
File "ROSE_bamToGFF.py", line 240, in main
newGFF = mapBamToGFF(bamFile,gffFile,options.sense,int(options.extension),options.floor,options.rpm,options.matrix)
File "ROSE_bamToGFF.py", line 76, in mapBamToGFF
gffLocus = ROSE_utils.Locus(line[0],int(line[3]),int(line[4]),line[6],line[1])
請(qǐng)確保你的bam文件格式,gff文件格式,samtool的環(huán)境變量都沒有問(wèn)題的情況下,并且所有需要的文件在ROSE安裝的文件夾里,仍然出現(xiàn)這些報(bào)錯(cuò),你可以嘗試這樣修改源代碼:(參考官方給出的解決方法:https://bitbucket.org/young_computation/rose/issues/44/typeerror-issue)
FIX:
Make the following changes to ROSE_utils.py:
Line 602 (original): command = 'samtools view %s | head -n 1' % (bamFile)
Line 602 (new): command = './samtools view %s | head -n 1' % (bamFile)
Line 632 (original): command = 'samtools flagstat %s' % (self._bam)
Line 632 (new): command = './samtools flagstat %s' % (self._bam)
Line 657 (original): command = 'samtools view %s %s' % (self._bam,locusLine)
Line 657 (new): command = './samtools view %s %s' % (self._bam,locusLine)
最后運(yùn)行后會(huì)生成很多文件:

輸出文件如下(參考文章:https://blog.csdn.net/oxygenjing/article/details/77862115):
1.gtf(這個(gè)文件在gff文件夾里): 該文件為輸入gtf文件的副本。
2.stitched.gtf(這個(gè)文件也在gff文件夾里):該文件為通過(guò)STITCHING_DISTANCE將INPUT_CONSTITUENT_GFF拼接在一起創(chuàng)建的gff文件;文件列數(shù)如下:
chrom, name, [blank], start, end, [blank], [blank], strand, [blank], [blank], name
其中 name 字段的命名方式為:拼接起來(lái)的區(qū)域數(shù)+最左端區(qū)域ID。
3._MAPPED.gff(在mappedGFF文件夾里): 每個(gè)bam文件通過(guò)bamToGFF的輸出文件,包含以下列:
(成分ID,測(cè)試區(qū)域,平均讀取密度(單位為每百萬(wàn)位元每百萬(wàn)映射的單位讀數(shù)密度))
4.* _STITCHED * _MAPPED.gff(在mappedGFF文件夾里,處理組和對(duì)照組分別有一個(gè)文件): 每個(gè)bam文件通過(guò)bamToGFF的輸出文件,該文件中對(duì)增強(qiáng)子區(qū)域進(jìn)行了拼接,包含以下列:
(拼接增強(qiáng)子ID,測(cè)試區(qū)域,平均讀取密度(單位為百萬(wàn)映射每單位拼接增強(qiáng)子數(shù)))
5.STITCHED_ENHANCER_REGION_MAP.txt: 利用bamToGFF計(jì)算后得到的拼接enhancer密度文件,包含以下列:
(拼接增強(qiáng)子ID,染色體,拼接增強(qiáng)子起始位置,拼接增強(qiáng)子末端位置,拼接數(shù),BAM信號(hào)等級(jí),BAM信號(hào))
- AllEnhancers.table.txt:enhancer列表,包含每個(gè)增強(qiáng)子的排名和是否為超級(jí)增強(qiáng)子,內(nèi)容包括:增強(qiáng)子ID,染色體,拼接增強(qiáng)子起始位點(diǎn),拼接增強(qiáng)子末端,拼接數(shù),拼接成分大小,BAM的信號(hào),BAM的等級(jí),是否為超增強(qiáng)子:是(1)否(0)
7._SuperEnhancers.table.txt: 超級(jí)enhancer的排名,為_AllEnhancers.table.txt 文件的子集。包含以下列:
(拼接增強(qiáng)劑ID,染色體,拼接增強(qiáng)子起始位點(diǎn),拼接增強(qiáng)子末端,拼接數(shù),縫合在一起的成分的大小,RANKING_BAM的信號(hào),RANKING_BAM的等級(jí),超增強(qiáng)子的二進(jìn)制(1)與典型(0))
8._Enhancers_withSuper.bed 可以加載到UCSC瀏覽器中可視化的enhancer bed文件
其中那個(gè)png圖片就是我們需要的:所有enhancer的散點(diǎn)圖

之后是KYSE510細(xì)胞系的:
python ROSE_main.py -g HG19 -i ./KYSE510_peaks.gff -r ./KYSE510_H3K27Ac_sorted.bam -c ./KYSE510_input_sorted.bam -o KYSE510_roseresult -s 12500 -t 2500

8.ROSE注釋enhancer
python ROSE_geneMapper.py -i ./TE7_roseresult/TE7_peaks_AllEnhancers.table.txt -g HG19 -o ./TE7_roseresult 2> ./TE7_roseresult/TE7_enhancer_anno.log
python ROSE_geneMapper.py -i ./KYSE510_roseresult/KYSE510_peaks_AllEnhancers.table.txt -g HG19 -o ./KYSE510_roseresult 2> ./KYSE510_roseresult/KYSE510_enhancer_anno.log
得到以下兩個(gè)表格:

1.ENHANCER_TO_GENE.txt: enhancer重疊基因、附近基因以及最近的基因列表
2.GENE_TO_ENHANCER.txt: 以每個(gè)基因?yàn)榱忻暮推湎嚓P(guān)的增強(qiáng)子位置信息列表(https://blog.csdn.net/oxygenjing/article/details/77862115)
9.利用R做GO富集分析
這部分我也是新手,不知道過(guò)程是否正確,反正是跑通了,對(duì)不對(duì)的還需再多看看。。。
首先在上一步里,我得到了_peaks_AllEnhancers_GENE_TO_ENHANCER.txt這個(gè)表,我用的這個(gè)表進(jìn)行的GO分析。
>library(clusterProfiler)
>library(DOSE)
>library(org.Hs.eg.db)
#TE7的enhancer GO富集分析
#首先讀取文件,第一行作為列名
>enhancer.relate.gene<-read.table(file="TE7_peaks_AllEnhancers_GENE_TO_ENHANCER.txt",header=T)
#因?yàn)樵谶@個(gè)txt里的最后一列注明是否為super enhancer,如果是則為1;如果不是則空白。所以取為1的所有行,即挑選出所有的super enhancer
>gene<-enhancer.relate.gene[which(enhancer.relate.gene$IS_SUPER=='1'),]
#查看super enhancer的數(shù)據(jù)集
> head(gene)
GENE_NAME REFSEQ_ID PROXIMAL_ENHANCERS ENHANCER_RANKS IS_SUPER
1 LAMA5 NM_005560 chr20:60924936-60956028 1 1
2 RPS21 NM_001024 chr20:60924936-60956028 1 1
3 C20orf151 NM_080833 chr20:60924936-60956028 1 1
4 ADRM1 NM_007002 chr20:60924936-60956028 1 1
5 CABLES2 NM_031215 chr20:60924936-60956028 1 1
6 MIR205 NR_029622 chr1:209528209-209591314,chr1:209607925-209609032 2,1441 1
#將這個(gè)super enhancer的table第一列提出來(lái),因?yàn)榈谝涣惺腔蛎?gene_name<- gene[,1]
#查看基因名
head(gene_name)
[1] "LAMA5" "RPS21" "C20orf151" "ADRM1" "CABLES2" "MIR205"
#調(diào)用R包
library("stringr")
library("clusterProfiler")
#GO的BP分析
ego_bp <- enrichGO(gene_name,
OrgDb = org.Hs.eg.db,
keyType = 'SYMBOL',
ont = "BP",
pAdjustMethod = "BH",
pvalueCutoff = 0.001,
)
#泡泡圖
dotplot(ego_bp, font.size=10)

#GO圖
plotGOgraph(ego_bp)

#bar圖
barplot(ego_bp,showCategory = 10,title="The GO_BP enrichment analysis of all super enhancers-related genes in TE7")+
scale_size(range=c(2, 12))+
scale_x_discrete(labels=function(ego_bp) str_wrap(ego_bp,width = 25))

KYSE510的分析過(guò)程和結(jié)果我就不放進(jìn)來(lái)了,只需要把輸入的文件換掉就行,其他的一模一樣。