Chip-seq學習記錄

關于概念問題,很重要

第1篇:ATAC-seq的背景介紹以及與ChIP-Seq的異同https://mp.weixin.qq.com/s/gLcNZkzzQI4AvZs-0DgG5Q

流程

image-20191014150758466

ATAC系列連載:

第1篇:ATAC-seq的背景介紹以及與ChIP-Seq的異同

https://mp.weixin.qq.com/s/gLcNZkzzQI4AvZs-0DgG5Q

【ATAC-Seq簡介】

ATAC-seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing) 是2013年由斯坦福大學William J. Greenleaf和Howard Y. Chang實驗室開發(fā)的用于研究染色質可及性(通常也理解為染色質的開放性)的方法, 原理是通過轉座酶Tn5容易結合在開放染色質的特性,然后對Tn5酶捕獲到的DNA序列進行測序。
真核生物的核DNA并不是裸露的,而是與組蛋白結合形成染色體的基本結構單位核小體,核小體再經(jīng)逐步的壓縮折疊最終形成染色體高級結構(如人的DNA鏈完整展開約2m長,經(jīng)過這樣的折疊就變成了納米級至微米級的染色質結構而可以儲存在小小的細胞核)。而DNA的復制轉錄是需要將DNA的緊密結構打開,從而允許一些調控因子結合(轉錄因子或其他調控因子)。這部分打開的染色質,就叫開放染色質,打開的染色質允許其他調控因子結合的特性稱為染色質的可及性(chromatin accessibility)。因此,認為染色質的可及性與轉錄調控密切相關。
開放染色質的研究方法有ATAC-seq以及傳統(tǒng)的DNase-Seq及FAIRE-seq等,ATAC-Seq由于所需細胞量少,實驗簡單,可以在全基因組范圍內檢測染色質的開放狀態(tài),目前已經(jīng)成為研究染色質開放性的首選技術方法。

img

[Nat Methods, 2013. doi: 10.1038/nmeth.2688. Epub 2013 Oct. ]

【ATAC-Seq與CHIP-Seq的異同】

ATAC-Seq與ChIP-Seq的不同的是ATAC-Seq是全基因組范圍內檢測染色質的開放程度,可以得到全基因組范圍內的蛋白質可能結合的位點信息,一般用于不知道特定的轉錄因子,用此方法與其他方法結合篩查感興趣的特定調控因子;但是ChIP-Seq是明確知道感興趣的轉錄因子是什么,根據(jù)感興趣的轉錄因子設計抗體去做ChIP實驗拉DNA,驗證感興趣的轉錄因子是否與DNA存在相互作用。ATAC-Seq、ChIP-Seq、Dnase-Seq、MNase-Seq、FAIRE-Seq整體的分析思路一致,找到富集區(qū)域,對富集區(qū)域進行功能分析。

  • ChIP-Seq是揭示特定轉錄因子或蛋白復合物的結合區(qū)域,實際是研究DNA和蛋白質的相互作用,利用抗體將蛋白質和DNA一起富集,并對富集到的DNA進行測序。

  • DNase-Seq、ATAC-Seq、FAIRE-Seq都是用來研究開放染色質區(qū)域。DNase-Seq是用的DNase I內切酶識別開放染色質區(qū)域,而ATAC-seq是用的Tn5轉座酶,隨后進行富集和擴增;FAIRE-Seq是先進行超聲裂解,然后用酚-氯仿富集。

  • MNase-Seq是用來鑒定核小體區(qū)域。

    img

[An overview of ChIP–seq, DNase-seq, ATAC-seq, MNase-seq and FAIRE–seq experiments]

【CHIP-Seq簡介】

ChIP實驗(Chromatin immunoprecipitation)即染色質免疫沉淀,根據(jù)DNA與蛋白質相互作用的原理,分離富集與感興趣的蛋白相互作用的DNA。ChIP-Seq即對分離得到的DNA擴增測序,然后通過分析得到DNA的富集區(qū)域也稱為peaks,同時可以鑒定過表達的序列motif以及進行功能注釋分析。

img

[ChIP-Seq Overall]

下面這一部分將會介紹ChIP-Seq數(shù)據(jù)分析的整個流程,從實驗設計到產(chǎn)生原始的測序reads,以及到最后的功能富集分析和motif查找。

img

實驗設計和文庫構建

文庫構建包括以下5步驟:

  • 蛋白質與DNA的交聯(lián)
  • 超聲打斷DNA鏈
  • 加附有抗體的磁珠用于免疫沉淀
  • 解交聯(lián),純化DNA
  • DNA片段大小選擇和PCR擴增

富集到的DNA片段只有一部分是真實的信號(感興趣的蛋白結合的DNA區(qū)域),這個比例取決于number of active binding sites, the number of starting genomes, and the efficiency of the IP.

ChIP-Seq富集序列存在以下特點:

  • 開放染色質區(qū)域比緊密區(qū)域更易打斷;
  • 重復序列會出現(xiàn)似乎被富集的現(xiàn)象
  • 序列在整個基因組上不均勻分布

因此,ChIP-Seq需要有合適的對照組,對照樣本需要滿足以下其中一個條件:

  • 沒有IP(input DAN)
  • 沒有抗體 ("mock IP")
  • 沒有特定的抗體 (IgG "mock IP")
img
img

示例數(shù)據(jù)介紹

所用到的示例數(shù)據(jù)是來自于人類胚胎干細胞系(h1-ESC)中Nanog和Pou5f1(Oct4)兩個轉錄因子的結合圖譜。這兩個轉錄因子的功能涉及干細胞的多能性,該研究的目標之一是探究這兩個轉錄因子在轉錄調控中單獨和相互的調控作用。

兩組重復,每組重復包括3個實驗樣本信息,共6個樣本,數(shù)據(jù)分析中只用到了12號染色體的信息。

  • Nanog IP
  • Pou5f1 IP
  • Control input DNA
img

分析環(huán)境配置

這個課程提供了示例數(shù)據(jù)和分析代碼,可以參考這里連接他們的服務器,我沒有連接成功,不知道是不是打開方式不對,大家可以嘗試下,如果連接成功,這一部分就是配置服務器的環(huán)境,準備數(shù)據(jù);如果也連接不上可以用自己的數(shù)據(jù)或者下載公共數(shù)據(jù)。

img

第2篇:原始數(shù)據(jù)的質控、比對和過濾

https://mp.weixin.qq.com/s/WmMBMYFCsXkl4QZ7y8AoEg

這部分內容包括對原始測序數(shù)據(jù)質控,然后比對過濾,這是所有NGS數(shù)據(jù)處理的上游分析。

  • ATAC-Seq與其他方法不同的一點是需要過濾去除線粒體(如果是植物,還需要過濾葉綠體),因為線粒體DNA是裸露的,也可以被Tn5酶識別切割。
  • 另外一點需要注意的是課程中給出的是單端比對的示例代碼,如果是雙端測序做相應更改即可。

學習目標

  • 用FastQC進行質控檢測
  • 用Trimmomatic進行質量過濾
  • 用Bowtie2比對,并理解相關參數(shù)含義

測序reads 的質控流程示意圖

img

img

FASTQC

首先對拿到的原始測序數(shù)據(jù)(fastq或fastq.gz格式)進行質控檢測,直接用fastqc軟件,再加上multiqc將多個檢測結果一起展示。
如:

fastqc -o out_dir raw_data/*gz
multiqc *fastqc.zip --ignore *.html

Trimmomatic

Trimmomatic 可以用于去除接頭,過濾低質量數(shù)據(jù)。相同功能的軟件還有很多,如trim_galorecutadapt等,個人比較喜歡trim_galore可以自動識別接頭類型。

# 課程中給出的Trimmomatic 的用法(單端測序)
$ java -jar /opt/Trimmomatic-0.33/trimmomatic-0.33.jar SE \
-threads 2 \
-phred33 \
H1hesc_Input_Rep1_chr12.fastq \
../results/trimmed/H1hesc_Input_Rep1_chr12.qualtrim20.minlen36.fq \
LEADING:20 \
TRAILING:20 \
MINLEN:36

Trimmomatic參數(shù)含義:可以參考NGS 數(shù)據(jù)過濾之 Trimmomatic 詳細說明
trim_galore使用示例

trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 --paired fq1 fq2  --gzip -o input_data_dir
# 重新用fastqc檢測進行過濾后的reads質量
fastqc -o out_dir *fq.gz
multiqc *fastqc.zip --ignore *.html

比對

Bowtie2是一個快速精確的比對工具,基于Burrows-Wheeler Transform 構建基因組的FM 索引,比對過程所耗內存少。Bowtie2支持局部、雙端、缺口比對模式,對大于50bp的reads比對效果更好(小于50bp的reads用Bowtie1)。

創(chuàng)建Bowtie2索引

bowtie2-build <path_to_reference_genome.fa> <prefix_to_name_indexes>
# Can find indexes for the entire genome on Orchestra using following path: /groups/shared_databases/igenome/Homo_sapiens/UCSC/hg19/Sequence/Bowtie2Index/

Bowtie2 比對

  • p: 線程數(shù)
  • q: reads是fastq格式
  • x: index路徑
  • U: fastq路徑
  • S: 輸出Sam格式文件
## 課程中給出的代碼是單端比對
bowtie2 -p 2 -q \
-x ~/ngs_course/chipseq/reference_data/chr12\
-U ~/ngs_course/chipseq/results/trimmed/H1hesc_Input_Rep1_chr12.qualtrim20.minlen36.fq \
-S ~/ngs_course/chipseq/results/bowtie2/H1hesc_Input_Rep1_chr12_aln_unsorted.sam

NOTE: 如果fastq文件是沒有經(jīng)過trim的,可以用局部比對執(zhí)行soft-clipping,加上參數(shù)--local

過濾reads

首先將sam文件轉為bam格式,再對bam文件進行排序,接著過濾唯一比對的reads,去除線粒體reads。
轉化為bam格式
使用samtools轉換格式

samtools view -h -S -b \
-o H1hesc_Input_Rep1_chr12_aln_unsorted.bam \
H1hesc_Input_Rep1_chr12_aln_unsorted.sam

對bam文件排序
對bam文件按照基因組坐標排序,可以直接使用samtools,也可以使用Sambambasambamba快速處理bam和sam文件。

sambamba sort -t 2 \
-o H1hesc_Input_Rep1_chr12_aln_sorted.bam \
H1hesc_Input_Rep1_chr12_aln_unsorted.bam 

過濾唯一比對的reads

sambamba view -h -t 2 -f bam \
-F "[XS] == null and not unmapped " \
H1hesc_Input_Rep1_chr12_aln_sorted.bam > H1hesc_Input_Rep1_chr12_aln.bam

去除PCR重復
PCR擴增和一些重復序列(如微衛(wèi)星、著絲粒)會產(chǎn)生重復,干擾真實的富集信號,所以在call peaks前需要先去除重復,這里先用picard去除PCR重復。

java -jar picard-tools-1.119/MarkDuplicates.jar REMOVE_DUPLICATES=true I=H1hesc_Input_Rep1_chr12_aln.bam O=H1hesc_Input_Rep1_chr12_aln.dedup.bam M=H1hesc.duplicates.log

過濾線粒體reads

samtools index H1hesc_Input_Rep1_chr12_aln.dedup.bam
samtools idxstats H1hesc_Input_Rep1_chr12_aln.dedup.bam > H1hesc_Input_Rep1_chr12_aln.dedup.mitochondrial.stats
samtools view -h H1hesc_Input_Rep1_chr12_aln.dedup.bam | grep -v 'chrM' | samtools view -bS -o H1hesc.final.bam

上面給出的僅是示例代碼,和參考課程不一樣,實際運行需要修改相應文件。
此時就得到了唯一比對且已經(jīng)去除過線粒體的比對文件,可以用于接下來的peaks calling。

第3篇:用MACS2軟件call peaks

https://mp.weixin.qq.com/s/IjbRisuSnfUWsYs1dSn5_g

學習目標

  • 學會用MACS2 call peaks
  • 理解MACS2 call peaks的結果

1

Peak Calling

Peak calling即利用計算的方法找出ChIP-seq或ATAC-seq中reads富集的基因組區(qū)域。

img

如下圖所示,比對結果的文件中reads在正負鏈不均勻分布,但在結合位點聚集。正負鏈5‘末端的reads各形成一組合,通過統(tǒng)計學的方法評估這些組合的分布并和對照組比較,確定這些結合位點是否是顯著的。

img

NOTE:ChIP-seq的分析方法可以鑒定兩種類型的富集模式:broad domainsnarrow peaks。broad domains,如組蛋白修飾在整個基因body區(qū)域的分布;narrow peak,如轉錄因子的結合。narrow peak相對于broad 或者分散的marks更易被檢測到。也有一些混合的結合圖譜,如PolII包括narrow和broad信號。

2

MACS2

peaks calling 有不同的方法,MACS2是最常用的call peaks工具。 MACS全稱Model-based Analysis of ChIP-Seq,最初的設計是用來鑒定轉錄因子的結合位點,但是它也可以用于其他類型的富集方式測序。

MACS通過整合序列標簽位置信息和方向信息提高結合位點的空間分辨率。MACS的工作流如下所示:

img

MACS2的用法,call peaks的參數(shù)及輸出文件的解讀可以參考MACS2文檔學習。

了解相關參數(shù):

輸入文件參數(shù):

  • -t:實驗組,IP的數(shù)據(jù)文件

  • c: 對照組

  • f:指定輸入文件的格式,默認是自動檢測輸入數(shù)據(jù)是什么格式,支持bam,sam,bed等

  • g:有效基因組大小,由于基因組序列的重復性,基因組實際可以mapping的大小小于原始的基因組。這個參數(shù)要根據(jù)實際物種計算基因組的有效大小。軟件里也給出了幾個默認的-g 值:hs -- 2.7e9表示人類的基因組有效大小(UCSC human hg18 assembly).

    • hs: 2.7e9
    • mm: 1.87e9
    • ce: 9e7
    • dm: 1.2e8

輸出文件參數(shù):

  • --outdir:輸出結果的存儲路徑
    -n:輸出文件名的前綴
  • -B/--bdg:輸出bedgraph格式的文件,輸出文件以NAME+'_treat_pileup.bdg' for treatment data, NAME+'_control_lambda.bdg' for local lambda values from control顯示。

peak calling 參數(shù)

  • -q/--qvalue-p/--pvalue
    q value默認值是0.05,與pvalue不能同時使用。
  • --broad
    peak有narrow peak和broad peak, 設置時可以call broad peak 的結果文件。
  • --broad-cutoff
    和pvalue、以及qvalue相似
  • --nolambda: 不要考慮在峰值候選區(qū)域的局部偏差/λ

q值與峰寬有一定的聯(lián)系。理想情況下,如果放寬閾值,您將簡單地獲得更多的峰值,但是使用MACS2放松閾值也會導致更寬的峰值。

Shift 模型參數(shù):

  • --nomodel
    這個參數(shù)和extsize、shift是配套使用的,有這個參數(shù)才可以設置extsize和shift。
  • --extsize
    當設置了nomodel時,MACS會用--extsize這個參數(shù)從5'->3'方向擴展reads修復fragments。比如說你的轉錄因子結合范圍200bp,就設置這個參數(shù)是200。
  • --shift
    當設置了--nomodel,MACS用這個參數(shù)從5' 端移動剪切,然后用--extsize延伸,如果--shift是負值表示從3'端方向移動。建議ChIP-seq數(shù)據(jù)集這個值保持默認值為0,對于檢測富集剪切位點如DNAsel數(shù)據(jù)集設置為EXTSIZE的一半。
    示例:
  1. 想找富集剪切位點,如DNAse-seq,所有5'端的序列reads應該從兩個方向延伸,如果想設置移動的窗口是200bp,參數(shù)設置如下:
    --nomodel --shift -100 --extsize 200

  2. 對nucleosome-seq數(shù)據(jù),用核小體大小的一半進行extsize,所以參數(shù)設置如下:
    --nomodel --shift 37 --extsize 73

    --call-summits

MACS利用此參數(shù)重新分析信號譜,解析每個peak中包含的subpeak。對相似的結合圖譜,推薦使用此參數(shù),當使用此參數(shù)時,輸出的subpeak會有相同的peak邊界,不同的績點和peak summit poisitions.

3 ATAC-Seq call peaks示例

ATAC-seq關心的是在哪切斷,斷點才是peak的中心,所以使用shift模型,--shift -75或-100

對人細胞系ATAC-seq 數(shù)據(jù)call peak的參數(shù)設置如下:

macs2 callpeak -t H1hesc.final.bam -n sample --shift -100 --extsize 200 --nomodel -B --SPMR -g hs --outdir Macs2_out 2> sample.macs2.log

MACS2輸出文件解讀

  • NAME_peaks.xls
    包含peak信息的tab分割的文件,前幾行會顯示callpeak時的命令。輸出信息包含:

    • 染色體號

    • peak起始位點

    • peak結束位點

    • peak區(qū)域長度

    • peak的峰值位點(summit position)

    • peak 峰值的高度(pileup height at peak summit, -log10(pvalue) for the peak summit)

    • peak的富集倍數(shù)(相對于random Poisson distribution with local lambda)

      img
**Coordinates in XLS is 1-based which is different with BED format**
XLS里的坐標和bed格式的坐標還不一樣,起始坐標需要減1才與narrowPeak的起始坐標一樣。
  • NAME_peaks.narrowPeak
    *narrowPeak文件是BED6+4格式,可以上傳到UCSC瀏覽。輸出文件每列信息分別包含:

    • 1;染色體號

    • 2:peak起始位點

    • 3:結束位點

    • 4:peak name

    • 5:int(-10*log10qvalue)

    • 6 :正負鏈

    • 7:fold change

    • 8:-log10pvalue

    • 9:-log10qvalue

    • 10:relative summit position to peak start(?)

![img](https://upload-images.jianshu.io/upload_images/11316862-3fde17133be280fe.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
  • NAME_summits.bed
    BED格式的文件,包含peak的summits位置,第5列是-log10pvalue。如果想找motif,推薦使用此文件。

Remove the beginning track line if you want to analyze it by other tools.???

  • .bdg
    bedGraph格式,可以導入UCSC或者轉換為bigwig格式。兩種bfg文件:treat_pileup, and control_lambda.
  • NAME_peaks.broadPeak
    BED6+3格式與narrowPeak類似,只是沒有第10列。

summits.bed, narrowPeak, bdg, xls四種輸出文件的比較

img
  • xls文件
    文件包含信息還是比較多的,和narrowPeak唯一不同的是peak的起始位置需要減1才是bed格式的文件,另外還包含fold_enrichment 和narrowPeak的fold change 對應,-log10pvalue,-log10qvalue,peak長度,peak 峰值位置等。
  • narrowPeak文件
    和xls文件信息類似
  • summits.bed文件
    包含峰的位置信息和-log10pvalue
  • bdg文件
    bdg文件適合導入UCSC或IGV進行譜圖可視化,或者轉換為bigwig格式再進行可視化。
    為什么染色體號后面會出現(xiàn)其他的字符串????

第4篇:對ATAC-Seq/ChIP-seq的質量評估(一)——phantompeakqualtools

https://mp.weixin.qq.com/s/b-GbjioGQH2JXwcvtRt51w

學習目標

  • 探討ChIP-seq數(shù)據(jù)質量低的來源
  • 理解鏈交叉相關性( strand cross-correlation)
  • 使用phantompeakqualtools計算交叉相關性和其他相關的質控度量值
  • 評估交叉相關圖

ChIP-Seq質量評估

在下游分析前,最好是先對peak calling 后的ChIP-Seq數(shù)據(jù)進行質量評估。

img

鏈交叉相關(Strand cross-correlation)

鏈交叉相關是一個有效的評估ChIP-Seq質量的方法,它不依賴于peak calling,而是基于ChIP-Seq實驗。如果ChIP-Seq實驗成功,DNA富集序列標簽(蛋白質相互作用的序列)會在reads的雙峰富集中產(chǎn)生顯著的聚集。
產(chǎn)生reads的雙峰富集的原因如下:
在ChIP-Seq實驗中,DNA被片段化,蛋白質結合的片段會被免疫沉淀,所以產(chǎn)生了有蛋白質結合的DNA片段(fragments )。
DNA的正鏈從5'端開始被測序(如下圖紅色reads),DNA負鏈也從5’末端被測序產(chǎn)生如下圖所示的藍色reads。

Nat Biotechnol. 2008 Dec; 26(https://tva1.sinaimg.cn/large/006y8mN6gy1g7xxlfc3ufj307l08t0sq.jpg): 1351–1359

Nat Biotechnol. 2008 Dec; 26(12): 1351–1359

由于從DNA片段的5′末端測序,使+鏈reads的富集(下圖中的藍色部分)與負鏈reads的富集(下圖紅色部分)有少量的相互抵消區(qū)域。我們我們可以用計算產(chǎn)生最大相關的位移。

img

交叉相關性度量值
交叉相關度量是在Watson移動k個堿基后,計算Crick鏈與Watson鏈之間的Pearson線性相關。如下面的示意圖:
首先在鏈位移為0時,兩個向量之間的Pearson相關值為0.539。

img

在鏈位移5bp,兩個向量之間的Pearson相關值為0.931。

img

繼續(xù)移動這些向量,對于每個鏈位移計算一個相關值。

img

最后,我們將有一個每個堿基對移位與皮爾森相關值的對應表。這是針對每個染色體的每一個峰計算的,然后該值乘以一個縮放因子,再對所有染色體的值相加,就可以繪交叉相關值(y軸)相對于移位值(x軸)生成的交叉相關圖。典型的交叉相關圖會產(chǎn)生兩個峰****片段長度(predominant fragment length)****read 長度(read length)

  • 質量好的ChIP-Seq數(shù)據(jù)集傾向產(chǎn)生一個大的片段長度峰(fragment-length peak),下圖展示了一個來自于人細胞CTCF(zinc-finger transcription factor)的強信號。如果有好的抗體,轉錄因子通常產(chǎn)生45,000~60,000個peaks。下圖紅色的垂直線表示主峰的真實位移,藍色的垂直線處有一個小的起伏表示read lenngth。

    strong signal

    strong signal

  • 下圖是weaker signal的一個示例。這里Pol2的抗體不是很有效,有分散的峰。交叉相關圖中有兩個峰,一個是真實的峰位移(185-200bp),另外一個在read length。信號弱的數(shù)據(jù)集中read length的峰會成為主峰。

    weaker signal

    weaker signal

  • 一個失敗的實驗產(chǎn)生的交叉相關圖類似于input,在fragment length處很少或沒有峰,在read length處有信號非常強的。這種現(xiàn)象的原因可能是在結合位點附近fragments沒有顯著聚集。

    failed experiment

    failed experiment

交叉相關性質量評估度量值

交叉相關譜圖可以計算評估ChIP_Seq實驗信噪比的度量值,并且實驗設計確保fragment length準確。低信噪比和不準確的fragment length 表明ChIP-Seq實驗可能有問題。
Normalized strand cross-correlation coefficent (NSC):
NSC是最大交叉相關值除以背景交叉相關的比率(所有可能的鏈轉移的最小交叉相關值)。NSC值越大表明富集效果越好,NSC值低于1.1 表明較弱的富集,小于1表示無富集。NSC值稍微低于1.05,有較低的信噪比或很少的峰,這肯能是生物學真實現(xiàn)象,比如有的因子在特定組織類型中只有很少的結合位點;也可能確實是數(shù)據(jù)質量差。
Relative strand cross-correlation coefficient (RSC):
RSC是片段長度相關值減去背景相關值除以phantom-peak相關值減去背景相關值。RSC的最小值可能是0,表示無信號;富集好的實驗RSC值大于1;低于1表示質量低。

phantompeakqualtools

phantompeakqualtools 是一個用于計算ChIP-Seq數(shù)據(jù)富集和質量度量值的一個工具包。我們將使用該包來計算基于鏈交叉相關峰的主要插入大小(fragment length)和基于相對phantom peak的數(shù)據(jù)質量度量值。phantompeakqualtools是一個R包,依賴samtools。
下載phantompeakqualtools

wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/phantompeakqualtools/ccQualityControl.v.1.1.tar.gz
tar -xzf ccQualityControl.v.1.1.tar.gz
cd phantompeakqualtools
# 查看README
less README.txt

Linux下安裝

R 
install.packages("caTools", lib="~/R/library")

運行phantompeakqualtools

mkdir -p logs qual

for bam in bam_dir/sample1.final.bam bam_dir/sample2.final.bam
do 
bam2=`basename $bam .final.bam`
Rscript run_spp_nodups.R -c=$bam -savp -out=qual/${bam2}.qual > logs/${bam2}.Rout
done

參數(shù)含義:

  • -c: 比對過濾后的bam文件的全路徑和名字
  • -savp:保存交叉相關圖
  • -out:會產(chǎn)生數(shù)據(jù)集重要特征值的輸出文件

輸出文件解讀
輸出文件會產(chǎn)生一個tab分割的名為qual的文件,包含的信息如下:

  • COL1:Filename:比對過濾的bam文件名

  • COL2:numReads :有效的測序深度

  • COL3:estFragLen:逗號分隔的交叉相關峰以相關性遞減順序排列的值

  • COL4: corr_estFragLen: 逗號分隔的以遞減順序排列交叉相關值

  • COL5: phantomPeak: Read length/phantom peak鏈位移

  • COL6: corr_phantomPeak: phantom peak相關值

  • COL7: argmin_corr:交叉相關最小的鏈位移

  • COL8: min_corr:交叉相關最小值

  • COL9: Normalized strand cross-correlation coefficient (NSC) = COL4 / COL8

  • COL10: Relative strand cross-correlation coefficient (RSC) = (COL4 - COL8) / (COL6 - COL8)

  • COL11: QualityTag: Quality tag based on thresholded RSC (codes: -2:veryLow,-1:Low,0:Medium,1:High,2:veryHigh)
    我們最關注的值是第9列和第11列。
    Cross-correlation plots
    課程中的示例數(shù)據(jù)Nanog_rep1的交叉相關圖

    img

ATAC-seq數(shù)據(jù)特有的fragment size分布

在第一篇ATAC-seq文章里面,如圖:

img

可以使用atacQC 對 ATAC文庫出 Fragment size distribution ,示例圖如下:

img

最后友情宣傳生信技能樹

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容