染色質(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation,ChIP)也稱結(jié)合位點分析法,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具,通常用于轉(zhuǎn)錄因子結(jié)合位點或組蛋白特異性修飾位點的研究。
流程
知乎文章:https://zhuanlan.zhihu.com/p/90180058
簡書流程文章:http://www.itdecent.cn/p/21e8c51fca23
從數(shù)據(jù)到igv可視化分析:https://blog.csdn.net/qq_29300341/article/details/54811085

1.數(shù)據(jù)fastqc
使用fastqc軟件
fastqc file1 file2
使用multiqc軟件進行多個qc結(jié)果的合并
multiqc <analysis directory>
2.基因組比對
2.1bowtie2
bowtie主要適用于將短序列比對到參考genome上,速度快。
mapping序列到genome上,首先要建立genome的index。command需要待建立的genome文件,和輸出index的文件夾。
bowtie2-build [options]* <reference_in> <bt2_index_base>
bowtie將reads對比到genome上,生成sam文件;sam文件是序列比對到基因組上的結(jié)果展示,或者展示多重比對結(jié)果。sam文件包括比對的注釋信息(header section)和比對結(jié)果部分(alignment section)。注釋信息是比對操作的說明,包括參考序列,程序說明等;比對結(jié)果事對每一個片段(segment)的說明,包括比對到參考序列的位置,mapping的質(zhì)量等的說明。
bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
bowtie2對比序列,首先要看是單端測序還是雙端測序,雙端測序需要將兩端測序的鏈匹配起來。還可以選定輸出文件的后綴和存放的目錄。
使用samtools將sam文件轉(zhuǎn)換為bam文件(view),將bam序列進行排序(sort)。使用samtools對bam文件的對比結(jié)果,并輸出統(tǒng)計結(jié)果,檢驗測序read的質(zhì)量。
samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...]
options -b輸出bam文件
samtools sort [options...] [in.bam]
對bam文件進行sort排序能進一步減小文件體積,加快運算速度。
3.實驗組和control組對比差異
3.1 macs2比較不同組數(shù)據(jù)callpeak
chip-seq的可以檢測的富集方式包括兩種:1.broad domains和narrow peak。broad domain是組蛋白在整個基因組的修飾,narrow peaks是特定的突出指,如轉(zhuǎn)錄因子的結(jié)合。當需要對特定的目標靶點進行研究時,可以利用treat組和control組進行對比,找出二者的不同。所謂callpeak,是指尋找基因組上的表達峰peak,chip-seq是對蛋白結(jié)合的DNA進行測序,每個read都意味著有一個蛋白結(jié)合到基因組的該處上,基因組的peak就是read表達量最高的地方,調(diào)控因子一般都在gene的上游或者下游,離gene越近的調(diào)控因子與gene表達的相關(guān)性越高,所以要callpeak,尋找不同gene之間以及gene和轉(zhuǎn)錄因子之間的關(guān)系等。
macs2 callpeak [-h] -t TFILE [TFILE ...] [-c [CFILE [CFILE ...]]]
-t為treatment組數(shù)據(jù),-c為control組數(shù)據(jù),-g選擇genome,還可以設(shè)置輸出的目錄和文件名,--bdg可以bdg文件,用于igv查看peaks。
macs檢驗值設(shè)立:http://www.itdecent.cn/p/390f6d57488d
3.2 IGV分析
將callpeak生成的.bdg文件直接放入IGV(intergrative genomic viewer)。
4.motif分析
motif分析。尋找peak序列的共同模式序列。motif的輸入文件為call的".bed"文件?!?bed”文件包含的信息為peak(summit)所在染色體和具體位置。
homer annotatePeak.pl
annotatePeaks.pl <peak file | tss> <genome version> [additional options...]
分為兩種,一種只對peak的信息進行注釋,展現(xiàn)peak相關(guān)的gene和到geneTSS
(transcription start site)的距離。
另一種是對peak和read的信息進行annotate,顯示reads在peak summit 兩側(cè)的分布情況。
首先要用homer的makeTagDirectory對.bam文件進行處理生成tag文件夾。生成tag文件的處理,包括對bam文件的排序,質(zhì)控,以及生成一些后續(xù)分析需要的重要參數(shù)。
然后再進行annotatePeaks.pl分析,加上參數(shù)
-d <tag directory 1> [tag directory 2] ... (list of experiment directories to show tag counts for)
再使用生成的annotation的文件,使用R進行繪圖。
deeptools分析畫圖。
homer findmotifsGenome.pl
只需要macs得出的peaks的bed文件,和選擇參考gene組就可以。
findMotifsGenome.pl <pos file> <genome> <output directory> [additional options]