把之前寫在CSDN的博文搬運(yùn)了過來,集中記錄自己的學(xué)習(xí)過程。
emmmm這篇其實(shí)沒寫完,很長時(shí)間沒碰又給忘了,不管了。。
Hic-Pro的安裝
折騰了一段時(shí)間,終于把hicpro軟件安裝好了,走了彎路,回過頭才發(fā)現(xiàn)別人的教程已經(jīng)寫的非常正確且清晰了…
說說hic-pro,hic-pro的作用是把測(cè)序文件輸出為標(biāo)準(zhǔn)互作圖譜。
hic-pro的安裝有兩點(diǎn)麻煩,一是依賴的軟件較多,需要參考 https://github.com/nservant/HiC-Pro 官方說明書一一解決;二是要修改配置文件**config-install.txt **
1.prefix參數(shù)的作用是指定軟件安裝的位使得在日后使用中維護(hù)起來更方便。源碼安裝包括三個(gè)步驟:configure(配置)、make(編譯)、make install(安裝)。
2.創(chuàng)建虛擬環(huán)境的好處就是避免了不同版本程序之間的沖突,再說不用的時(shí)候直接刪除環(huán)境就行了,不用為之前安裝的軟件雜亂而不知所措。
3.配置時(shí)為什么不直接指定到hicpro下,而是再創(chuàng)建一個(gè)bin文件夾呢?
Hic-Pro的運(yùn)行
運(yùn)行hic-pro的關(guān)鍵是修改該軟件的配置文件config-hicpro.txt??梢韵炔榭葱枰薷牡膮?shù)文件。
cat config-hicpro.txt
#關(guān)鍵的幾個(gè)參數(shù)
BOWTIE2_IDX_PATH = #就是用bowtie2建立參考基因組的索引所在路徑,注意是絕對(duì)路徑
REFERENCE_GENOME = #索引名
GENOME_SIZE = ?
PAIR1_EXT = #雙端測(cè)序文件1
PAIR2_EXT = #雙端測(cè)序文件2
GENOME_FRAGMENT = ?
LIGATION_SITE = ?
1.GENOME_SIZE =
在建立的索引目錄下新建一個(gè)txt文件:
cat >chrom_bacteria.sizes #創(chuàng)建一個(gè)新的文件cat > filename,文件名我是參考hicpro的配置示例
Chromosome 4016942 #在文件中寫入內(nèi)容,表明這個(gè)參考基因的大小是4016942bp,1bp即為1個(gè)堿基對(duì)(base pair)
2.GENOME_FRAGMENT =
#就是HiC消化片段位點(diǎn)文件
mkdir -p ~/data/project/hic/digest
cd ~/data/project/hic/digest
bin=/home/zhuchumeng/local/app/hicpro/bin/HiC-Pro_2.11.0/bin/utils/digest_genome.py
$bin -r C^CATGG -o bacteria.bed ../ref/ref.fa
上面兩行來源于消化位點(diǎn)文件生成的命令:`/PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii -o Refgenome.fasta`
.py是python運(yùn)行腳本。
運(yùn)行完成后在digest目錄下出現(xiàn)了bacteria.bed文件。
bed文件關(guān)于bed文件
Browser Extensible Data (BED) BED行有3個(gè)必須的列和9個(gè)額外可選的列。 每行的數(shù)據(jù)格式要求一致。
必須包含的3列是:
chrom, 染色體或scafflold 的名字(eg chr3, chrY, chr2_random, scaffold0671 )
chromStart 染色體或scaffold的起始位置,染色體第一個(gè)堿基的位置是0
chromEnd 染色體或scaffold的結(jié)束位置,染色體的末端位置沒有包含到顯示信息里面。例如,首先得100個(gè)堿基的染色體定義為chromStart =0 . chromEnd=100, 堿基的數(shù)目是0-99
3.LIGATION_SITE = CCATGG
因?yàn)樵撈撐闹惺褂玫南拗泼甘荖coI,這應(yīng)該是它的特異識(shí)別序列。
source ~/miniconda3/bin/activate
source activate hic #要運(yùn)行hicpro程序了,所以要進(jìn)入hic的虛擬環(huán)境
cd ~/data/project/hic/ #進(jìn)入數(shù)據(jù)存放的hic目錄
cp ~/local/app/hicpro/bin/HiC-Pro_2.11.0/config-hicpro.txt ./ #./表示當(dāng)前目錄hic
vi config-hicpro.txt
bin=/home/urname/local/app/hicpro/bin/HiC-Pro_2.11.0/bin/HiC-Pro #如果已經(jīng)添加HiC-Pro的路徑到環(huán)境變量中,就不需要這一步了
nohup $bin -i fq -o out -c config-hicpro.txt 1> run.log 2>&1 & #理解是將config文件運(yùn)行結(jié)果輸出到運(yùn)行日志,并將標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤都重定向到運(yùn)行日志?另外,fq是存放數(shù)據(jù)的地方,記得單獨(dú)建文件夾放測(cè)試數(shù)據(jù)fq/s1/,config-hicpro.txt和fq都要放在hic目錄下
之后可能會(huì)報(bào)錯(cuò),如urname目錄下找不到bin文件夾,新建一個(gè)就是,純粹是依賴作用,實(shí)際上運(yùn)行后文件夾里不會(huì)產(chǎn)生任何東西。還有就是記得根據(jù)實(shí)際路徑修改config-system.txt文件。
Hic-Pro的使用
主要包括:序列比對(duì);數(shù)據(jù)過濾;原始互作圖譜構(gòu)建;互作圖譜迭代校正。
我的數(shù)據(jù)運(yùn)行完后數(shù)據(jù)過濾出來了,但是matrix的文件夾里沒有出現(xiàn)原始和標(biāo)準(zhǔn)化后的矩陣圖,可能原因:1)數(shù)據(jù)跑斷了,導(dǎo)致分析不完整;2)相關(guān)繪圖軟件缺失;3)軟件設(shè)置參數(shù)有問題,這個(gè)可能性不大,因?yàn)橹挥腥齻€(gè)參數(shù)嘛。。
去Google網(wǎng)上論壇查看hicpro主題,似乎找到問題根源了。原因正是第三點(diǎn)。
HIC-PRO DOES NOT GENERATE ANY MAPS
HiC-Pro is using the chrom.sizes files to build the map.
Be sure that your chromosome names are the same in all annotations files (bowtie2 indexes, restriction fragments, chromosome sizes, etc.)
hiclib的安裝與使用###
PS:可算知道為嘛教程里創(chuàng)建的是python=2.7版本的環(huán)境了。
詳情見:https://mirnylab.bitbucket.io/hiclib/
hiclib主要用于數(shù)據(jù)標(biāo)準(zhǔn)化,不過hicpro就可以了,為什么還要安裝hiclib?
或者是想比較兩者分析的結(jié)果?
三維基因組常用分析工具匯總