發(fā)現(xiàn)好多CNV calling 工具都好古早。。。安裝和試用時關(guān)于版本的問題調(diào)試比較多。。。所以想把自己遇到的報錯貼出來，方便后人debug

1、 EXCAVATOR2

原理及軟件介紹：使用EXCAVATOR2檢測WES的CNV
https://mp.weixin.qq.com/s/WcbCXq9Y7FGtvZXS7-HCEA
上面這個鏈接基本簡單地做了說明，下面就簡單記錄一下我自己在安裝和使用上遇到的bug和解決方法吧~

安裝的必要條件：

EXCAVATOR2 was conceived for running on 64-bit UNIX desktop machines with at least 4 CPUs and 4 GB RAM.
In order to work properly EXCAVATOR2 needs R (version≥2.14.0) and the Hmisc library (R package), SAMtools(version≥0.1.17),andPerl(version≥5.8.8)tobecorrectlyinstalledonyoursystem

安裝時遇到的問題：

R, SAMtools, Perl基本都是服務(wù)器上早就裝好的，版本一般都不低，所以沒什么問題。但是在裝Hmisc這個R包的時候：
我用的R-3.5裝的時候，給我報錯 latticeExtra 這個包 not available，說這個 latticeExtra 需要的版本更高。。。我換了R-3.6裝，在裝 latticeExtra 的時候說 jpeg 的包有問題。。。逐個試了很多R包安裝方法，都不行。

解決方法：

由于我們是實驗室用一個服務(wù)器，最開始默認(rèn)的R和配套的lib可能比較舊，或者有各種只有root權(quán)限才能修改的東西。所以這里可以重新用conda 建一個環(huán)境，下載一個靠譜的R，重頭安裝一遍你需要的包。
或者，組里有同學(xué)的R和lib可以完成這個包的安裝，就直接引用到你自己的環(huán)境變量里吧！哈哈哈哈哈哈

alias R=‘謝謝大哥的R路徑’ 
export R_LIBS_SITE="謝謝大哥的R lib路徑:$R_LIBS_SITE"

運行的必要條件：

首先就是一定要記得在這個軟件的解壓后路徑下運行命令！
因為這些perl是直接讀取你運行命令的這個位置，然后會在后面用這個路徑的字符串編輯一些新的路徑，
所以一定要在這個軟件的解壓后路徑下運行命令！（其實就是我自己被蠢到過。。。）

運行時遇到的問題：

在運行第一步TargetPerla.pl的時候，遇到如下報錯：

~/software/EXCAVATOR2_Package_v1.1.2/lib/OtherLibrary/bigWigAverageOverBed: error while loading shared libraries: libpng12.so.0: cannot open shared object file: No such file or directory
Error in file(file, "rt") : cannot open the connection
Calls: read.table -> file
In addition: Warning message:
In file(file, "rt") :
cannot open file '~/EXCAVATOR2_Package_v1.1.2/data/targets/hg19/AJTK_w10000/MAP/Mapout.txt': No such file or directory
Execution halted

主要問題是加載不到這個：libpng12.so.0 （libpng15它都不認(rèn)的，好像只認(rèn)這一個版本。。。）

解決方法：

單獨下了這個lib文件的相關(guān)文件，直接放到原來的lib路徑下，行不通。。。
用conda install libpng=1.2就OK啦！如果這個conda的lib路徑原來不在環(huán)境變量里，新加進去就OK了：

export LD_LIBRARY_PATH=確定裝有l(wèi)ibpng12.so.0的路徑:$LD_LIBRARY_PATH

2、CoNIFER

使用環(huán)境：python2.7

準(zhǔn)備probes文件

只認(rèn)chr1-22&XY，要把chrM去掉，否則如下報錯，

Traceback (most recent call last):
  File "conifer.py", line 682, in <module>
    args.func(args)
  File "conifer.py", line 545, in CF_bam2RPKM
    probes = cf.loadProbeList(probe_fn)
  File "/picb/dermatogenomics/chenjieyi/software/conifer_v0.2.2/conifer_functions.py", line 96, in loadProbeList
    probes.append({'probeID': probeID, 'chr':chrStr2Int(row['chr']),'start':int(row['start']),'stop':int(row['stop']), 'name':row['name']})
  File "/picb/dermatogenomics/chenjieyi/software/conifer_v0.2.2/conifer_functions.py", line 58, in chrStr2Int
    return int(chr)
ValueError: invalid literal for int() with base 10: 'M'

運行中的可能錯誤1

conifer.py的第564行有個“f._has_Index()”，隨著pysam包的版本不同，該命令的寫法不同，可以都試一下
https://sourceforge.net/p/conifer/discussion/general/thread/d2fbc181/?limit=25
可以通過conda list先確定一下你的pysam版本，然后修改到對應(yīng)的。
搞pysam的時候我被玄學(xué)到了，先是鏡像的問題，只裝上了0.6，上述任何版本的修改都沒用。。。。
修改鏡像之后裝了最新的0.16，失敗。。。
隨手裝了0.9，使用的時候import失敗。。。
然后換成0.8，安裝和import成功，改成“f.has_Index()”可以成功運行

運行中的可能錯誤2

再有是關(guān)于tables，由于conifer實在是太古早了，其中的語法都是tables2.0的版本，會有如下各種報錯。。。

balabala Error 'openFile'
AttributeError: 'File' object has no attribute 'createGroup'
AttributeError: 'File' object has no attribute 'createTable'
tables.exceptions.NoSuchNodeError: group ``/`` does not have a child named ``_f_getChild``

全網(wǎng)看了一圈，已經(jīng)下載不到tables2.0了，所以還是用的現(xiàn)成裝的tables3.5，邊改邊test，根據(jù)這個網(wǎng)頁對應(yīng)把舊的語法改成新的就行。http://www.pytables.org/MIGRATING_TO_3.x.html?highlight=creategroup 后面的call步驟也是要記得修改新版語法。

運行中的可能錯誤3

analyse有一個可能的報錯“IndexError: boolean index did not match indexed array along dimension 0; dimension is 24661 but corresponding boolean dimension is 24660”，可能是因為numpy版本的問題，解決方法是
The error is in line 142 of conifer.py, instead of:

rpkm = RPKM_data[start_probeID:stop_probeID,:]

it should be:

rpkm = RPKM_data[start_probeID-1:stop_probeID,:]

參考：https://github.com/UBC-Stat-ML/conifer/issues/26

運行中的可能錯誤4

plotcalls畫圖的部分提醒補安裝了matplotlib，出現(xiàn)了報錯：

/data/dermatogenomics4/software/anaconda3/envs/py27/lib/python2.7/site-packages/matplotlib/pyplot.py:522: RuntimeWarning: More than 20 figures have been opened. Figures created through the pyplot interface (`matplotlib.pyplot.figure`) are retained until explicitly closed and may consume too much memory. (To control this warning, see the rcParam `figure.max_open_warning`).
  max_open_warning, RuntimeWarning)

解決方法：在conifer.py 的 line 460 附近，在import matplotlib后面一行加上matplotlib.rcParams.update({'figure.max_open_warning': 0})

OK_{測試數(shù)據(jù)跑通}

需要額外關(guān)注和計算的參數(shù)

analyse中的--svd參數(shù)，官網(wǎng)教程給了說明，應(yīng)該根據(jù)你的樣本數(shù)和數(shù)據(jù)方差去選擇合適的svd數(shù)，具體可以看文獻理解

3.XHMM

官方說明：http://atgu.mgh.harvard.edu/xhmm/tutorial.shtml
（曾經(jīng)打開過，并下載到了安裝包“statgen-xhmm-998f7c405974.zip”，然而在正式要用的時候，我翻不翻墻都沒能再打開這個鏈接。。。）
好在文章有protocol：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4065038/
【發(fā)現(xiàn)可以用的tutorial了：[https://statgen.bitbucket.io/xhmm/tutorial.html]（https://statgen.bitbucket.io/xhmm/tutorial.html)】
但是在make編譯的時候有一大堆報錯，在網(wǎng)上兜了一圈，好像都說make容易有問題，在bioconda上有現(xiàn)成的packagehttps://anaconda.org/bioconda/xhmm
，conda install -c bioconda xhmm一句話搞定安裝~

首先需要GATK的DepthOfCoverage來計算一個覆蓋深度的值，但是這個工具是屬于GATK3的，GATK4從4.1.6版本才開始重新復(fù)原這個tool，而我自己手頭是4.1.3的版本，所以就用conda新建了一個環(huán)境，專門裝了一個gatk3.8conda create -n gatk3 -c bioconda gatk
安裝后需要注冊一下，解決操作參考：https://zhuanlan.zhihu.com/p/129858566
由于我們實驗室有幾個服務(wù)器，配置略有不同，在某個服務(wù)器中運行DepthOfCoverage的過程中發(fā)現(xiàn)了如下報錯：

ERROR StatusLogger Unable to create class org.apache.logging.log4j.core.impl.Log4jContextFactory specified in jar:file:/[conda env]/opt/gatk-3.8/GenomeAnalysisTK.jar!/META-INF/log4j-provider.properties
ERROR StatusLogger Log4j2 could not find a logging implementation. Please add log4j-core to the classpath. Using SimpleLogger to log to the console...

查了一圈是要想辦法替換conda env中的jar文件，用了注冊時的jar不大行，所以去找了3.8.1的jar進行替換，嘗試成功，可以正常運行。
gatk3.8及以前的版本可以在google云上找到：https://console.cloud.google.com/storage/browser/gatk-software/package-archive/gatk;tab=objects?prefix=&forceOnObjectsSortingFiltering=false

之后按tutorial的步驟一步步操作即可。

文章的protocol中說關(guān)于filter的具體參數(shù)可以用后面作圖的protocol把一些值的范圍都找出來，但是這里暫時受限于Plink/Seq的locdb參考數(shù)據(jù)下載不下來，這個網(wǎng)址打不開http://atgu.mgh.harvard.edu/plinkseq/resources.shtml
如果有可以下載的路徑求分享！
但是這個步驟是optional的，所以最后使用的時候我選擇了跳過。。。用tutorial的參考值進行的后續(xù)分析（）

4、CANOES

使用說明可以在這里找到https://github.com/ShenLab/CANOES
其中需要的軟件工具里，GATK的GCContentByInterval，也是個在GATK4（至少4.1.0.3）里沒有的，所以上面創(chuàng)建的gatk3.8環(huán)境又有用了！
軟件原理是基于每批次WES的背景值進行分析，所以要按上機批次進行分析，最好30個以上一批，20個以上也行（這里的用法我之前理解錯了，感謝DXR師姐提點?。?br> 該軟件工具只能處理常染色體，需要分析X染色體的話可以參考下面這篇文章的方法部分，通過修改R包加入了X染色體上的分析：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7418612/
canoes.reads.txt文件的第一列處理完默認(rèn)是chr1,chr2,...,chr21,chr22但是在后面的分析中，只認(rèn)，1,2,...,21,22，所以中間可以對這個文件進行一下預(yù)處理。
在 # call CNVs with the Viterbi algorithm#這步中發(fā)現(xiàn)Viterbi 這個function中的viterbi.pointers[i, ] <- apply(temp.matrix, 2, which.max)會報錯，發(fā)現(xiàn)是viterbi.matrix[i, ] <- apply(temp.matrix, 2, max)中，如果temp.matrix中偶爾會有個別NaN值，會被認(rèn)為是最大值，從而后面的全部變成了NaN。這里想到的解決方法是在449行加上一句temp.matrix[is.na(temp.matrix)] <- (-Inf)直接把Na替換成負(fù)無窮，這樣就不會被誤認(rèn)為是max了。后面可以正常運行了。

5、CODEX2

說明文檔
http://htmlpreview.github.io/?https://github.com/yuchaojiang/CODEX2/blob/master/demo/CODEX2.html
https://github.com/yuchaojiang/CODEX2
R<3.5
source("https://bioconductor.org/biocLite.R")
R≥3.5
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install()
K值可根據(jù)中間的碎石圖選擇范圍，軟件推薦1-10?？傮w運行順暢沒有顯著問題

6、HMZDelFinder

R包和sample：https://github.com/BCM-Lupskilab/HMZDelFinder/
自己的WES數(shù)據(jù)可利用官方給的函數(shù)calcRPKMsFromBAMs來制作（4是函數(shù)中apply家族需要使用的核數(shù)）
calcRPKMsFromBAMs(bedFile, bamdir, sampleNames, rpkmDir,4)
該函數(shù)運行過程中容易出現(xiàn)一個問題，調(diào)用data.table的fread()讀取bed文件時的報錯：

Error in fread(bedFile) : 
  Internal error: invalid head position. jump=0, headPos=0x7f60a986513f, thisJumpStart=0x7f60a975e000, sof=0x7f60a975e000

嘗試修改了文件換行符、data.table的版本數(shù)，都沒能解決。了解了fread()的功能主要是快速讀取大文件，私以為此步驟的耗時速度并非關(guān)鍵因素，所以將官方R文件中的第98行的bed <- fread(bedFile)修改為bed <- read.table(bedFile,header=F)。解決問題~
后面讀取vcf和RPKM文件的步驟里都用到了fread()，在我自己的R里都會有問題，所以都改成了read.table() + as.data.table()進行表格的格式轉(zhuǎn)換。反正這里經(jīng)歷了比較痛苦的逐行debug過程。。。

7、ExomeDepth

該R包運行問題較少，多批次多樣本可進行循環(huán)處理，具體操作可參考：http://www.itdecent.cn/p/a650a9d9a861

8、CONTRA

上一條引用的博主小姐姐用過這個軟件，這里直接引用一下：http://www.itdecent.cn/p/f23cc2c4b45d
軟件論文：https://academic.oup.com/bioinformatics/article/28/10/1307/212453
說明文檔：http://contra-cnv.sourceforge.net/
軟件文章的討論部分說到該軟件對數(shù)據(jù)要求不高，也沒提到批次效應(yīng)的問題，所以應(yīng)該可以把所有樣本都丟進去做。
藍鵝，我連軟件都沒下載下來。。。https://sourceforge.net/projects/contra-cnv/files/CONTRA.V2.0/

后面的Flag：

ADTEx

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

工具安裝及試用總結(jié)：對WES數(shù)據(jù)做germline的CNV calling（非癌癥的疾病研究）（未完。。。）

工具安裝及試用總結(jié)：對WES數(shù)據(jù)做germline的CNV calling（非癌癥的疾病研究）（未完。。。）

1、 EXCAVATOR2

安裝的必要條件：

安裝時遇到的問題：

解決方法：

運行的必要條件：

運行時遇到的問題：

解決方法：

2、CoNIFER

使用環(huán)境：python2.7

準(zhǔn)備probes文件

運行中的可能錯誤1

運行中的可能錯誤2

運行中的可能錯誤3

運行中的可能錯誤4

OK_{測試數(shù)據(jù)跑通}

需要額外關(guān)注和計算的參數(shù)

3.XHMM

4、CANOES

5、CODEX2

6、HMZDelFinder

7、ExomeDepth

8、CONTRA

后面的Flag：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

工具安裝及試用總結(jié)：對WES數(shù)據(jù)做germline的CNV calling（非癌癥的疾病研究）（未完。。。）

1、 EXCAVATOR2

安裝的必要條件：

安裝時遇到的問題：

解決方法：

運行的必要條件：

運行時遇到的問題：

解決方法：

2、CoNIFER

使用環(huán)境：python2.7

準(zhǔn)備probes文件

運行中的可能錯誤1

運行中的可能錯誤2

運行中的可能錯誤3

運行中的可能錯誤4

OK測試數(shù)據(jù)跑通

需要額外關(guān)注和計算的參數(shù)

3.XHMM

4、CANOES

5、CODEX2

6、HMZDelFinder

7、ExomeDepth

8、CONTRA

后面的Flag：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

工具安裝及試用總結(jié)：對WES數(shù)據(jù)做germline的CNV calling（非癌癥的疾病研究）（未完。。。）

1、 EXCAVATOR2

OK_{測試數(shù)據(jù)跑通}

4、CANOES

6、HMZDelFinder

7、ExomeDepth