Bioconductor的GEOquery幾個常用函數(shù)可以實現(xiàn)GEO數(shù)據(jù)的下載,但有時候我想直接通過終端下載而不是使用Rstudio然后運行腳本的方式,所以下面用shell腳本對GEOquery兩個下載函數(shù)getGEO()以及getGEOSuppFiles()進行了簡單的封裝。
安裝
使用clone命令
git clone https://github.com/ShixiangWang/mytoolkit/
點擊頁面右上方的克隆或下載按鈕
預(yù)置與幫助
Linux系統(tǒng)安裝R,如果你沒有安裝GEOquery包,腳本會自動判斷并進行下載安裝。
查看腳本幫助:
./getGEOSuppFiles.sh -h
./getGEO.sh -h
./bulkGEO.sh -h
下載GEO附加文件
GEO附加文件一般是原始的芯片數(shù)據(jù)。
用法:
Usage: ./getGEOSuppFiles.sh -n GEO -d directory
GEO: GEO accession 號,比如 GPL1073 or GSM1137
directory: 下載到的目錄,默認為你的當(dāng)前目錄。
下載GEO表達矩陣文件
這個是最常用的功能,下載芯片的表達矩陣文件,數(shù)據(jù)已經(jīng)經(jīng)過研究者的預(yù)處理,可以直接使用。
用法:
Usage: ./getGEO.sh -n GEO -d destdir -M GSEMatrix -A AnnotGPL -P getGPL
Detail of Options
==================
-n GEO: 代表GEO對象的字符 (比如 'GDS505','GSE2','GSM2','GPL96')
-d destdir: 要下載到的目的目錄,默認為當(dāng)前目錄。
-M 邏輯值TRUE或FALSE,告訴腳本是否下載GSE Series Matrix文件,默認為TRUE。
-A 邏輯值TRUE或FALSE,告訴腳本是否使用注釋GPL信息文件(會下載),這些文件包含了最新映射的Gene ID和其他基本信息,但不是都有。默認為TRUE。
-P 邏輯值TRUE或FALSE,告訴腳本是否在下載GSEMatrix文件時下載GPL信息,如果你知道你要用bioconductor工具的注釋包,你可以選擇FALSE,默認為TRUE。
Minimal Use Method
==================
If you do not know how to use these options, just set -n option is OK
Like
./getGEO.sh -n GEO
change the 'GEO' above to name of GSE you want to download
大量下載表達矩陣文件和原始文件
這個功能利用了前兩個腳本,對它們進行循環(huán)調(diào)用。
用法:
Usage: ./bulkGEO.sh -n GEO -d destdir -M GSEMatrix -A AnnotGPL -f filename -s supp
Detail of Options
==================
-n GEO: 代表GEO對象的字符 (比如 'GDS505','GSE2','GSM2','GPL96')
-d destdir: 要下載到的目的目錄,默認為當(dāng)前目錄。
-M 邏輯值TRUE或FALSE,告訴腳本是否下載GSE Series Matrix文件,默認為TRUE。
-A 邏輯值TRUE或FALSE,告訴腳本是否使用注釋GPL信息文件(會下載),這些文件包含了最新映射的Gene ID和其他基本信息,但不是都有。默認為TRUE。
-P 邏輯值TRUE或FALSE,告訴腳本是否在下載GSEMatrix文件時下載GPL信息,如果你知道你要用bioconductor工具的注釋包,你可以選擇FALSE,默認為TRUE。
-f filename: 你可以把要下載的GEO對象名放入一個文件,然后指定它。注意,如果使用它,請不要設(shè)定-n選項,不然會被覆蓋掉。
-s supp: 邏輯值TRUE或FALSE,設(shè)定是否要下載原始附加文件。
Minimal Use Method
==================
If you do not know how to use these options, just set -n option is OK
Like
./bulkGEO.sh -n 'GEO1 GEO2 GEO3'
change the 'GEO' above to name of GSE you want to download
昨天為了避免自我感覺的下載麻煩所以寫了這些代碼,因為對linux的腳本還不是很精通,腳本可能會存在問題。基本的下載不會出錯,我已經(jīng)調(diào)試過。如果有問題或其他功能,歡迎提問,我會嘗試解決。
謝謝閱讀~