批量下載TCGA所有數(shù)據(jù)

這是UCSC xena 頁面 https://xenabrowser.net/datapages/

image.png

cat cancer.ID | while read id;
do
echo $id
mkdir -p $id
cd $id

wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.htseq_counts.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.GDC_phenotype.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.survival.tsv.gz
wget -c https:/c/gdc.xenahubs.net/download/TCGA-sfid}/Xena_Matrices/TCGA-${id}.mutect2_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.muse_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.varscan2_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.somaticsniper_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.mirna.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.masked_cnv.tsv.gz
# wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.htseq_fpkm.tsv.gz
cd ../
done

cancer.ID是30多個癌種的名稱list


image.png

1、關于copy number
Masked Copy Number Segment和Copy Number Segmentation都是用于分析基因組拷貝數(shù)變異(CNV)的方法,但它們在處理數(shù)據(jù)時有所不同。Copy Number Segmentation是一種分析技術,它使用特定的算法(如Circular Binary Segmentation, CBS)來識別基因組中拷貝數(shù)變化的區(qū)域,并估算這些區(qū)域的拷貝數(shù)。這種方法能夠?qū)⒃肼晱姸葴y量轉(zhuǎn)換為染色體區(qū)域的等拷貝數(shù),最終輸出文件被分割成帶有每個區(qū)域估計拷貝數(shù)的基因組區(qū)域。GDC(Genomic Data Commons)將這些拷貝數(shù)值轉(zhuǎn)化為片段均值,等于log2(copy-number/ 2)。Diploid regions(二倍體區(qū)域)會有一個段均值為零,amplified regions(擴增區(qū)域)會有正的值,而deletions(缺失區(qū)域)會有負的值。
Masked Copy Number Segment是在Copy Number Segmentation的基礎上進行的一種過濾處理。它除了包含Copy Number Segmentation的所有信息外,還會移除那些已知含有germline mutations(常染色體突變)的片段。這種處理通常用于GISTIC(Genomic Identification of Significant Targets in Cancer)分析,以便專注于那些與腫瘤相關的somatic CNVs(體細胞CNVs),而排除那些可能與個體的遺傳背景有關的germline CNVs
總結(jié)來說,Masked Copy Number Segment是對Copy Number Segmentation數(shù)據(jù)的一種額外處理,旨在去除那些可能影響分析結(jié)果的germline CNVs,使得分析更加聚焦于腫瘤特有的CNVs。所以我們下載的是Masked Copy Number Segment。

2、關于SNP
MuSE Variant Aggregation and Masking 是一種用于處理和分析腫瘤樣本中的單核苷酸變體(SNVs)的方法。它通常用于整合來自多個樣本的SNV數(shù)據(jù),并對這些數(shù)據(jù)進行掩碼處理,以減少假陽性的突變檢測。MuSE方法特別適合于大規(guī)模的腫瘤樣本集合,因為它能夠有效地處理復雜的基因組變異模式,并且能夠識別出與腫瘤發(fā)展相關的突變。
MuTect2 Variant Aggregation and Masking 是由GATK團隊開發(fā)的一種用于識別和分析腫瘤樣本中的SNVs和小型插入缺失(indels)的方法。它使用了一系列復雜的算法來區(qū)分真陽性和假陽性的變異,并且能夠處理不同類型的基因組數(shù)據(jù)。MuTect2方法在腫瘤基因組學研究中非常常見,尤其是在使用Illumina測序平臺的研究中。
SomaticSniper Variant Aggregation and Masking 是一種用于識別和分析腫瘤樣本中的SNVs和indels的方法。它使用了一種基于貝葉斯模型的方法來評估變異的可信度,并且能夠處理不同類型的基因組數(shù)據(jù)。SomaticSniper方法在某些研究中也被使用,盡管它不如MuTect2和MuSE那樣流行。
VarScan2 Variant Aggregation and Masking 是一種用于識別和分析腫瘤樣本中的SNVs和indels的方法。它使用了一種基于統(tǒng)計的方法來評估變異的可信度,并且能夠處理不同類型的基因組數(shù)據(jù)。VarScan2方法在某些研究中也被使用,盡管它不如MuTect2和MuSE那樣流行。
Segmentation的區(qū)別
Segmentation通常指的是將連續(xù)的基因組區(qū)域劃分為不同的部分,這些部分可能具有不同的遺傳特征或變異模式。在腫瘤基因組學中,segmentation可以幫助研究者識別染色體拷貝數(shù)變異(CNVs)、斷裂點(breakpoints)、重組事件等。不同的變異檢測方法可能會采用不同的segmentation策略,以適應它們各自的分析目的和數(shù)據(jù)類型。

在上述提到的四種變異檢測方法中,MuTect2、MuSE、SomaticSniper和VarScan2都可以用來檢測SNVs和indels,但它們在處理數(shù)據(jù)和分析方法上有所不同。這些差異可能會影響它們在進行segmentation時的性能和結(jié)果。例如,MuTect2和MuSE可能會采用更加復雜的算法來處理大量的基因組數(shù)據(jù),而VarScan2和SomaticSniper可能會采用更簡化的方法。因此,選擇哪種方法進行segmentation取決于具體的研究目標和可用的數(shù)據(jù)類型。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容