這是UCSC xena 頁面 https://xenabrowser.net/datapages/

cat cancer.ID | while read id;
do
echo $id
mkdir -p $id
cd $id
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.htseq_counts.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.GDC_phenotype.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.survival.tsv.gz
wget -c https:/c/gdc.xenahubs.net/download/TCGA-sfid}/Xena_Matrices/TCGA-${id}.mutect2_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.muse_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.varscan2_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.somaticsniper_snv.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.mirna.tsv.gz
wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.masked_cnv.tsv.gz
# wget -c https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-${id}.htseq_fpkm.tsv.gz
cd ../
done
cancer.ID是30多個(gè)癌種的名稱list

1、關(guān)于copy number
Masked Copy Number Segment和Copy Number Segmentation都是用于分析基因組拷貝數(shù)變異(CNV)的方法,但它們在處理數(shù)據(jù)時(shí)有所不同。Copy Number Segmentation是一種分析技術(shù),它使用特定的算法(如Circular Binary Segmentation, CBS)來識(shí)別基因組中拷貝數(shù)變化的區(qū)域,并估算這些區(qū)域的拷貝數(shù)。這種方法能夠?qū)⒃肼晱?qiáng)度測量轉(zhuǎn)換為染色體區(qū)域的等拷貝數(shù),最終輸出文件被分割成帶有每個(gè)區(qū)域估計(jì)拷貝數(shù)的基因組區(qū)域。GDC(Genomic Data Commons)將這些拷貝數(shù)值轉(zhuǎn)化為片段均值,等于log2(copy-number/ 2)。Diploid regions(二倍體區(qū)域)會(huì)有一個(gè)段均值為零,amplified regions(擴(kuò)增區(qū)域)會(huì)有正的值,而deletions(缺失區(qū)域)會(huì)有負(fù)的值。
Masked Copy Number Segment是在Copy Number Segmentation的基礎(chǔ)上進(jìn)行的一種過濾處理。它除了包含Copy Number Segmentation的所有信息外,還會(huì)移除那些已知含有g(shù)ermline mutations(常染色體突變)的片段。這種處理通常用于GISTIC(Genomic Identification of Significant Targets in Cancer)分析,以便專注于那些與腫瘤相關(guān)的somatic CNVs(體細(xì)胞CNVs),而排除那些可能與個(gè)體的遺傳背景有關(guān)的germline CNVs
總結(jié)來說,Masked Copy Number Segment是對Copy Number Segmentation數(shù)據(jù)的一種額外處理,旨在去除那些可能影響分析結(jié)果的germline CNVs,使得分析更加聚焦于腫瘤特有的CNVs。所以我們下載的是Masked Copy Number Segment。
2、關(guān)于SNP
MuSE Variant Aggregation and Masking 是一種用于處理和分析腫瘤樣本中的單核苷酸變體(SNVs)的方法。它通常用于整合來自多個(gè)樣本的SNV數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行掩碼處理,以減少假陽性的突變檢測。MuSE方法特別適合于大規(guī)模的腫瘤樣本集合,因?yàn)樗軌蛴行У靥幚韽?fù)雜的基因組變異模式,并且能夠識(shí)別出與腫瘤發(fā)展相關(guān)的突變。
MuTect2 Variant Aggregation and Masking 是由GATK團(tuán)隊(duì)開發(fā)的一種用于識(shí)別和分析腫瘤樣本中的SNVs和小型插入缺失(indels)的方法。它使用了一系列復(fù)雜的算法來區(qū)分真陽性和假陽性的變異,并且能夠處理不同類型的基因組數(shù)據(jù)。MuTect2方法在腫瘤基因組學(xué)研究中非常常見,尤其是在使用Illumina測序平臺(tái)的研究中。
SomaticSniper Variant Aggregation and Masking 是一種用于識(shí)別和分析腫瘤樣本中的SNVs和indels的方法。它使用了一種基于貝葉斯模型的方法來評估變異的可信度,并且能夠處理不同類型的基因組數(shù)據(jù)。SomaticSniper方法在某些研究中也被使用,盡管它不如MuTect2和MuSE那樣流行。
VarScan2 Variant Aggregation and Masking 是一種用于識(shí)別和分析腫瘤樣本中的SNVs和indels的方法。它使用了一種基于統(tǒng)計(jì)的方法來評估變異的可信度,并且能夠處理不同類型的基因組數(shù)據(jù)。VarScan2方法在某些研究中也被使用,盡管它不如MuTect2和MuSE那樣流行。
Segmentation的區(qū)別
Segmentation通常指的是將連續(xù)的基因組區(qū)域劃分為不同的部分,這些部分可能具有不同的遺傳特征或變異模式。在腫瘤基因組學(xué)中,segmentation可以幫助研究者識(shí)別染色體拷貝數(shù)變異(CNVs)、斷裂點(diǎn)(breakpoints)、重組事件等。不同的變異檢測方法可能會(huì)采用不同的segmentation策略,以適應(yīng)它們各自的分析目的和數(shù)據(jù)類型。
在上述提到的四種變異檢測方法中,MuTect2、MuSE、SomaticSniper和VarScan2都可以用來檢測SNVs和indels,但它們在處理數(shù)據(jù)和分析方法上有所不同。這些差異可能會(huì)影響它們在進(jìn)行segmentation時(shí)的性能和結(jié)果。例如,MuTect2和MuSE可能會(huì)采用更加復(fù)雜的算法來處理大量的基因組數(shù)據(jù),而VarScan2和SomaticSniper可能會(huì)采用更簡化的方法。因此,選擇哪種方法進(jìn)行segmentation取決于具體的研究目標(biāo)和可用的數(shù)據(jù)類型。