等了好久的B站TCGA筆記(1-2章)

B站視頻地址:https://www.bilibili.com/video/av49363776?from=search&seid=17709076368945641839
特此致謝:生信技能樹

101

需要了解的內容:TCGA的研究范圍、數(shù)據(jù)來源、數(shù)據(jù)格式、數(shù)據(jù)儲存、基本的生物學概念、腫瘤學知識、熟悉使用R語言

R語言教程:https://www.bilibili.com/video/av25643438?from=search&seid=2313097517440657329

102

配套代碼:https://github.com/jmzeng1314/tcga_example 也可以把整個github上的代碼打包下來(就是考驗網(wǎng)速---事實證明:網(wǎng)速卒)

miRNA數(shù)據(jù)庫:http://www.mirbase.org/

miRNA 的命名方式:(引自周凡,莊詩美.《microRNA與腫瘤》, 生命科學, 2008, 20(2):207-212. )

  • (1) miRNA 簡寫成miR,再根據(jù)其被克隆的先后順序加上阿拉伯數(shù)字,如miR-21

  • (2) 高度同源的miRNA 在數(shù)字后加上英文小寫字母(a、b 、c),如miR-199a 和miR-199b;

  • (3) 由不同染色體上的DNA序列轉錄加工而成的具有相同成熟體序列的miRNA,則在后面加上阿拉伯數(shù)字以區(qū)分, 如miR-199a-1 和miR-199a-2;

  • (4) 如果一個前體的2 個臂分別加工產生miRNA,則根據(jù)克隆實驗,在表達水平較低的miRNA 后面加“”,如miR-199a和miR-199a,或進行如下命名,miR-142-5p(也可命名為miR-142-s,表示從5' 端的臂加工而來)和miR-142-3p(也可命名為miR-142-as,表示從3′端的臂加工而來);

  • (5) 將物種縮寫置于miRNA 之前,如hsa-miR-195 ;

  • (6) 確定命名規(guī)則之前發(fā)現(xiàn)的miRNA,如let-7,則保留原來名字。

流程:

  • 下載數(shù)據(jù)

  • 提取表達矩陣、臨床信息

  • 差異分析---count用DEG+limma;micro-reads用limma

  • 把每個結果存成Rdata

  • bach--logrank(去NA、修改變量名稱、引入臨床信息開始做生存分析---生存分析的幾個統(tǒng)計學方法?

  • bach--cox(cox回歸,探究多因素對生存期的影響)及森林圖制作

  • LASSO回歸(聽說要用泰勒公式展開,先放著)

  • (還有很多可以做的,慢慢去開發(fā))

103

TCGA的用法:用于驗證自己的數(shù)據(jù),或者做了數(shù)據(jù)挖掘后,進行臨床驗證,可以多組學、多平臺聯(lián)合分析。多讀文獻多開腦洞

聽說技能樹承包了你2020生物信息學文獻 https://mp.weixin.qq.com/s/7nvBDPZb2uGVglwJE7p_Rw

201

數(shù)據(jù)權限: 3級、4級才能下載分析;1級、2級需要申請下載。

大家記得去掃視頻4:36 的二維碼 https://www.bilibili.com/video/av49363776?p=4

測序--比對(BWA)--去除重復---堿基校正---BAM---IGV可視化---QC---mutation(somatic--體細胞突變--僅存在于特定組織中,不遺傳給后代;germinal--種系突變--全身大部分細胞都突變,且可遺傳 )---indels/purity(可下載作為數(shù)據(jù)校正)、ploidy/CNV/rearrangements(結構變異)----annotation

六種數(shù)據(jù):外顯子、表達數(shù)據(jù)、甲基化、蛋白質、CNV、臨床信息、miRNA

網(wǎng)頁工具

  • GDC---目前TCGA的整合

  • cbioportal--按照文章來分

  • UCSC---可以用Python下載

  • FIREHOSE

  • oncolnc---看生存相關專用

  • gepia

  • tanric---lncRNA

  • TCIA---與TCGA配套的影像資料

  • ICGC---比TCGA更大

202

GTEx: 可以與TCGA聯(lián)合做正常 對照組或eQTL的分析

203---Xena

不需要編程


acdb994b-aa04-4a6c-8b52-2226e1984d99-4204432.jpg

關于篩選空白樣本(左側有黑色邊框即為保留的)


bc55e617-1ddd-4532-bb8f-421182ba9859-4204432.jpg

讀取數(shù)據(jù)出現(xiàn)空值要設置 fill=F,去除含空值數(shù)據(jù):na.omit(),去除特定行的辦法如下


b82270cb-5a76-4dc5-a3df-c7a8c3346cc8-4204432.jpg

204

firehose:http://gdac.broadinstitute.org/

(鑒于它數(shù)據(jù)更新的慢而且我已經(jīng)學會了GDC全套,所以各位看視頻吧)

205

文章規(guī)律(還是那句話:多看文章,多開腦洞,讓技能樹的文獻推送承包你今年的文獻吧)

https://mp.weixin.qq.com/s/7nvBDPZb2uGVglwJE7p_Rw

第三章單獨寫一個

從未想到GDC下載到數(shù)據(jù)合并整理

整整讓我費了好久的腦子(大概是太久沒做了)

尤其是304節(jié),我整整看了四五遍才大致理清楚要怎么做

結果:腦子:懂了沒,趕緊做;手:不,你不會。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容