之前在Connectivity Map(cMap)的探索應(yīng)用(二)中提到了兩種cmap在線分析網(wǎng)站,一個是build2 ;另一個是CLUE平臺。bulid2在cMAP在線分析——舊版build2的使用 那期已經(jīng)講解過,今天就來簡單介紹下CLUE平臺的使用!由于CLUE平臺的功能很多,會分多期講解。上一期cMAP新版clue的使用——List Marker已經(jīng)簡單介紹了List Maker的操作方法,今天開始 query的介紹!
cMAP新版clue在線分析 ,網(wǎng)站:https://clue.io/。
cMAP新版clue在線分析 ,網(wǎng)站:https://clue.io/。
clue的主工具區(qū)(Tools)
今天主要介紹query,該工具主要用于比較輸入signature list與參考數(shù)據(jù)庫中表達譜的相似性。
- 首先,點擊tools—query,進入如下界面,(1)命名本次分析,這命名為Myfirst individual query;(2)在query參數(shù)處,選擇L1000數(shù)據(jù)庫。
Individual query
- 然后選擇individual query,在"UP-regulated genes"加載所要分析的基因list,系統(tǒng)會彈出之前在網(wǎng)站上傳的基因list,這里我們選擇"mygene_up";在"DOWN-regulated genes"同理,上傳它的配對下調(diào)基因"mygene_down",這是個可選項,如果沒有可不選。(這里強調(diào)下:基因list的數(shù)量只能在10-150之間個基因,上下調(diào)加起來不超過300個基因)
- 加載基因list成功后如下圖,這時候需要核實自己上傳的基因名稱有沒有問題,網(wǎng)站系統(tǒng)能不能識別,系統(tǒng)給出三種表示:
Invalid gene代表不能識別,說明基因名稱不是正確的Entrez ID或HUGO symbol。
Valid gene代表可識別,說明基因名稱正確。
Valid but not used in query代表可識別但未收錄在L1000數(shù)據(jù)中。L1000數(shù)據(jù)庫大概收錄有10000左右的基因,不包括所有已知基因。
從以下結(jié)果來看,加載的數(shù)據(jù)中沒有不被識別的情況,因此數(shù)據(jù)是合格的,點擊submit進行分析。
- 分析自動運行,這過程比較費時間,這次運行大概跑了三十分鐘。。。。如下展示,運行結(jié)束。
batch query(批量)
- 點擊tools—query,進入如下界面,(1)-命名本次分析,這命名為Myfirst individual query;(2)在query參數(shù)處,選擇L1000數(shù)據(jù)庫。(3)選擇batch query
- 然后加載基因集,首先上傳UP的基因集,這里彈出選擇框,選擇提前整理好的"cancer_up";同理上傳DOWN的基因集,這里彈出選擇框,選擇提前整理好的"cancer_down"。
- UP和DOWN的基因集成功上傳后,發(fā)現(xiàn)有警告信息,提醒我基因list里有不能被識別的基因(由于這里隨便找了個gene symbol數(shù)據(jù)做測試,沒有提前評估數(shù)據(jù),比較懶哈哈,大家自己的數(shù)據(jù)做之前,先進行EntreID轉(zhuǎn)化,這樣保險點),我這邊就直接忽略這個警告信息啦,點擊sumit,進行分析。
同樣的,運行時間也需要二三十分鐘,運行結(jié)束如下:
結(jié)果線上查看
HEAT MAP查看結(jié)果
運行結(jié)束后,我們來看看結(jié)果,以"Myfirst individual query"為例,點擊HEAT MAP
得到如下界面,該界面是用熱圖的形式來呈現(xiàn)整體數(shù)據(jù),列為不同的cell ID,行為Perturbagen,且注釋有數(shù)據(jù)庫來/名稱/描述/ts_pc(不同score閾值條件下的占比)/不同cell score值的中位數(shù)。熱圖顏色代表score值,越紅值越高,越灰越低。最左側(cè)是篩選區(qū),根據(jù)自己需要設(shè)置即可。
這個界面非常棒,選擇右側(cè)的CLUE Card,然后點擊感興趣的小分子行,還給我們提供該分子記錄的化學(xué)式結(jié)構(gòu),以及詳細(xì)介紹。
DETAILED LIST查看結(jié)果
得到如下結(jié)果界面,下面介紹常用的幾個參數(shù)鍵:
1-Perturbagen Type代表數(shù)據(jù)庫的分類(小分子成分、敲除、過表達、CMap),看個人分析需要選擇適合的庫,大部分用此庫的目的都在于分析與小分子藥物處理表達譜數(shù)據(jù)之間的相似性,因此Compond用的比較多。
2-右側(cè)以條形圖的可視化形式呈現(xiàn)結(jié)果,有兩個篩選框。"Subset by"有cell lines和Perturbagen type。該功能主要用于在線可視化查看。
3.1-當(dāng)"Subset by"選擇以cell lines展示時,summary可以進一步選擇不同細(xì)胞系;
3.2-當(dāng)"Subset by"選擇以Perturbagen type展示時,summary可以進一步選擇不同類型的數(shù)據(jù);
4-除了以上可視化呈現(xiàn)結(jié)果外,還可以如下用表格形式呈現(xiàn),發(fā)現(xiàn)共計8559條信息(這是針對所有數(shù)據(jù)庫的結(jié)果)。點擊1處設(shè)置按鈕,選擇所需要的列,然后點擊2處的export即可導(dǎo)出結(jié)果。
結(jié)果線下查閱
按照DETAILED LIST里的內(nèi)容,只導(dǎo)出compand的結(jié)果(共計2429條信息),本地txt文本結(jié)果如下,包含最重要的那幾個信息,Score值、compond的名稱。在很多涉及cmap的文章中,數(shù)據(jù)的呈現(xiàn)主要涉及Score值、name、MoA和Target。詳細(xì)的結(jié)果附件??export.xlsx
以上結(jié)果就展示了我上傳的基因list與這2429組小分子處理表達譜數(shù)據(jù)的相似性。相似程度以score值來評估,score的取值范圍在-100到100之間,結(jié)果按照從高到低降序排列,數(shù)值越靠近100說明該基因list與該條小分子處理記錄越相似;數(shù)值越靠近-100說明該基因list與該條小分子處理記錄越相反。
為了方便大家理解,假如我上傳的基因list是一組乳腺癌的signature,以上結(jié)果羅列了與2429個小分子的相似性,排名靠前的那些說明表達相似,排名靠后的那些說明表達拮抗,這些顯示出拮抗的小分子可以是治療乳腺癌的候選藥物。
最后,使用過程中有疑問的話,可直接參考幫助網(wǎng)頁:https://clue.io/connectopedia/
往期回顧
Connectivity Map(cMap)的探索應(yīng)用(一)
miRNA靶標(biāo)預(yù)測數(shù)據(jù)的答疑解惑!
Connectivity Map(cMap)的探索應(yīng)用(二)
Connectivity Map(cMap)的探索應(yīng)用(三)
今天的內(nèi)容就到這里,更多內(nèi)容可關(guān)注公共號“YJY技能修煉”~~~