補(bǔ)充知識(shí)點(diǎn):
主成分分析
主要用途在于降維,析出主成分的顯著差異,削減/去除回歸分析和聚類分析中的次要因素及包含于內(nèi)的變量
princomp()R語(yǔ)言自帶函數(shù)
psych包的principal()函數(shù)---install.packages("psych")
scale()是對(duì)數(shù)據(jù)中心化的函數(shù),當(dāng)參數(shù)scale=F時(shí),表示采用中心化將數(shù)據(jù)按列減去平均值,scale=T表示按列進(jìn)行標(biāo)準(zhǔn)化,公式為(x-mean(x))/sd(x)
options(digits=4, scipen=4)
scipen是指科學(xué)計(jì)數(shù)法,一般來說如果數(shù)字很大,比如十幾位甚至二十位的時(shí)候,在R里面就會(huì)顯示是科學(xué)計(jì)數(shù)法的,一般R默認(rèn)10萬(wàn)以上按照科學(xué)計(jì)數(shù)法顯示,scipen = 1相當(dāng)于默認(rèn)設(shè)置,scipen = 2, 則大于100萬(wàn)以上按照科學(xué)技術(shù)法顯示。而digits是設(shè)置顯示多少位有效數(shù)字。
利用eigen函數(shù)計(jì)算相關(guān)系數(shù)矩陣的特征值和特征向量(PCA非常重要部分)
set.seed()產(chǎn)生隨機(jī)數(shù)
用于設(shè)定隨機(jī)數(shù)種子,一個(gè)特定的種子可以產(chǎn)生一個(gè)特定的偽隨機(jī)序列,這個(gè)函數(shù)的主要目的,是讓模擬能夠重復(fù)出現(xiàn),因?yàn)楹芏鄷r(shí)候我們需要取隨機(jī)數(shù),但這段代碼再跑一次的時(shí)候,結(jié)果就不一樣了,如果需要重復(fù)出現(xiàn)同樣的模擬結(jié)果的話,就可以用set.seed()
genefu a package for breast cancer gene expression analysis
scran包中cyclone函數(shù)進(jìn)行單細(xì)胞轉(zhuǎn)錄組的細(xì)胞周期狀態(tài)推斷
TxDb objectsThe TxDb class is a container for storing transcript annotations.
GRanges objectsThe GRanges class is a container for the genomic locations and their associated annotations.
scran包中的cyclone函數(shù)
這里根據(jù)Scialdone et al. (2015) 提供的預(yù)測(cè)方法,簡(jiǎn)而言之就是利用一個(gè)做好的訓(xùn)練數(shù)據(jù)集和已知表達(dá)矩陣基因表達(dá)量變化進(jìn)行分類。在訓(xùn)練數(shù)據(jù)集中,已經(jīng)計(jì)算好了兩兩基因的差異(基因?qū)?,pair of genes / pairs),并且將屬于不同細(xì)胞周期(它規(guī)定了3種量化水平:G1、S、G2M)且存在差異的基因?qū)ψ鳛橐粋€(gè)marker pair。然后就在已知表達(dá)矩陣中對(duì)每個(gè)細(xì)胞測(cè)試這些marker pairs與訓(xùn)練數(shù)據(jù)集中的相似程度,每個(gè)細(xì)胞最后都得到了在G1、S、G2/M水平的分值,最后根據(jù)分值將細(xì)胞歸類。
cyclone函數(shù)主要需要三個(gè)元素:一個(gè)是sce單細(xì)胞對(duì)象表達(dá)矩陣,一個(gè)是pairs參數(shù),還有一個(gè)是gene.names參數(shù)。
第二個(gè)參數(shù)
library(org.Mm.eg.db)
mm.pairs <- readRDS(system.file("exdata", "mouse_cycle_markers.rds",
package="scran")) (系統(tǒng)默認(rèn))
pairs: a list of data frames produced by sandbag, containing pairs of marker genes
第三個(gè)參數(shù)要求是Ensembl ID