R稀疏矩陣轉(zhuǎn)化稠密矩陣|使用as.matrix()報(bào)錯(cuò):Cholmod error 'problem too large'

在進(jìn)行一些數(shù)據(jù)分析是經(jīng)常會(huì)需要將一個(gè)數(shù)據(jù)對(duì)象轉(zhuǎn)化為矩陣,以及稀疏矩陣(sparse matrix)和稠密矩陣之間的互化。

問(wèn)題&報(bào)錯(cuò)

在R環(huán)境中,用的非常普遍的函數(shù)就是as.matrix(),但是,當(dāng)轉(zhuǎn)化的稀疏矩陣對(duì)象非常巨大的時(shí)候,例如細(xì)胞數(shù)目非常多的單細(xì)胞數(shù)據(jù),R就會(huì)報(bào)如下類(lèi)似的錯(cuò)誤:

Error in asMethod(object) :
  Cholmod error 'problem too large' at file ../Core/cholmod_dense.c

原因&解決

這是因?yàn)?strong>as.matrix這個(gè)函數(shù)本身不支持大體量的稀疏矩陣轉(zhuǎn)換為稠密矩陣(也就是我們常規(guī)的矩陣),但如果采取用高級(jí)語(yǔ)言(例如R或python)循環(huán)填進(jìn)去的方法的話,極其耗費(fèi)資源,所以可以選擇直接修改該函數(shù)的底層C++語(yǔ)言,來(lái)解決這個(gè)問(wèn)題:

library(Rcpp)
Rcpp::sourceCpp(code='
#include <Rcpp.h>
using namespace Rcpp;
// [[Rcpp::export]]
IntegerMatrix asMatrix(NumericVector rp,
                       NumericVector cp,
                       NumericVector z,
                       int nrows,
                       int ncols){
  int k = z.size() ;
  IntegerMatrix  mat(nrows, ncols);
  for (int i = 0; i < k; i++){
      mat(rp[i],cp[i]) = z[i];
  }
  return mat;
}
' )

as_matrix <- function(mat){
  row_pos <- mat@i
  col_pos <- findInterval(seq(mat@x)-1,mat@p[-1])
  tmp <- asMatrix(rp = row_pos, cp = col_pos, z = mat@x,
                  nrows =  mat@Dim[1], ncols = mat@Dim[2])
  row.names(tmp) <- mat@Dimnames[[1]]
  colnames(tmp) <- mat@Dimnames[[2]]
  return(tmp)
}
as_matirx() #接下來(lái)調(diào)用即可

PS,如果數(shù)據(jù)是浮點(diǎn)型需要把上述的IntegerMatrix替代為NumericMatrix,不然會(huì)強(qiáng)制轉(zhuǎn)化為整型的矩陣。

構(gòu)建稀疏矩陣

此外,如果需要將稠密矩陣轉(zhuǎn)化成為稀疏矩陣,方法很多,介紹一種使用

library("Matrix")
dg <- as(matrix_object,"dgCMatrix")

具體關(guān)于構(gòu)建和解釋稀疏矩陣,可以參照:https://blog.csdn.net/jeffery0207/article/details/122507934

題外

最后,其實(shí)如果不想這么麻煩,又不想去sample隨機(jī)取樣縮減數(shù)據(jù)量,大家也不用那么死板,那就先把大矩陣拆分成幾個(gè)小的,轉(zhuǎn)完之后再合并就行了,效果是一樣的,不是非得一次性轉(zhuǎn)完才算好,曲線救國(guó)的方式很多,bug自然就消失了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容