loom文件的生成

單細胞測序的軌跡推斷中,我們介紹了RNA速率分析的原理,進行速率分析的前提就是需要得到未剪切的 (unspliced) 和剪切的 (spliced) mRNA信息。
這個文件需要我們從fastq文件開始,與基因組比對的到sam文件,從sam文件轉成bam,再從bam中提取上面的消息,得到.loom為后綴的文件。(參考:生物信息學常見數(shù)據(jù)格式

loom文件的生成需要使用velocyto。針對不同的測序平臺,velocyto有不同的方法進行l(wèi)oom文件的提取,參考官網:http://velocyto.org/velocyto.py/tutorial/cli.html#run-smartseq2-run-on-smartseq2-samples

  1. 安裝velocyto
## 1. 創(chuàng)建python>3.6的環(huán)境
conda create -n velocyto python=3.6
## 2. 安裝前置軟件
conda install numpy scipy cython numba matplotlib scikit-learn h5py click
pip install pysam
## 3. 安裝velocyto
pip install velocyto
## 4. 測試
velocyto --help
Usage: velocyto [OPTIONS] COMMAND [ARGS]...

Options:
  --version  Show the version and exit.
  --help     Show this message and exit.

Commands:
  run            Runs the velocity analysis outputting a loom file
  run10x         Runs the velocity analysis for a Chromium Sample
  run-dropest    Runs the velocity analysis on DropEst preprocessed data
  run-smartseq2  Runs the velocity analysis on SmartSeq2 data (independent bam file per cell)
  tools          helper tools for velocyto
  1. repeat_masker.gtf生成
    運行velocyto需要準備三個文件,單細胞數(shù)據(jù)分析的結果文件,基因組注釋文件,重復序列注釋文件,其中前兩個在單細胞分析時就會得到,關鍵是repeat_masker.gtf的生成

  2. loom文件生成
    接下來是生成loom文件,運行velocyto需要準備三個文件,基因組注釋文件(gtf),repeat_masker.gtf(重復序列注釋文件),cellranger的結果文件夾(以樣本名WT_1為例,里面包含cell matrix和bam文件)

參考:https://www.zhouxiaozhao.cn/2020/11/10/RNAvelocity(1)/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯(lián)系作者。

相關閱讀更多精彩內容

友情鏈接更多精彩內容