看了生信人公眾號的推文,才發(fā)現(xiàn)張澤民老師的研究涉獵非常廣,其中很多生信分析和分析工具我豆豆很感興趣,近幾天計劃把老師的研究捋一捋,今天先就選出來的一些感興趣的文章進行閱讀。原文摘錄如下
2020發(fā)表的“SciBet as a portable and fast single cell type identifier”,是一款單細胞細胞類型注釋軟件。除了速度優(yōu)勢及可解釋性強之外,其訓練后的模型大小也非常小,另外還提供了基于JavaScript實現(xiàn)的在線版SciBet(http://scibet.cancer-pku.cn/)。用戶無需上傳自己的數(shù)據(jù),上傳的是預訓練模型或本地加載自定義訓練集即可在瀏覽器中快速完成測試集中的細胞類型鑒定,并得到可視化分類結(jié)果。
2020年發(fā)表的“An entropy-based metric for assessing the purity of single cell populations”,作者提出了一種單細胞類群純度評估新方法。
2020年Cell research 上的“Reconstruction of cell spatial organization from single-cell RNA sequencing data based on ligand-receptor mediated self-assembly”的文章是scRNA-seq結(jié)合空間轉(zhuǎn)錄組的應(yīng)用。
2020年“Genomic basis for RNA alterations in cancer”的研究論文,將RNA和DNA測序分析整合在一起,將在癌癥研究中發(fā)揮強大作用。
2021純單細胞數(shù)據(jù)挖掘發(fā)表在Cell雜志上的篇名為“A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells”的文章。
2021年Genome Biology上,篇名為“iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的研究。一個用于單細胞數(shù)據(jù)整合的工具,基于python語言編寫。
最感興趣的2020年的SciBet,閱讀記錄如下
abstruct
針對單細胞 RNA 測序數(shù)據(jù),預測新測序細胞的細胞身份。
總結(jié):不是完全等同于注釋,公眾號上此處不太嚴謹。
introduction
面對爆炸性的數(shù)據(jù)增長,一個主要挑戰(zhàn)是給定一個新測序的細胞可靠和快速的細胞類型識別。使用注釋標簽對新生成的數(shù)據(jù)進行有監(jiān)督的細胞類型注釋比無監(jiān)督方法更可取,因為無監(jiān)督方法往往更加費力且計算量更大。使用多項分布模型和最大似然估計來開發(fā) SciBet,最后,我們提供本地和基于 Web 的 SciBet 實現(xiàn)。
總結(jié):主要講工具是預測類型的,速度是最大優(yōu)勢,提供本地版和web服務(wù)。
result
Overview of the algorithm
SciBet 算法由 4 個步驟組成:預處理、特征選擇、模型訓練和細胞類型分配(分別為圖 1a-d)。

預處理:對于 scRNA-seq 的訓練數(shù)據(jù)集,我們使用常見的預處理管道(方法)獲得了歸一化的表達矩陣,并計算了具有相同細胞類型的細胞的平均表達值,這是以下步驟所需的(圖 1a)。
特征選擇:因為并非所有基因都對此類分類問題同樣有用,我們開發(fā)了E-test,選擇細胞類型特異性基因,首先應(yīng)用信息論中的統(tǒng)計熵來衡量泊松-伽瑪混合分布基因表達的離散程度,熵可以直接通過平均基因表達的對數(shù)來估計。我們提出了零假設(shè),其中假設(shè)所有細胞類型都相同,因此具有相同的均值和熵。然后提出了一個統(tǒng)計量ΔS作為總熵差,來衡量觀察到的平均表達與零假設(shè)下的平均表達的偏差。在 E-test 特征選擇的標準下,Δ S較大的基因往往更具有細胞類型特異性,并將通過 E-test 保留用于下游模型訓練(圖 1b ))。
訓練:假設(shè)不同基因的表達豐度在給定的細胞類型中呈多項式分布,從而對不同基因的表達進行建模。多項式模型中每個基因的參數(shù)(x)可以通過上述在每種細胞類型中標準化后的平均基因表達直接估計。

這些標準化參數(shù)(x)也代表了給定細胞類型中每個基因的表達概率(圖 1c和方法)。為訓練集中的每種細胞類型建立了多項式模型,構(gòu)成了 SciBet 的訓練模型。
注釋:對于要由 SciBet 注釋的未知細胞,我們使用其信息基因的表達譜,并計算所有多項式模型的似然函數(shù)。SciBet 選擇模型在描述 RNA 譜分布時實現(xiàn)最高似然/預測能力的細胞類型(圖 1d)最大似然估計計算如下:

。
總結(jié):可以說寫的非常清晰了,預處理就是常規(guī)的標準化,特征選擇的方法是利用假設(shè)檢驗,利用熵值選擇能拒絕原假設(shè)的gene,完成特征選擇。選擇出的特征在不同類型的細胞中表達量均不同,假設(shè)選出的特征是3個基因,這樣對每個單一的細胞類,xG1+yG2+z*G3=細胞類型1(這是個多項式所以說”假設(shè)不同基因的表達豐度在給定的細胞類型中呈多項式分布“),其他細胞類型同理,知道xyz的值,就能特定的確定一個細胞的類型。這樣就能對每個細胞類型建模。有了模型,訓練就是個非常容易,的,根據(jù)最大似然估計可以確定具體應(yīng)該是哪個類型。
Performance assessment by cross-validation
為了對這種多標簽分類問題進行定量測試,應(yīng)用了交叉驗證
總結(jié):機器學習的標準流程
Real-world applications of SciBet
使用一個或多個 scRNA-seq 數(shù)據(jù)集進行訓練和測試
總結(jié):機器學習的標準流程
Web-based implementation of SciBet
可以直接下載訓練好的模型,新的數(shù)據(jù)直接拿來預測就行:從 19個公開數(shù)據(jù)庫收集的約 100 個注釋良好的 scRNA 數(shù)據(jù)集,使用 SciBet 為每個數(shù)據(jù)集生成訓練模型。訓練模型非常小,可以與本地 SciBet 軟件包一起輕松下載。例如,具有 100 種細胞類型和 1000 個特征基因的模型的大小將不超過 1 MB。
web服務(wù):不需要測序文件上傳到遠程服務(wù)器。 用戶可以使用我們的web服務(wù)器上傳自定義參考或測試數(shù)據(jù)的單元類型預測。 對于需要長時間數(shù)據(jù)傳輸?shù)拇笮筒樵償?shù)據(jù)集,我們還提供了一個輕量級的獨立包,通過一個簡單的命令來本地構(gòu)建基于web的工具。 通過這種方式,數(shù)據(jù)文件可以在本地直接在瀏覽器中讀取和處理,從服務(wù)器傳輸?shù)綖g覽器的模型只需要很小的尺寸,從而達到了前所未有的速度和方便。

這還搞出個中文來,button上也沒見寫,回頭研究下。

method
總結(jié):一些數(shù)學公式,基本是熵和概率論的東西,用了些sklearn的方法,回頭代碼也能看一下,了解下哪部分是新實現(xiàn)的,哪部分是改造的,哪部分是直接調(diào)包。
文章總結(jié):是非常有意思的一篇文章,分類器的設(shè)計方法也比較有趣,理解起來不算太難但是實際實現(xiàn)的話工作量很大,對數(shù)學和信息論方面要很了解才行??傊@個實現(xiàn)很有含金量,應(yīng)用價值也有,希望之后可以用這個工具工作,后續(xù)也希望寫篇文章解讀下源碼,看看哪部分是新實現(xiàn)的,哪部分是改造的,哪部分是直接調(diào)包,對自己之后寫方法也是個借鑒。
雖然看能看懂 ,但是如果讓自己做則很難,主要還是對建模,統(tǒng)計,信息論,機器學習還是不夠爛熟于心,總結(jié)下文章中最主要的三個核心:用假設(shè)檢驗和熵選擇基因,用選出的基因構(gòu)建多項式來代表細胞類型,最后用假設(shè)檢驗驗證輸入的數(shù)據(jù)具體應(yīng)該屬于哪個類型