判別分析(DA)是一種根據(jù)觀察或測(cè)量到的若干變量值,來判斷研究對(duì)象如何分類的常用統(tǒng)計(jì)分析方法。
偏最小二乘回歸(PlS)與主成分回歸相關(guān),但不是尋找響應(yīng)變量和自變量之間最大方差超平面,而是通過投影分別將預(yù)測(cè)變量和觀測(cè)變量投影到一個(gè)新空間,來尋找一個(gè)線性回歸模型。
偏最小二乘判別分析(PLS-DA)是一種用于判別分析的多變量統(tǒng)計(jì)分析方法,經(jīng)常用來處理分類和判別問題。
Question1:什么是PLS-DA?
數(shù)據(jù)X和Y都會(huì)投影到新空間,PLS系列的方法都被稱為雙線性因子模型(bilinear fator models),當(dāng)Y是分類數(shù)據(jù)時(shí)稱為偏最小二乘判別分析( PLS-DA)。
與PCA不同,PCA是無監(jiān)督,PLS是“有監(jiān)督”模式的偏最小二乘法分析,當(dāng)樣本組間差異大而組內(nèi)差異小時(shí),無監(jiān)督分析方法可以很好的區(qū)分組間差異。反之樣本組間差異不大,無監(jiān)督的方法就難以區(qū)分組間差異。另外如果組間的差異較小,各組的樣本量相差較大,樣本量大的那組將會(huì)主導(dǎo)模型。有監(jiān)督的分析(PLS-DA)能夠很好的解決這些問題。也就是在分析數(shù)據(jù)時(shí),已知樣本的分組關(guān)系,這樣可以更好的選擇區(qū)分各組的特征變量,確定樣本之間的關(guān)系。DA是判別分析,PLS-DA用偏最小二乘回歸的方法,在對(duì)數(shù)據(jù)“降維”的同時(shí),建立了回歸模型,并對(duì)回歸結(jié)果進(jìn)行判別分析。
Question2:什么是OPLS-DA?
PLS是偏最小二乘分析,DA是判別分析,再加一個(gè)o就是加了一個(gè)正交,OPLS-DA就是正交偏最小二乘法判別分析。
——當(dāng)變量數(shù)量遠(yuǎn)大于樣品數(shù)量時(shí)(行數(shù)小于列數(shù)), PLS或 PLS-DA模型容易過擬合(泛化能力不強(qiáng)),但是PCA效果也不好。但是加入正交矯正之后數(shù)據(jù)檢出假陽性會(huì)降低,會(huì)更準(zhǔn)確。OPLS是一種多因變量對(duì)多自變量的回歸建模方法,其最大的特點(diǎn)是可以去除自變量X中與分類變量Y無關(guān)的數(shù)據(jù)變異,使分類信息主要集中在一個(gè)主成分中,從而模型變的簡單和易于解釋,其判別效果和主成分得分圖的可視化效果更加明顯。
OPLS-DA在代謝組學(xué)分析中應(yīng)用較多,利用偏最小二乘回歸建立代謝物表達(dá)量與樣本類別之間的關(guān)系模型,同時(shí)還可以有效分離樣本,預(yù)測(cè)樣品類別。PLS-DA/OPLS-DA建立了代謝物表達(dá)量與分組關(guān)系之間的模型,更好地獲取組間差異信息,還可以對(duì)樣品的分組進(jìn)行預(yù)測(cè),這是PCA做不到的。
