基于數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)軟測(cè)量建模方法研究及應(yīng)用學(xué)習(xí)筆記

基于數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)軟測(cè)量建模方法研究及應(yīng)用

([博士論文]基于數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)軟測(cè)量建模方法研究及應(yīng)用_金懷平)

一、首先從摘要部分可知,論文主要進(jìn)行了如下工作:

1.由于工業(yè)過程往往表現(xiàn)出強(qiáng)烈的非線性、多模式/多時(shí)段等特性,采用傳統(tǒng)的全局建模方法通常得不到滿意的結(jié)果。因此基于“分而治之”思想的局部學(xué)習(xí)方法,如多模型策略、即時(shí)學(xué)習(xí)、集成學(xué)習(xí)等,成為解決此類過程建模的優(yōu)先選擇。

2.為了有效處理間歇過程的非線性、時(shí)變性和多時(shí)段性等特征,將時(shí)段建模思想和即時(shí)學(xué)習(xí)方法相結(jié)合,以核偏最小二乘為局部建模技術(shù),提出了一種多時(shí)段即時(shí)學(xué)習(xí)自適應(yīng)軟測(cè)量方法。(1)首先基于高斯混合模型將間歇過程劃分為多個(gè)時(shí)段,然后分別建立相應(yīng)的即時(shí)學(xué)習(xí)框架。(2)在線實(shí)施時(shí),基于貝葉斯推理策略估計(jì)查詢點(diǎn)屬于不同時(shí)段的后驗(yàn)概率,并選擇最相關(guān)的即時(shí)學(xué)習(xí)框架實(shí)現(xiàn)主導(dǎo)變量的估計(jì)。(3)為進(jìn)一步提升模型的預(yù)測(cè)性能和自適應(yīng)能力,定義了一種混合相似度,并提出了一種基于在線交叉驗(yàn)證的自適應(yīng)樣本選擇策略。(4)此外,基于最大相似度替換原則實(shí)現(xiàn)數(shù)據(jù)庫(kù)更新,基于偏互信息指標(biāo)選擇輸入變量。

3.傳統(tǒng)的即時(shí)學(xué)習(xí)方法存在一些不足:①頻繁的局部模型在線重構(gòu)影響了在線預(yù)測(cè)的實(shí)時(shí)性;②常規(guī)的相似度指標(biāo)未考慮樣本輸出信息,而且忽略了輸入輸出變量之間的相關(guān)性,從而影響了預(yù)測(cè)精度;③局部建模樣本數(shù)固定不變,制約了模型的自適應(yīng)能力和預(yù)測(cè)性能。針對(duì)這些問題,提出了一種基于在線局部學(xué)習(xí)的自適應(yīng)軟測(cè)量方法。該方法引入了一種在線雙重更新策略,通過交替執(zhí)行即時(shí)學(xué)習(xí)和偏移補(bǔ)償校正,不僅顯著提高了模型的實(shí)時(shí)性能,而且有效避免了預(yù)測(cè)性能的惡化。此外,定義了基于互信息的加權(quán)相似度和基于相鄰樣本的輸入輸出相似度,在此基礎(chǔ)上提出了自驗(yàn)證和相鄰驗(yàn)證自適應(yīng)樣本選擇策略。

4.融合局部學(xué)習(xí)框架和在線支持向量回歸算法,提出了一種新的多模型自適應(yīng)軟測(cè)量方法。首先,基于移動(dòng)窗口策略和統(tǒng)計(jì)假設(shè)檢驗(yàn)方法將過程劃分為多個(gè)局部區(qū)域,并建立相應(yīng)的局部模型。然后借鑒即時(shí)學(xué)習(xí)思想估計(jì)局部模型對(duì)查詢點(diǎn)相似樣本的預(yù)測(cè)性能,并結(jié)合貝葉斯推理策略對(duì)部分表現(xiàn)最佳的局部模型進(jìn)行自適應(yīng)集成。

5.基于集成學(xué)習(xí)和高斯過程回歸提出了一種通用的在線集成自適應(yīng)軟測(cè)量方法。首先,基于即時(shí)學(xué)習(xí)相似樣本選擇和概率分析策略構(gòu)建一組具有較小冗余度的局部區(qū)域,并建立相應(yīng)的局部模型。然后基于有限混合機(jī)理實(shí)現(xiàn)局部預(yù)測(cè)均值和方差的在線集成。此外,該方法在兩個(gè)層次上實(shí)施更新,即局部模型更新和混合權(quán)值更新。

下面對(duì)一些自己不熟悉的專有名詞去進(jìn)行解釋:

即時(shí)學(xué)習(xí):即時(shí)學(xué)習(xí)(JITL)技術(shù)已經(jīng)被廣泛用于非線性過程的自適應(yīng)軟測(cè)量。每當(dāng)查詢樣本到來(lái)時(shí),它都會(huì)使用歷史數(shù)據(jù)集中最相關(guān)的樣本構(gòu)建在線本地模型。因此,預(yù)測(cè)性能很大程度上取決于相關(guān)樣本選擇的相似性測(cè)量。

偏最小二乘法:偏最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù),它通過最小化誤差的平方和找到一組數(shù)據(jù)的最佳函數(shù)匹配。 用最簡(jiǎn)的方法求得一些絕對(duì)不可知的真值,而令誤差平方之和為最小。 很多其他的優(yōu)化問題也可通過最小化能量或最大化熵用最小二乘形式表達(dá)。偏最小二乘用于查找兩個(gè)矩陣(X和Y)的基本關(guān)系,即一個(gè)在這兩個(gè)空間對(duì)協(xié)方差結(jié)構(gòu)建模的隱變量方法。偏最小二乘模型將試圖找到X空間的多維方向來(lái)解釋Y空間方差最大的多維方向。偏最小二乘回歸特別適合當(dāng)預(yù)測(cè)矩陣比觀測(cè)的有更多變量,以及X的值中有多重共線性的時(shí)候。通過投影預(yù)測(cè)變量和觀測(cè)變量到一個(gè)新空間來(lái)尋找一個(gè)線性回歸模型。

核偏最小二乘沒有找到相關(guān)定義,以后再去理解:核偏最小二乘(KPLS)是解決非線性系統(tǒng)的一種有希望的回歸方法,因?yàn)樗梢酝ㄟ^非線性核函數(shù)有效地計(jì)算高維特征空間中的回歸系數(shù)。與其他非線性偏最小二乘(PLS)技術(shù)不同,KPLS不需要任何非線性優(yōu)化程序,并且其復(fù)雜度類似于線性PLS。

高斯過程回歸:高斯過程回歸(Gaussian Process Regression, GPR)是使用高斯過程(Gaussian Process, GP)先驗(yàn)對(duì)數(shù)據(jù)進(jìn)行回歸分析的非參數(shù)模型(non-parameteric model)?[1]?。GPR的模型假設(shè)包括噪聲(回歸殘差)和高斯過程先驗(yàn)兩部分,其求解按貝葉斯推斷(Bayesian inference)進(jìn)行?[2]?。若不限制核函數(shù)的形式,GPR在理論上是緊致空間(compact space)內(nèi)任意連續(xù)函數(shù)的通用近似(universal approximator)。此外,GPR可提供預(yù)測(cè)結(jié)果的后驗(yàn),且在似然為正態(tài)分布時(shí),該后驗(yàn)具有解析形式。因此,GPR是一個(gè)具有泛用性和可解析性的概率模型?[3]??;诟咚惯^程及其核函數(shù)所具有的便利性質(zhì),GPR在時(shí)間序列分析、圖像處理和自動(dòng)控制等領(lǐng)域的問題中有得到應(yīng)用??GPR是計(jì)算開銷較大的算法,通常被用于低維和小樣本的回歸問題?[1]?,但也有適用于大樣本和高維情形的擴(kuò)展算法


二、緒論

異常值:異常值又稱為極端值、離群點(diǎn)(outlier),是指嚴(yán)重偏離典型觀測(cè)值或有效測(cè)量范圍的數(shù)據(jù)。


特征提取與特征選擇






軟測(cè)量建模中非線性問題是必須解決的一個(gè)關(guān)鍵問題,也是很常見的問題

局部建模方法。采用“分而治之”思想,首先將變量空間劃分為多個(gè)局部區(qū)域,

然后在每個(gè)局部區(qū)域上建立一個(gè)簡(jiǎn)單局部函數(shù),從而獲得對(duì)整個(gè)系統(tǒng)的全局描述。局

部加權(quán)回歸(locally weighted regression)[49,50]、集成學(xué)習(xí)(ensemble learning)[51,52]、即時(shí)

學(xué)習(xí)(Just-in-Time Learning, JIT)[53,54]等均采用了局部建模思想。



動(dòng)態(tài)(dynamic)模型和自適應(yīng)(adaptive)模型的概念容易引起混淆,在此作簡(jiǎn)要辨析。

動(dòng)態(tài)模型需要捕捉的是變量的動(dòng)態(tài)特性,即歷史信息對(duì)當(dāng)前預(yù)測(cè)的影響。本質(zhì)上,動(dòng)

態(tài)模型的基本結(jié)構(gòu)保持不變,因此并不具備自適應(yīng)更新能力。與動(dòng)態(tài)模型不同,自適

應(yīng)模型具備利用最新過程信息對(duì)模型做出校正的能力,更新過程中新的過程信息會(huì)被

納入模型中,同時(shí)舊的信息會(huì)被移除或降低權(quán)重,通常涉及到模型結(jié)構(gòu)或參數(shù)的變化。

此外,自適應(yīng)模型并不排斥使用動(dòng)態(tài)模型作為初始模型。

本文將軟測(cè)量技術(shù)的主要應(yīng)用分為四類:(1)過程難測(cè)參數(shù)的在線預(yù)測(cè);(2)過程監(jiān)測(cè),即過程故障檢測(cè)

與診斷;(3)傳感器監(jiān)測(cè),即傳感器故障檢測(cè)及重構(gòu);(4)what-if 分析。


盡管軟測(cè)量建模的方法很多,但一般可將其分為三類:基于機(jī)理知識(shí)的建模(白箱模型);基于數(shù)據(jù)驅(qū)動(dòng)的建模(黑

箱模型);基于機(jī)理知識(shí)和過程數(shù)據(jù)相結(jié)合的混合建模(灰箱模型)。



?第 2 章 基于多時(shí)段即時(shí)學(xué)習(xí)的自適應(yīng)軟測(cè)量建模方法

由于間歇過程具有非線性、時(shí)變性和多時(shí)段性等特征,傳統(tǒng)的單模型和非自適應(yīng)模型難以有效發(fā)揮作用。針對(duì)這種情況,將時(shí)段建模思想與即時(shí)學(xué)習(xí)相結(jié)合,以 KPLS為局部建模技術(shù),提出了一種基于多時(shí)段即時(shí)學(xué)習(xí)的自適應(yīng)軟測(cè)量建模方法,即MJIT-KPLS。該方法首先基于高斯混合模型將間歇過程劃分為多個(gè)時(shí)段,然后分別建立相應(yīng)的局部即時(shí)學(xué)習(xí)框架,在線應(yīng)用時(shí)根據(jù)查詢點(diǎn)關(guān)于不同時(shí)段的后驗(yàn)概率,選擇最相關(guān)的局部即時(shí)學(xué)習(xí)框架用于預(yù)測(cè)。相對(duì)于傳統(tǒng)的即時(shí)學(xué)習(xí),新方法還提出了多種改進(jìn)措施:定義了一種融合時(shí)段相似度與樣本相似度的混合相似度以更好地評(píng)價(jià)樣本相似性;基于在線交叉驗(yàn)證提出了一種自適應(yīng)樣本選擇策略,在改善預(yù)測(cè)性能的同時(shí)提升模型的自適應(yīng)特性;提出了一種基于最大相似度替換原則的數(shù)據(jù)庫(kù)更新策略;給出了一種基于偏互信息指標(biāo)的變量選擇方法以進(jìn)一步完善該建??蚣?。

第 3 章 基于在線局部學(xué)習(xí)的自適應(yīng)軟測(cè)量建模方法?

第 4 章 基于多模型在線支持向量回歸的自適應(yīng)軟測(cè)量建模方法

第 5 章 基于在線集成高斯過程回歸的自適應(yīng)軟測(cè)量建模方法

第 6 章 基于雙重學(xué)習(xí)的在線集成自適應(yīng)軟測(cè)量建模方法

(未完待續(xù)......)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容