2019-04-04 論文筆記—LSTM-based Anomaly Detection on Big Data for Smart Factory Monitoring

論文筆記—LSTM-based Anomaly Detection on Big Data for Smart Factory Monitoring?

基于lstm的智能工廠監(jiān)控大數(shù)據(jù)異常檢測

本文提出了一種基于大數(shù)據(jù)的機器學(xué)習(xí)方法來分析時間序列數(shù)據(jù),用于工業(yè)復(fù)雜系統(tǒng)的異常檢測。長短時記憶(LSTM)網(wǎng)絡(luò)已被證明是RNN的改進版本,并已成為許多任務(wù)的有效輔助?;贚STM的模型學(xué)習(xí)了更高層次的時間特征和時間模式,然后利用預(yù)測器對未來的數(shù)據(jù)進行預(yù)測。預(yù)測誤差是預(yù)測器的預(yù)測輸出與實際輸入值的差值。利用高斯分布建立了誤差分布估計模型,計算了觀測值的異常值。這樣,我們就從單一異常的概念過渡到集體異常的概念。該工作可以協(xié)助智能工廠的監(jiān)控和管理,將故障最小化,提高制造質(zhì)量.

Ⅰ. Introduction

為充分利用信息技術(shù)、電氣電子技術(shù)以及先進制造技術(shù)的快速發(fā)展優(yōu)勢,政府作為工業(yè)4.0[1]的名稱,一直在研究將制造企業(yè)的生產(chǎn)方式從數(shù)字化向智能化轉(zhuǎn)變的資源。這種情況導(dǎo)致在復(fù)雜系統(tǒng)中占主導(dǎo)地位,其中有成百上千的工業(yè)部件,子系統(tǒng)在復(fù)雜的連接中一起工作。結(jié)果,來自工業(yè)過程的監(jiān)控數(shù)據(jù)量、智能工廠的[2]不斷增加。這就需要一個智能系統(tǒng)來讓管理人員對這些收集到的數(shù)據(jù)進行心理處理,從而發(fā)現(xiàn)工廠中整個組件的事件或運行狀態(tài)。大數(shù)據(jù)與運營技術(shù)戰(zhàn)略的結(jié)合運用,目前正在揭示包括轉(zhuǎn)型過程、資產(chǎn)健康、能源、安全、監(jiān)管和質(zhì)量改進在內(nèi)的商業(yè)洞見。與大數(shù)據(jù)分析一樣,最大的挑戰(zhàn)之一就是以可伸縮、可靠和一致的方式收集數(shù)據(jù)。我們將在下一節(jié)介紹Hadoop提供的支持流、存儲和查詢的可用工具大數(shù)據(jù)框架。

近年來,基于計算機、網(wǎng)絡(luò)數(shù)據(jù)通信和圖形用戶界面的工業(yè)過程監(jiān)控與數(shù)據(jù)采集(SCADA)系統(tǒng)對工業(yè)過程進行監(jiān)控,實現(xiàn)了對工業(yè)過程的高層次監(jiān)控管理,使工業(yè)過程監(jiān)控變得越來越復(fù)雜。這使得實時做出正確決策的過程變得非常困難和更具挑戰(zhàn)性。多年來,許多制造系統(tǒng)集成了使用傳感器進行大數(shù)據(jù)流傳輸?shù)腟CADA系統(tǒng)。這些數(shù)據(jù)集包含有關(guān)此類系統(tǒng)狀態(tài)的有用線索和信息。因此,我們應(yīng)該有效地利用這一資源進行監(jiān)測系統(tǒng)和實時異常識別和檢測。工業(yè)過程、電力工業(yè)、配水和煉油廠等需要連續(xù)監(jiān)測和控制的使用控制和數(shù)據(jù)采集(SCADA)系統(tǒng)的幾個例子。他們中的許多人控制著國家的關(guān)鍵部件,如核能發(fā)電、公共交通、污水處理廠等。我們證明了智能系統(tǒng)的管理和維護是棘手的,因此我們需要一個高效的流程,涵蓋實時信息傳輸、分析和決策框架,并有大數(shù)據(jù)分析的潛在支持。這是本文的主要目的,旨在進行異常識別和及時報警。此外,我們希望利用現(xiàn)代機器學(xué)習(xí)技術(shù),生成關(guān)于系統(tǒng)中發(fā)生異常的知識,即時發(fā)出警告/報警。換句話說,我們正在嘗試自動化實時/接近實時的情況分析。

針對這一問題,研究目標(biāo)是受時間驅(qū)動的,采用基于機器學(xué)習(xí)的方法處理序列數(shù)據(jù)是有意義的。請記住,機器學(xué)習(xí)(ML)應(yīng)該是現(xiàn)代工業(yè)信息與控制系統(tǒng)[2]的核心部件之一。本研究工作將探索復(fù)雜系統(tǒng)中子系統(tǒng)退化狀態(tài)的隱式信息,識別運行過程中的異常事件,實現(xiàn)實時維護規(guī)劃程序[5]。實時維護對于節(jié)約成本和提高設(shè)備的可用性非常有用。在現(xiàn)實世界中,諸如發(fā)動機、工業(yè)子系統(tǒng)、可操作部件等機械設(shè)備通常由各種物理傳感器來記錄目標(biāo)的行為和狀態(tài)。根據(jù)監(jiān)測信號,專家可以確定當(dāng)前的狀態(tài)和他們的健康程度。例如,我們分析來自傳感器內(nèi)置智能工廠的信號,以識別出哪里出了問題,需要更換和修復(fù)。對于運行過程中的監(jiān)控狀態(tài),我們希望能夠區(qū)分所考慮的系統(tǒng)[1]的正常狀態(tài)和異常狀態(tài)。通常,異常檢測是不符合給定數(shù)據(jù)集的期望模式的數(shù)據(jù)點、模式、觀察或事件的標(biāo)識。使用異常檢測系統(tǒng)對行為分析非常有幫助,或支持其他類型的分析,如檢測、識別和預(yù)測這些異常的發(fā)生。然而,在許多情況下,正常數(shù)據(jù)并不總是能夠與正常數(shù)據(jù)進行比較,因此基于正常信號的異常檢測變得很有挑戰(zhàn)性。該方法采用預(yù)測模型進行異常檢測。

為了通過異常檢測,立即修復(fù),系統(tǒng)維護,減少智能工廠的計劃外故障,我們必須預(yù)先了解零件在正常情況下的行為,然后識別出異常狀態(tài)。因此,基于機器學(xué)習(xí)的大數(shù)據(jù)分析集成框架是一個目標(biāo)。此外,還將提出復(fù)雜系統(tǒng)的實時異常檢測問題。這將通過使用未來值、預(yù)測模型的輸出來實現(xiàn)。該預(yù)測器使用數(shù)據(jù)庫中歷史SCADA傳感器數(shù)據(jù)中的源/控制部件退化信息作為輸入數(shù)據(jù)進行建模。擬議框架的成功實施將使維修計劃、檢查和維修更快,成本也更低,因為消除了計劃外維修時間表[3]引起的停機時間。

本文其余部分的配置如下:第2節(jié)簡要介紹Hadoop框架的背景、大數(shù)據(jù)中的機器學(xué)習(xí)以及基于機器學(xué)習(xí)的異常方法文獻。第三部分重點介紹了提出的框架,設(shè)計了LSTM體系結(jié)構(gòu)作為異常檢測事件的預(yù)測器,如何離線訓(xùn)練模型,部署在線異常檢測算法。然后,第四部分的主要內(nèi)容是應(yīng)用不同領(lǐng)域的數(shù)據(jù)來研究性能。最后,在第五部分,我們總結(jié)和討論未來的工作。

Ⅱ. Related Works

綜上所述,有必要將大數(shù)據(jù)分析技術(shù)集成到基于SCADA的系統(tǒng)中進行實時監(jiān)測、異常檢測。本節(jié)首先介紹大數(shù)據(jù)平臺的概念,大數(shù)據(jù)平臺在整個系統(tǒng)中起著至關(guān)重要的作用。接下來是如何在大數(shù)據(jù)中使用機器學(xué)習(xí)技術(shù)。最后,介紹了機器學(xué)習(xí)技術(shù)在時間序列數(shù)據(jù)學(xué)習(xí)中的應(yīng)用背景及其在異常檢測中的應(yīng)用。

2-1 Big Data framework

在工業(yè)操作中,認識到數(shù)據(jù)的數(shù)量和頻率與典型的業(yè)務(wù)提要有很大的不同是非常重要的,因為用于操作的傳感器的數(shù)量可以數(shù)以百萬計,并且需要長期的歸檔、索引和報告。Hadoop框架目前正在成為大數(shù)據(jù)分析以及分布式數(shù)據(jù)、流數(shù)據(jù)的最佳選擇。Hadoop生態(tài)系統(tǒng)是我們工作的一個很好的選擇,因為它可以處理分布式大數(shù)據(jù)。Hadoop生態(tài)系統(tǒng)框架既包含官方Apache開源項目,又包含各種商業(yè)工具和組件,在解決大數(shù)據(jù)情況下的問題方面具有熟練的優(yōu)勢。也許,每個組件都是按照各自的目標(biāo)用不同的體系結(jié)構(gòu)開發(fā)的;然而,將它們聚集在一個屋檐下的原因是,它們的功能都來自Hadoop的可伸縮性和強大功能。Hadoop生態(tài)系統(tǒng)由四個不同的層組成:數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)訪問或數(shù)據(jù)管理。如上圖所示,Hadoop框架包含了MapReduce[7]、Yarn、Flume[8]、Hive[9]、Pig、Sqoop、Oozie、Zookeeper、HBase等不同的功能模塊。取決于Hadoop上的應(yīng)用程序

集群,我們可以使用這個或另一個來滿足需求。例如,Hive是一種SQL方言,Pig是一種數(shù)據(jù)流語言,用于隱藏在更適合用戶目標(biāo)的高級抽象后面創(chuàng)建MapReduce作業(yè)的單調(diào)。HBase是一個運行在HDFS之上的面向NoSQL列的數(shù)據(jù)庫管理系統(tǒng)。Sqoop用于在關(guān)系數(shù)據(jù)庫和Hadoop之間傳輸數(shù)據(jù)。此外,我們還使用額外的齊柏林飛艇[10]作為分布式、通用數(shù)據(jù)處理系統(tǒng)的協(xié)作數(shù)據(jù)分析和可視化工具。

2-2大數(shù)據(jù)機器學(xué)習(xí)

機器學(xué)習(xí)(ML)在學(xué)習(xí)能力的各種應(yīng)用中不斷展示著它的強大功能。[11]指出,大數(shù)據(jù)使ML算法能夠發(fā)現(xiàn)更多的細粒度模式,并比以往任何時候都更及時和準確地執(zhí)行。本研究還介紹了一個基于大數(shù)據(jù)的機器學(xué)習(xí)框架,如圖1所示。它包含四個交互的、不同的組件,包括大數(shù)據(jù)、用戶、域和系統(tǒng)??傊髷?shù)據(jù)將為培訓(xùn)階段提供培訓(xùn)數(shù)據(jù),培訓(xùn)階段生成輸出模型或意義信息,這些信息可以返回成為大數(shù)據(jù)的一部分。此外,用戶可以通過提供領(lǐng)域知識、個人偏好和響應(yīng)[11]來反饋或與ML交互,從而利用性能。而領(lǐng)域既可以作為指導(dǎo)ML的知識來源,也可以作為應(yīng)用所學(xué)模型的上下文;系統(tǒng)架構(gòu)對學(xué)習(xí)算法的運行方式和運行效率有影響,同時滿足ML可能導(dǎo)致系統(tǒng)架構(gòu)的共同設(shè)計。


ML是揭示如何通過經(jīng)驗[12]自動改進計算機系統(tǒng)的過程。數(shù)據(jù)預(yù)處理、學(xué)習(xí)模型和評價三個主要部分。預(yù)處理塊負責(zé)將原始數(shù)據(jù)準備為過濾后的數(shù)據(jù),結(jié)構(gòu)化格式的下一步。將這些數(shù)據(jù)轉(zhuǎn)換成一種形式,通過清洗、提取特征和融合來作為學(xué)習(xí)的輸入。學(xué)習(xí)塊主要是選擇學(xué)習(xí)算法,對模型參數(shù)進行調(diào)優(yōu),得到期望的模型。在實際應(yīng)用前,通過評價步驟對訓(xùn)練后的模型進行性能評價

2-3 Machine Learning based Anomaly detection

近年來,基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成為熱門趨勢,成為機器學(xué)習(xí)中增長最快、最令人興奮的領(lǐng)域之一,尤其是與大數(shù)據(jù)合作發(fā)現(xiàn)隱藏信息。與生物神經(jīng)的操作方式類似,神經(jīng)網(wǎng)絡(luò)是由相互連接的神經(jīng)元組成的一系列模型,這些神經(jīng)元之間的連接可以調(diào)整并適應(yīng)輸入。深度神經(jīng)網(wǎng)絡(luò)是指具有多個隱含層的神經(jīng)網(wǎng)絡(luò),或者稱為深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),為了提高高層特征學(xué)習(xí)能力,每一層都可以對上一層的輸出進行非線性變換,得到輸出[11],同時也可以作為下一層的輸入。工業(yè)廠房傳感器數(shù)據(jù)是時間序列數(shù)據(jù)的典型實例。我們需要分析它們背后隱藏的信息來理解序列模式的行為,并確定被認為是異常模式的異常值模式。傳統(tǒng)的異常檢測方法通常是基于統(tǒng)計測度的,我們必須識別給定數(shù)據(jù)中的不規(guī)則性,標(biāo)記出偏離分布的常見統(tǒng)計屬性(包括均值、中值、模式和數(shù)量[13])的數(shù)據(jù)點。由于特征來自于特殊的單元“記憶單元”[14]LSTM神經(jīng)網(wǎng)絡(luò),因此它也被用來克服遞歸神經(jīng)網(wǎng)絡(luò)(RNN)所經(jīng)歷的消失梯度問題。LSTM網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[15]的改進版本,由于具有學(xué)習(xí)長期依賴關(guān)系的能力,已被用于許多序列學(xué)習(xí)任務(wù)。[16]提出了一種非監(jiān)督的方法來檢測集體水平上的異常。這在概率上聚集了單個異常對檢測顯著異常組的貢獻。由于采用無監(jiān)督的集體異常評分方式,可以采用無監(jiān)督和監(jiān)督兩種方法對個體異常進行評分。在移動起重機和油耗數(shù)據(jù)集上對模型進行了評估。在聲新奇檢測方面,[17]提出了一種基于LSTM的非線性預(yù)測去噪自編碼器(DA)分離異常聲信號的新方法。長短時記憶(LSTM)循環(huán)去噪自編碼器根據(jù)前一幀預(yù)測下一幀的聽覺光譜特征。自動編碼器的輸入與輸出之間的重構(gòu)誤差作為一種激活信號,起著檢測新穎信號的作用。在[14]中,Malhotra等人使用LSTM網(wǎng)絡(luò)對時間序列數(shù)據(jù)進行異常檢測。疊置LSTM網(wǎng)絡(luò)只對正常數(shù)據(jù)進行訓(xùn)練,經(jīng)過一定的時間步長生成預(yù)測器。對誤差信號的分布概率進行估計,并對異常評分的可能性進行評估?;贚STM的異常分類器可分為正常分類器和異常分類器兩類。事實上,記錄異常數(shù)據(jù)的成本很高,甚至?xí)骨闆r變得危險而無法控制。培訓(xùn)班之間的平衡并不能保證。從[14]的思想和基于窗口的自適應(yīng)誤差測量方法[18]的具體應(yīng)用出發(fā),本文采用LSTM建立異常系統(tǒng)的預(yù)測模型是較好的選擇。該異常功能可以集成到基于監(jiān)視控制和數(shù)據(jù)采集(SCADA)[19]的工廠系統(tǒng)中,從工業(yè)設(shè)備中收集傳感器數(shù)據(jù),分析和發(fā)現(xiàn)信息,并通過SCADA或儀表板網(wǎng)站進行可視化或報警

Ⅲ.System Overview

3-1 Overview Framework

圖2為集成到智能工業(yè)工廠的實時異常檢測框架。在物理和環(huán)境應(yīng)力作用下,制造系統(tǒng)的任何部位都可能發(fā)生異常。為了保持制造系統(tǒng)的效率,為更智能的決策處理數(shù)據(jù)和減少停機時間,SCADA系統(tǒng)對于工業(yè)組織來說變得至關(guān)重要。它們有助于控制本地和遠程的工業(yè)過程。如圖所示,SCADA塊直接與傳感器、閥門、泵、電機等設(shè)備交互,監(jiān)控、收集、記錄事件到數(shù)據(jù)庫中,并支持處理實時數(shù)據(jù)。交互可以通過人機界面(HMI)軟件進行。在實驗中,我們使用了一種數(shù)據(jù)庫可視化事件的解決方案。該框架還對來自智能工廠的大數(shù)據(jù)(通過內(nèi)置的狀態(tài)監(jiān)測傳感器(CMS)從所有組件發(fā)送信號)進行基于機器學(xué)習(xí)的異常檢測,然后將這些傳感器數(shù)據(jù)存儲到結(jié)構(gòu)數(shù)據(jù)庫或非結(jié)構(gòu)化數(shù)據(jù)中,用于大數(shù)據(jù)/云計算。


這些數(shù)據(jù)的處理對于組件未來狀態(tài)的預(yù)測至關(guān)重要,這是通過使用屬于機器學(xué)習(xí)技術(shù)的不同模型來對數(shù)據(jù)建模來實現(xiàn)的。我們將在后面詳細介紹基于機器學(xué)習(xí)的方法。在得到該模型時,我們將其應(yīng)用于預(yù)測過程、異常檢測算法或向人工操作者發(fā)布預(yù)警公告,以便于快速修復(fù)解決方案。在智能工廠中,必須配備閉路電視系統(tǒng),以協(xié)助管理員有效地管理工廠。當(dāng)檢測到異常時,通過SCADA的自動化程序可以在異常發(fā)生的位置激活多個攝像機。對于高質(zhì)量的流媒體視頻,智能工廠可以為多視圖攝像系統(tǒng)提供先進的多視圖視頻編碼(MVC)等技術(shù)。該技術(shù)將多攝像機的視圖組合在一起,形成異常位置的概覽,以支持適當(dāng)?shù)姆磻?yīng)。如果我們想從遙遠的地方監(jiān)控工廠,移動邊緣計算(MEC)將是智能制造的解決方案。MEC使制造商能夠利用機器生成的大數(shù)據(jù),形成有洞察力和可操作的數(shù)據(jù)。更具體地說,MEC充當(dāng)控制中心和智能工廠之間的中間層。例如,監(jiān)控視頻是用超高質(zhì)量(4K)錄制的,無法有效地傳輸?shù)娇刂浦行摹EC支持兩個位置之間的編碼/解碼。特別是,MEC可以減少延遲,這在實時SCADA系統(tǒng)中是至關(guān)重要的。

3-2 Long Short Term Memory Network

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是由細胞單元之間的連接(注釋為a)沿序列生成有向圖的一類人工神經(jīng)網(wǎng)絡(luò)。這種結(jié)構(gòu)有助于處理時間序列數(shù)據(jù)的時間行為,而不是只處理靜態(tài)輸入數(shù)據(jù)。由于能夠隨著時間的推移記住相關(guān)事件,RNN使自己比傳統(tǒng)的前饋網(wǎng)絡(luò)更具動態(tài)性。我們想象這樣的網(wǎng)絡(luò)是有循環(huán)結(jié)構(gòu)的,它允許信息沿著時間軸持續(xù)存在,如圖3所示。


我們看到,遞歸神經(jīng)網(wǎng)絡(luò)在時間序列預(yù)測、音樂節(jié)奏檢測、語音識別、語言模型、機器翻譯等方面的應(yīng)用越來越廣泛。然而,由于相關(guān)信息之間存在著許多實際問題,且存在較長時間的滯后性,使得RNNs的學(xué)習(xí)十分困難。反向傳播誤差的快速衰減是造成這一問題的主要原因。這就是為什么我們認為長、短期記憶網(wǎng)絡(luò)是RNN的一個特殊版本,它通過強制執(zhí)行錯誤恒流來發(fā)揮解決方案的作用。幾乎所有基于遞歸神經(jīng)網(wǎng)絡(luò)的激動人心的結(jié)果都來自于LSTM, LSTM是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò),在許多任務(wù)上都比標(biāo)準的遞歸神經(jīng)網(wǎng)絡(luò)有效得多。

因此,我們將在下一節(jié)中探討LSTMs以及它在異常檢測任務(wù)中的應(yīng)用。遞歸神經(jīng)網(wǎng)絡(luò)最初具有長期記憶,是指信息從原來的細胞傳遞到現(xiàn)在的細胞。因此,一個被稱為長短時記憶[15]的擴展模型將繼承這種自然特性;此外,它能夠處理長時間序列。與標(biāo)準的RNNs一樣,LSTMs也具有這種帶有重復(fù)模塊的鏈狀結(jié)構(gòu),但是重復(fù)模塊的內(nèi)部結(jié)構(gòu)不同。它不是只有一個單一的神經(jīng)網(wǎng)絡(luò)層,而是包含四個層,在特殊的過程[20]中交互,如圖4所示。


LSTM單元有幾種體系結(jié)構(gòu),但一般的體系結(jié)構(gòu)受內(nèi)存單元、輸入門、輸出門和遺忘門的開/關(guān)狀態(tài)控制。刪除或向單元狀態(tài)添加信息的選項取決于稱為gate的結(jié)構(gòu)的操作,它根據(jù)接收到的信號運行。LSTM門通常使用邏輯函數(shù)來計算激活。直覺上,輸入門控制的一個新值流入細胞,忘記門控制的程度值仍然在細胞中,和輸出門控制的程度細胞中的值用于計算輸出的激活LSTM單位。作為神經(jīng)網(wǎng)絡(luò)節(jié)點的思想,門結(jié)構(gòu)用自己的一組權(quán)值來阻塞或傳遞信息。這些權(quán)重,就像調(diào)節(jié)輸入和隱藏狀態(tài)的權(quán)重一樣,是通過循環(huán)網(wǎng)絡(luò)學(xué)習(xí)過程來調(diào)整的。猜測、反向傳播誤差和調(diào)整權(quán)重的學(xué)習(xí)迭代過程仍然是基于梯度下降的

3-3 LSTM based approach for anomaly detection

采用LSTM-RNN作為序列預(yù)測模型,以時間序列形式輸入數(shù)據(jù)。在本研究中,我們使用訓(xùn)練后的模型來估計預(yù)測誤差的分布。預(yù)測誤差模型驗證了異常行為的可能性。我們的方法克服了許多異常數(shù)據(jù)不足的情況下的局限性。異常識別的整個流程如圖5所示。


假設(shè)時序數(shù)據(jù)X,長度為L,每個x是一個m維向量

該體系結(jié)構(gòu)由三個堆疊的LSTM層組成,LSTM層的單元數(shù)分別為{64,256,100},如圖6所示,之后是一個完全連接的層。我們還使用dropout操作0.2(20%)在每一層之間進行正則化。此外,我們可以在預(yù)測配置中使用一個以上的前瞻步驟,因為預(yù)測精度仍然得到保證。如果不是必須的,我們應(yīng)該將前瞻性步驟定義為1。The 正常 訓(xùn)練   用于 預(yù)測 models. 學(xué)習(xí)我們使用Adam optimizer,學(xué)習(xí)率為0.1。我們還配置了100個提前停止的訓(xùn)練腳本,得到了用于異常檢測算法的訓(xùn)練模型。

The 誤差 向量 計算 正常 validation-1 時間 序列 被 用來 估計  , ∑ Normal 分布 使用 Maximum Likelihood Estimation (MLE) algorithm. The 閾 值 選擇 與 最大  .


where, P 是 precision, R 召回 在 驗證 序列    和   。我們認為異常候選人屬于積極類,正常候選人屬于消極類。我們認為異常候選人屬于積極類,正常候選人屬于消極類。


為了在實時/流模式下檢測異常,我們提出了一種實時異常檢測算法,利用數(shù)據(jù)庫中存儲的歷史數(shù)據(jù)訓(xùn)練分類器模型、預(yù)測器模型和誤差模型來處理流數(shù)據(jù)。根據(jù)培訓(xùn)數(shù)據(jù)的時序,將其劃分為批量學(xué)習(xí),學(xué)習(xí)整個培訓(xùn)數(shù)據(jù)。而在線學(xué)習(xí)則可以實現(xiàn)基于每個新輸入的模型更新。


算法1稱為“實時異常檢測”,它同時使用預(yù)測模型和誤差分布模型來檢測事件的時間信息。在進行實時異常檢測之前,對基于LSTM-RNN的預(yù)測模型和誤差分布模型進行了訓(xùn)練。為了降低計算成本,采用基于窗口的方法(滑動窗口=時間間隔(?T))累計點數(shù),或者取平均值轉(zhuǎn)換為時間序列數(shù)據(jù)。這里可以實現(xiàn)一些預(yù)處理。其次,已經(jīng)學(xué)習(xí)了正常數(shù)據(jù)行為的預(yù)測器可以利用正常的歷史信號預(yù)測未來的信號。為了檢驗輸入信號與正常信號的匹配程度,計算實際信號與預(yù)測信號的絕對差值,通過誤差分布模型估計異常值。From 優(yōu)化 閾 值 基于  , 我們 可以 確定 異常 候選人 (anomaly point) 之前 集體 detection. 異常

Ⅳ. Experiments




我們用來進行實驗的數(shù)據(jù)集是52周內(nèi)的功耗。每個樣本數(shù)據(jù)對應(yīng)每15分鐘一次。總共有35040個數(shù)據(jù)點。為了訓(xùn)練異常檢測系統(tǒng)的必要模型,我們將異常視為低功耗的工作日。顯然,我們注意到星期六和星期日是例外,因為周末。按照之前的培訓(xùn)流程,我們將給定的數(shù)據(jù)分為32周的培訓(xùn)數(shù)據(jù)集、6周的測試數(shù)據(jù)集和其余的驗證數(shù)據(jù)集。LSTM模型是用Python和Tensorflow后臺使用Keras深度學(xué)習(xí)庫實現(xiàn)的。設(shè)計了基于PyQt的圖形用戶界面。采用偽模式部署基于Hadoop的體系結(jié)構(gòu),使用Hapdoop流API在python腳本中運行Hadoop MapReduce編程,實現(xiàn)實時異常檢測。此外,數(shù)據(jù)倉庫Hive構(gòu)建在Hadoop之上,用于訪問/解析位于HDFS存儲上的內(nèi)容Json文件。為了查看異常檢測系統(tǒng)結(jié)果的性能,結(jié)果輸出如圖7所示。上圖為預(yù)測模型(綠破折號)的預(yù)測結(jié)果,預(yù)測誤差以實紅線的形式表示。下圖為異常評分和學(xué)習(xí)閾值。這個接近于零的閾值用于指定樣本是否為異常候選。異常點檢測候選點用橙色標(biāo)記。

最后,我們使用Xisom[21]開發(fā)的工業(yè)自動化軟件解決方案,對傳統(tǒng)SQL數(shù)據(jù)庫中的時間序列數(shù)據(jù)、異常檢測和查詢數(shù)據(jù)進行可視化,進行監(jiān)控操作,如圖8所示。

Ⅴ. Conclusion

本文從工業(yè)4.0現(xiàn)有的大數(shù)據(jù)基礎(chǔ)設(shè)施出發(fā),介紹了一個基于大數(shù)據(jù)的智能工廠異常檢測框架?;诠I(yè)監(jiān)控和數(shù)據(jù)采集(SCADA)的管理系統(tǒng)利用大數(shù)據(jù)和機器學(xué)習(xí)的優(yōu)點來理解時間序列數(shù)據(jù)。我們的SCADA場景的總體架構(gòu),由提議的來自深度學(xué)習(xí)的知識生成支持。這種設(shè)計與我們在傳統(tǒng)數(shù)據(jù)庫上看到的傳統(tǒng)商業(yè)SCADA解決方案不同。在異常檢測方面,基于LSTM的預(yù)測器可以很好地對時間序列數(shù)據(jù)進行預(yù)測,學(xué)習(xí)用于異常模式檢測的時間信號特征。該異常檢測模型在工業(yè)復(fù)雜系統(tǒng)(溫度、電、水位、濕度等)的不同時間序列數(shù)據(jù)中具有很強的應(yīng)用潛力。目前,所需要的模型是使用數(shù)據(jù)庫/云中的常規(guī)數(shù)據(jù)離線訓(xùn)練,并申請實時應(yīng)用。未來,我們將研究在線學(xué)習(xí)技術(shù),并將更多的數(shù)據(jù)挖掘、基于機器學(xué)習(xí)的算法集成到系統(tǒng)中,以及移動邊緣計算技術(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容