Abstract
在論文中提出了一個為健康醫(yī)療應(yīng)用利用智能家居大數(shù)據(jù)作為學(xué)習(xí)和發(fā)現(xiàn)人類活動模式的方式的模型。我們提出了頻繁模式挖掘,聚類分析,和針對衡量和分析由居住著行為觸發(fā)的能量使用變化的預(yù)測。人們的行為是跟人們的日常掛鉤的,因此發(fā)生異常時可以對人們進(jìn)行提示。本文強(qiáng)調(diào)了分析人們在器械上臨時能量消耗的需要。
數(shù)據(jù)集:U.K. Domestic Appliance Level Electricity data set
結(jié)論:通過家電的使用判定人類活動模式,得到了短期和長期預(yù)測的準(zhǔn)確率。
I. Introduction
使用智能儀表監(jiān)測人類活動的原因:
智能儀表數(shù)據(jù)具有時間序列概念,通常包括在一段時間間隔內(nèi)的組件設(shè)備的使用和消耗測量模式。
所面臨的的問題:
- 當(dāng)操作重疊時,不容易檢測設(shè)備間的依賴性;
- 人類活動模式的準(zhǔn)確預(yù)測受具有動態(tài)時間間隔的設(shè)備使用事件的概率關(guān)系的影響。
解決方案:
- 提出了頻繁挖掘和預(yù)測模型來測定和分析能量使用變化(數(shù)據(jù)來源于在24小時的數(shù)據(jù)片上遞歸挖掘智能儀表的數(shù)據(jù));
- 使用貝葉斯網(wǎng)絡(luò)預(yù)測多電器的使用和家用能量的消耗情況;
主要貢獻(xiàn):
- 提出了在智能家居中基于電器使用變化的人類活動模式挖掘模型。使用FP-growth進(jìn)行模式識別,使用K-means聚類算法得到appliance-to-appliance與appliance-to-time的關(guān)系。
- 基于個體和多電器的使用應(yīng)用貝葉斯網(wǎng)絡(luò)進(jìn)行活動預(yù)測。
II.Related Work
前人工作:
-
Detecting activities of daily living with smart meters:
- 提出了兩個分析和檢測用戶日常的方法: Semi-Markov-Model(SMM):數(shù)據(jù)訓(xùn)練和檢測個人習(xí)慣;
- 基于脈沖的方法來檢測日常生活中的活動(ADL),其側(cè)重于同時發(fā)生的活動的時間分析。
-
Detecting activities of daily living with smart meters:
-
The Elderly’s independent living in smart homes: A characterization of activities and sensing infrastructure survey to facilitate services development:
通過對智能家居中跟主要活動有關(guān)的傳感器進(jìn)行分類檢測上了年紀(jì)的人的健康狀況。
-
The Elderly’s independent living in smart homes: A characterization of activities and sensing infrastructure survey to facilitate services development:
-
Detecting household activity patterns from smart meter data
使用非侵入式電器負(fù)載檢測(NALM)和Dempster-Shafer(D-S)證據(jù)理論來識別活動,通過兩個步驟獲取主要活動。
-
Detecting household activity patterns from smart meter data
-
Smart meter profiling for health applications:
利用電器使用情況識別突然的行為改變,在最小化的入侵級上為Alzheimer和Parkinson患者提供時鐘監(jiān)控系統(tǒng),采用分類技術(shù)檢測個體能量使用模式的異常行為。
-
Smart meter profiling for health applications:
-
A patient’s state recognition system for health care using speech and facial expression
Cloud-assisted industrial Internet of Things (IIoT)—Enabled framework for health monitoring
Mobile cloud based food calorie measurement
An intelligent cloud-based data processing broker for mobile e-health multimedia applications:
利用智慧城市的物聯(lián)網(wǎng)架構(gòu)開發(fā)出了檢測和提供健康服務(wù)的應(yīng)用。
-
A patient’s state recognition system for health care using speech and facial expression
-
Smart-energy group anomaly based behavioral abnormality detection:
遠(yuǎn)程健康監(jiān)控,得到規(guī)律活動、獨(dú)特的能量消耗時間段以及檢測到的可發(fā)現(xiàn)的異常行為,這樣就可以獲取到一些用于更好維持健康醫(yī)療的關(guān)鍵點(diǎn)。
-
Smart-energy group anomaly based behavioral abnormality detection:
-
Leveraging smart grid technology for home health care:
針對上了年紀(jì)的病人提供了一個其日常起居的側(cè)面刻畫,數(shù)據(jù)同樣用于急性健康狀況的檢測。
-
Leveraging smart grid technology for home health care:
-
一個論文
使用貝葉斯網(wǎng)絡(luò)預(yù)測居住者的行為,提出了基于單個設(shè)備的服務(wù)。
-
一個論文
-
Appliance usage prediction using a time series based classification approach
A prediction system for home appliance usage:
時間序列的多標(biāo)簽分類器預(yù)測基于決策樹相關(guān)性的設(shè)備使用,然而只取了最近24小時窗口的設(shè)備序列關(guān)系。
-
Appliance usage prediction using a time series based classification approach
-
Big data analytics for demand response: Clustering over space and time:
使用聚類算法識別用戶時間消耗模式的分布,但沒有考慮多設(shè)備共同使用的情況和與時間的聯(lián)系。
-
Big data analytics for demand response: Clustering over space and time:
-
Data mining techniques for detecting household characteristics based on smart meter data:
使用分級和c-means聚類分析設(shè)備的開關(guān)來檢測用戶使用模式,但沒有考慮使用時長和設(shè)備使用序列的變化。
-
Data mining techniques for detecting household characteristics based on smart meter data:
-
Forecasting multi-appliance usage for smart home energy management:
提出了基于預(yù)測人類行為和設(shè)備依賴模式算法的圖像模型,并且使用貝葉斯模型預(yù)測多設(shè)備使用情況。
-
Forecasting multi-appliance usage for smart home energy management:
綜述
以上方法沒有考慮設(shè)備級別使用模式,這是決定用戶活動變化的關(guān)鍵。同時,我們的實(shí)驗使用比現(xiàn)有研究更大的數(shù)據(jù)集。
III.Proposed Model
模型描述:
清洗、準(zhǔn)備數(shù)據(jù)——>頻繁模式挖掘得到appliance-to-appliance的聯(lián)系——>聚類算法得到appliance-to-time的聯(lián)系——>貝葉斯網(wǎng)絡(luò)進(jìn)行長短期活動的預(yù)測——>應(yīng)用
A.Data Preparation
- 生數(shù)據(jù):4億條記錄,時間分辨率為6秒;
- 處理后:2億條記錄;
- 合成數(shù)據(jù)集:120萬條記錄,用于初步模型評估
- 結(jié)果:智能電表時間序列原始數(shù)據(jù),即高時間分辨率數(shù)據(jù),被轉(zhuǎn)換為1分鐘的分辨率負(fù)載數(shù)據(jù); 隨后轉(zhuǎn)換為30分鐘的時間分辨率源數(shù)據(jù),即每個設(shè)備每天24 * 2 =48讀數(shù),同時記錄每個活動設(shè)備的開始時間和結(jié)束時間。
B. Extracting Frequent Patterns of Human Activities
-
目標(biāo)
從智能儀表數(shù)據(jù)中發(fā)掘人類活動模式,以便有異常情況出現(xiàn)時進(jìn)行提醒。 -
算法簡介
深度優(yōu)先分治技術(shù)(depth-first divide-and-conquer technique):適用于線下,不能滿足應(yīng)用的決策的及時反應(yīng)。
頻繁模式的增量漸進(jìn)挖掘( incremental progressive mining of frequent patterns):利用模式增長策略,以一個24小時的周期挖掘設(shè)備使用元組的數(shù)據(jù)。 -
增量頻繁模式挖掘(Incremental Frequent Pattern Mining)
1. 數(shù)據(jù)表示描述
- 源數(shù)據(jù)事務(wù)分布的集合表示為大寫伽馬(見源數(shù)據(jù)表示)
源數(shù)據(jù)

- 源數(shù)據(jù)的單例表示為“γ”
屬于

- 單個的設(shè)備表示為X,Y
屬于
2. 思路描述
如果X和Y同時出現(xiàn)在單例事務(wù)中的概率大于預(yù)設(shè)好的閾值,則為一個頻繁模式。
在support-confidence框架中,
P(X∪Y) :Sx => y
P(Y|X) :Cx => y (條件概率)
新發(fā)現(xiàn)的模式跟已有的模式進(jìn)行比較,若不存在于數(shù)據(jù)庫中,則加入數(shù)據(jù)庫,以此只吃比較就被正確的更新。
3. 算法細(xì)節(jié)
支持定義是在事務(wù)數(shù)據(jù)集的概率,設(shè)備與設(shè)備聯(lián)系的邊緣分布可以在全局級別上進(jìn)行計算,計算出的邊緣分布決定了設(shè)備同時使用的概率。
Algorithm1:Incremental Frequent Pattern Mining
Require:數(shù)據(jù)庫事務(wù)(DB),頻繁模式挖掘數(shù)據(jù)庫(FP_DB)
Ensure:頻繁模式增量挖掘,結(jié)果存儲在FP_DB中
1:for all DB中的24小時量的數(shù)據(jù)片db24(數(shù)據(jù)已被處理為24小時一片的周期)do
2: 確定數(shù)據(jù)庫的大小
對于db24的數(shù)據(jù)庫Data_Sizedb24
挖掘在FP_DBdb24頻繁模式,使用延伸的FP-growth方法
for all FP in FP_DBdb24 do
在FP_DB中尋找FP
if FP 已存在
更新FP_DB
else
將新FP添加到FP_DB中
end if
end for
對于數(shù)據(jù)庫中的所有頻繁模式,F(xiàn)P_DB按Database_Sizedb24增加數(shù)據(jù)庫大小
end for
C.Clustering Analysis:Incremental K-Means
使用聚類分析算法去分析電氣設(shè)備使用與時間的關(guān)系,包括一天24小時、一天中的早中晚夜、工作日、周末和月份。帶時間戳的電氣設(shè)備的使用數(shù)據(jù)可以用來聚集成設(shè)備同時工作的類。
The Defination of Clustering Analysis
定義:聚類分析是把相似元素創(chuàng)建為一個類別(非監(jiān)督式分類)、組/段(自動分段)、和部分的過程,而跟不同簇中的元素不相似。
優(yōu)點(diǎn):具有非監(jiān)督性。
聚類過程
- 數(shù)據(jù)選擇
選擇30分鐘的時間片,創(chuàng)建了一天的最大48類的聚類,同理也可以以天、工作日、周末、月來進(jìn)行自然分段。 - 歐幾里得距離(Euclidean
distance)
數(shù)據(jù)庫中的點(diǎn)被劃分為K個類別,分別是C1,C2,……,Ck,且這些類別中的點(diǎn)沒有交集,并且它們的幾何中心ci也不可能重疊,這里歐幾里得距離用來度量數(shù)據(jù)點(diǎn)間的聚合性,反映了聚類算法的效率。
歐幾里得距離
K-means算法的目標(biāo)在于最小化目標(biāo)函數(shù)——平方差和(SSE)
SSE - 輪廓系數(shù)(silhouette score)
輪廓系數(shù)結(jié)合了凝聚度和分離度,決定了聚類的最優(yōu)數(shù)目。
- 對于第 i 個對象,計算它到所屬簇中所有其他對象的平均距離,記 ai (體現(xiàn)凝聚度)
- 對于第 i 個對象和不包含該對象的任意簇,計算該對象到給定簇中所有對象的平均距離,記 bi (體現(xiàn)分離度)
- 第 i 個對象的輪廓系數(shù)為 si = (bi-ai)/max(ai, bi) //回頭研究一下 wordpress 的公式插件去
從上面可以看出,輪廓系數(shù)取值為[-1, 1],其值越大越好,且當(dāng)值為負(fù)時,表明 ai<bi,樣本被分配到錯誤的簇中,聚類結(jié)果不可接受。對于接近0的結(jié)果,則表明聚類結(jié)果有重疊的情況。
- 漸進(jìn)增量聚類(incremental progressive clustering)
定義:將每個連續(xù)挖掘操作的現(xiàn)有和新發(fā)現(xiàn)的集群合并到數(shù)據(jù)庫中。
條件:所有相關(guān)的集群參數(shù)比如幾何中心、SSE、輪廓系數(shù)、點(diǎn)集和與幾何中心相關(guān)的距離都在數(shù)據(jù)庫中。
優(yōu)點(diǎn):提高了操作的效率和速度。
綜述
電氣設(shè)備隨時間的變化和電氣設(shè)備之間的關(guān)系為下文預(yù)測房間內(nèi)的活動提供了信息。
D.Bayesian Networks for Activity Prediction
目標(biāo):整合了頻繁模式與設(shè)備使用與實(shí)踐的聯(lián)系得到多設(shè)備的使用情況和建立活動預(yù)測模型。
特征:貝葉斯網(wǎng)絡(luò)是一個非循環(huán)圖,節(jié)點(diǎn)代表任意變量、連線代表概率性的依賴關(guān)系,一個主要特征是有因果關(guān)系的概念。
優(yōu)點(diǎn):減少丟失數(shù)據(jù)的可能性,利用事實(shí)的數(shù)據(jù)和觀察到的事務(wù)來避免過度擬合數(shù)據(jù)。
定義:

建立模型
建立基礎(chǔ):整合一天24小時、一天的時間(早中晚夜)、工作日、周末、月、季節(jié)與設(shè)備的聯(lián)系和設(shè)備間的聯(lián)系的概率。

數(shù)據(jù)來源:聚類算法和頻繁模式分析。

任務(wù):確定和預(yù)測同時工作的設(shè)備,設(shè)備預(yù)測結(jié)果是建立在人類活動與時間關(guān)系(一天24小時,周末,月等)的預(yù)測的基礎(chǔ)上的。
IV. Evaluation and Results
實(shí)驗環(huán)境
- 數(shù)據(jù):UK-Dale,5個house中的109個設(shè)備,將近1一條數(shù)據(jù),來自能量消耗情況來自IAMs的采集。
- 開發(fā)語言:Python。
- 數(shù)據(jù)庫:在ubantu 14.04 LTS 64位系統(tǒng)上的MySQL 和MongoDB數(shù)據(jù)庫。
- 主要任務(wù):作為人類活動模式的一個指示檢測設(shè)備的使用并且使用預(yù)測模型預(yù)測短長時房間中的活動。
- 應(yīng)用:主動監(jiān)控,警報生成,健康概況。
Results Analysis and Discussion
設(shè)備使用與時間的關(guān)系
(表示結(jié)果的圖片還是上傳失敗,我也是沒辦法)
在房間2:在下午2點(diǎn)30分到5點(diǎn)之間,電視,烤面包機(jī),客廳燈在這個周末最高濃度的房子里一起使用。幾乎所有工作日都使用洗衣機(jī),周末不使用筆記本電腦……
設(shè)備間的使用關(guān)系
在房間1:喜歡在準(zhǔn)備食物時放松……
房間活動預(yù)測
房間2:所提出的模型在每個階段的組合準(zhǔn)確度分別達(dá)到81.82(25%),85.90(50%),89.58(75%)。
各個房間活動預(yù)測
前提:使用了75%的訓(xùn)練集
房屋1,2,3,4和5的短時準(zhǔn)確度分別為92.31%,100.00%,66.67%,100.00%和100.00%。房屋1,2,3,4和5的長時準(zhǔn)確率分別為90.91%,90.00%,70.00%,70.00%和80.00%
Conclusion and Future Work
結(jié)果:提出了一個用于識別人類活動模式的模型。
展望:改進(jìn)模型,以實(shí)時的方式引入多個房屋的大數(shù)據(jù)挖掘的分布式學(xué)習(xí),以便可以健康應(yīng)用可以迅速做出反應(yīng)比如發(fā)送警報消息給病人或者監(jiān)護(hù)提供人。
再展望:構(gòu)建一個健康本體模型,以自動將發(fā)現(xiàn)的設(shè)備映射到潛在的活動。 這意味著我們可以有效地訓(xùn)練系統(tǒng)并提高檢測人類活動的準(zhǔn)確性。
Ending!




