數(shù)據(jù)挖掘 (一) 導論

數(shù)據(jù)類型

1)關系型數(shù)據(jù)庫
2)數(shù)據(jù)倉庫:


image.png

稱為 數(shù)據(jù)立方體.


image.png

3)事務數(shù)據(jù)
一次事務作為一條數(shù)據(jù),例如:一次購物,一次航班訂票,一次用戶網(wǎng)頁點擊

4)其他類型的數(shù)據(jù)
時間相關或序列數(shù)據(jù),股票交易數(shù)據(jù),生物學序列數(shù)據(jù),工程設計數(shù)據(jù)

挖掘模式

1)數(shù)據(jù)特征化與區(qū)分
數(shù)據(jù)特征化:例如:找出10%的軟件產(chǎn)品特征
2)數(shù)據(jù)區(qū)分
區(qū)分規(guī)則:例如:每年購買少于3次電子產(chǎn)品,與多于3次電子產(chǎn)品的人群

挖掘模式:頻繁模式,關聯(lián)和相關性

頻繁模式:頻繁項集,頻繁子序列
頻繁項集:例如:顧客頻繁購買牛奶與面包。商品的集合就是項集的集合(牛奶,面包)
頻繁子序列:購買順序 例如:先購買數(shù)碼相機,再購買內(nèi)存,再購買鏡頭等。

關聯(lián)性分析:當一個關聯(lián)的屬性不能同時滿足 《最小支持度閥值和 最小置信度閥值》 。則這個屬性會被丟棄

用于預測分析的分類與回歸

分類:


image.png

回歸:
分類用來預測(離散,無序的)標號,而回歸建立連續(xù)值函數(shù)模型。

例子:


image.png

聚類分析:
不像分類與回歸分析標記類的(訓練)數(shù)據(jù)集,聚類(clustering)分析數(shù)據(jù)對象,而不考慮類標號(訓練的數(shù)據(jù)集中一開始并沒有標識類別)。對象根據(jù) 《最大化類內(nèi)相似性》,《最小化類間相似性》的原則進行聚類或分組。


image.png

離群點分析:


image.png

置信率:
一般地,每個興趣度度量都與一個閥值關聯(lián),該閥值可以由用戶控制,例如:置信度閥值 低于50%的規(guī)則可以認為是無趣的。(噪聲,異常,少數(shù)情況)


image.png

使用了的技術

image.png

數(shù)據(jù)挖掘的主要問題

挖掘方法:
1)挖掘各種新的知識類型
2)挖掘多維空間中的知識
3)跨學科的挖掘
4)提升網(wǎng)絡環(huán)境下的發(fā)現(xiàn)能力
5)處理不確定性,噪聲或不完全數(shù)據(jù)
6)模式評估和模式或約束指導的挖掘

用戶交互:
有效性與可伸縮性:
1)數(shù)據(jù)挖掘算法的運行時間可預計。短的和可以被應用接受的

數(shù)據(jù)類型的多樣性:
1)處理復雜的數(shù)據(jù)類型
2)動態(tài)的,網(wǎng)絡的,全球的數(shù)據(jù)庫

數(shù)據(jù)挖掘與社會:
1)隱私與用途

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容