數(shù)據(jù)類型
1)關系型數(shù)據(jù)庫
2)數(shù)據(jù)倉庫:

稱為 數(shù)據(jù)立方體.

3)事務數(shù)據(jù)
一次事務作為一條數(shù)據(jù),例如:一次購物,一次航班訂票,一次用戶網(wǎng)頁點擊
4)其他類型的數(shù)據(jù)
時間相關或序列數(shù)據(jù),股票交易數(shù)據(jù),生物學序列數(shù)據(jù),工程設計數(shù)據(jù)
挖掘模式
1)數(shù)據(jù)特征化與區(qū)分
數(shù)據(jù)特征化:例如:找出10%的軟件產(chǎn)品特征
2)數(shù)據(jù)區(qū)分
區(qū)分規(guī)則:例如:每年購買少于3次電子產(chǎn)品,與多于3次電子產(chǎn)品的人群
挖掘模式:頻繁模式,關聯(lián)和相關性
頻繁模式:頻繁項集,頻繁子序列
頻繁項集:例如:顧客頻繁購買牛奶與面包。商品的集合就是項集的集合(牛奶,面包)
頻繁子序列:購買順序 例如:先購買數(shù)碼相機,再購買內(nèi)存,再購買鏡頭等。
關聯(lián)性分析:當一個關聯(lián)的屬性不能同時滿足 《最小支持度閥值和 最小置信度閥值》 。則這個屬性會被丟棄
用于預測分析的分類與回歸
分類:

回歸:
分類用來預測(離散,無序的)標號,而回歸建立連續(xù)值函數(shù)模型。
例子:

聚類分析:
不像分類與回歸分析標記類的(訓練)數(shù)據(jù)集,聚類(clustering)分析數(shù)據(jù)對象,而不考慮類標號(訓練的數(shù)據(jù)集中一開始并沒有標識類別)。對象根據(jù) 《最大化類內(nèi)相似性》,《最小化類間相似性》的原則進行聚類或分組。

離群點分析:

置信率:
一般地,每個興趣度度量都與一個閥值關聯(lián),該閥值可以由用戶控制,例如:置信度閥值 低于50%的規(guī)則可以認為是無趣的。(噪聲,異常,少數(shù)情況)

使用了的技術

數(shù)據(jù)挖掘的主要問題
挖掘方法:
1)挖掘各種新的知識類型
2)挖掘多維空間中的知識
3)跨學科的挖掘
4)提升網(wǎng)絡環(huán)境下的發(fā)現(xiàn)能力
5)處理不確定性,噪聲或不完全數(shù)據(jù)
6)模式評估和模式或約束指導的挖掘
用戶交互:
有效性與可伸縮性:
1)數(shù)據(jù)挖掘算法的運行時間可預計。短的和可以被應用接受的
數(shù)據(jù)類型的多樣性:
1)處理復雜的數(shù)據(jù)類型
2)動態(tài)的,網(wǎng)絡的,全球的數(shù)據(jù)庫
數(shù)據(jù)挖掘與社會:
1)隱私與用途