一,體系結構

數(shù)據(jù)的來源
- 數(shù)據(jù)庫服務器,
- 數(shù)據(jù)庫
數(shù)據(jù)挖掘的引擎
數(shù)據(jù)挖掘的模式
數(shù)據(jù)可視化技術的展示
二,數(shù)據(jù)類型
關系數(shù)據(jù)庫
- 使用最廣泛
數(shù)據(jù)倉庫
- 各個分立的數(shù)據(jù)庫統(tǒng)一
事務數(shù)據(jù)庫
高級數(shù)據(jù)庫系統(tǒng)和信息庫
空間數(shù)據(jù)庫
時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫
時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫都存放與時間有關的數(shù)據(jù)。
時間數(shù)據(jù)庫通常存放包含時間相關屬性的時間
時間序列數(shù)據(jù)庫存放隨時間變化的值序列
對時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或對象變化趨勢。流數(shù)據(jù)
多媒體數(shù)據(jù)庫
面向對象數(shù)據(jù)庫和對象 - 關系數(shù)據(jù)庫
面向對象數(shù)據(jù)庫是面向對象技術和數(shù)據(jù)庫技術結合的產(chǎn)物,該技術對數(shù)據(jù)以對象的形式進行存儲,并在這個基礎上實現(xiàn)傳統(tǒng)數(shù)據(jù)庫的功能,包括持久性,并發(fā)控制,可恢復性,一致性,和查詢數(shù)據(jù)庫的能力等。
對象 - 關系數(shù)據(jù)庫基于對象 - 關系 模型構造,該模型通過處理復雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴充關系模型。
面向對象數(shù)據(jù)庫和對象 - 關系 數(shù)據(jù)庫中的數(shù)據(jù)挖掘會設計一些新的技術,比如處理復雜對象結構,復雜數(shù)據(jù)類型,類和子類層次結構,構造集成以及方法和過程等等。異種數(shù)據(jù)庫和遺產(chǎn)(legacy)數(shù)據(jù)庫
文本數(shù)據(jù)庫和網(wǎng)絡數(shù)據(jù)庫
數(shù)據(jù)挖掘的主要方法
1,概念/類描述:特性化和區(qū)分
- 歸納 ,總結和對比數(shù)據(jù)的特性。
- 例如用戶屬性分析,電商用戶,月消費額超過5000元的用戶特征描述:30 - 40 歲之間,固定職業(yè),信用程度良好。
2, 關聯(lián)分析
- 發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)規(guī)則,這些規(guī)則展示屬性 - 值 頻繁的在給定的數(shù)據(jù)中所一起出現(xiàn)的條件。
- 廣泛的應用于購物籃或事務分析
3,分類和預測
- 通過構造函數(shù)(或模型)用來描述和區(qū)別類或概念,用來預測類型標志未知的對象類。
- 例如,按照耗油量將汽車分類
- 導出模型的表示: 判定樹、分類規(guī)則、神經(jīng)網(wǎng)絡
- 可以用來預報某些未知的或丟失的數(shù)字值。
4,聚類分析
- 將類似的數(shù)據(jù)歸類到一起,形成一個新的類別進行分析。
- 組內最大化的相似性,組間最小化的相似性
5,孤立點分析
- 孤立點 : 一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)
- 通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結論。
6,趨勢和演變分析
- 描述行為隨時間變化的對象的發(fā)展規(guī)律或趨勢
- 趨勢和偏差: 回歸分析
- 序列模式匹配 : 周期性分析
- 基于類似性的分析
7, 其他定向模式或統(tǒng)計分析
模式興趣度的度量
比較困難度量
1,模式興趣度的度量
- 易于被人理解
- 在某種程度上,對于新的或測試數(shù)據(jù)是有效的
- 具有潛在效用
- 新穎的
- 符合用戶確信的某種假設
2, 模式興趣度的客觀和主觀度量、
- 客觀度量 :基于所發(fā)現(xiàn)模式的結構和關于他們的統(tǒng)計,比如:支持度(數(shù)據(jù)多少程度上對結論的支持),置信度等等
- 主觀度量: 基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的,新穎的、可行動的等等。
數(shù)據(jù)挖掘算法的優(yōu)化
- 數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式
- 方法
(1),首先生成所有模式然后過濾那些無趣的
(2),僅僅生成有趣的模式 - 挖掘查詢優(yōu)化
數(shù)據(jù)挖掘學科綜合性

數(shù)據(jù)挖掘的分類

1,根據(jù)所挖掘的數(shù)據(jù)庫分類
- 關系數(shù)據(jù)庫,事務數(shù)據(jù)庫 ,流式數(shù)據(jù)庫,面向對象數(shù)據(jù)庫,對象關系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時態(tài)數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構數(shù)據(jù)庫,歷史數(shù)據(jù)庫,
2,根據(jù)挖掘的知識類型
- 特征分析,區(qū)分,關聯(lián)分析,分類聚類,孤立點分析/演變分析,偏差分析等等
- 多種方法的集成和多層機挖掘
3,根據(jù)挖掘所用技術
- 面向數(shù)據(jù)庫的挖掘,數(shù)據(jù)倉庫,OLAP,機器學習,統(tǒng)計學,可視化等等
4,根據(jù)挖掘所用的應用
- 金融,電信,銀行,欺詐分析,DNA分析,股票市場,WEB挖掘。