數(shù)據(jù)挖掘 (二)

一,體系結構

典型數(shù)據(jù)挖掘系統(tǒng)
數(shù)據(jù)的來源
  • 數(shù)據(jù)庫服務器,
  • 數(shù)據(jù)庫
數(shù)據(jù)挖掘的引擎
數(shù)據(jù)挖掘的模式
數(shù)據(jù)可視化技術的展示

二,數(shù)據(jù)類型

關系數(shù)據(jù)庫
  • 使用最廣泛
數(shù)據(jù)倉庫
  • 各個分立的數(shù)據(jù)庫統(tǒng)一
事務數(shù)據(jù)庫
高級數(shù)據(jù)庫系統(tǒng)和信息庫
  • 空間數(shù)據(jù)庫

  • 時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫
    時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫都存放與時間有關的數(shù)據(jù)。
    時間數(shù)據(jù)庫通常存放包含時間相關屬性的時間
    時間序列數(shù)據(jù)庫存放隨時間變化的值序列
    對時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或對象變化趨勢。

  • 流數(shù)據(jù)

  • 多媒體數(shù)據(jù)庫

  • 面向對象數(shù)據(jù)庫和對象 - 關系數(shù)據(jù)庫
    面向對象數(shù)據(jù)庫是面向對象技術和數(shù)據(jù)庫技術結合的產(chǎn)物,該技術對數(shù)據(jù)以對象的形式進行存儲,并在這個基礎上實現(xiàn)傳統(tǒng)數(shù)據(jù)庫的功能,包括持久性,并發(fā)控制,可恢復性,一致性,和查詢數(shù)據(jù)庫的能力等。
    對象 - 關系數(shù)據(jù)庫基于對象 - 關系 模型構造,該模型通過處理復雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴充關系模型。
    面向對象數(shù)據(jù)庫和對象 - 關系 數(shù)據(jù)庫中的數(shù)據(jù)挖掘會設計一些新的技術,比如處理復雜對象結構,復雜數(shù)據(jù)類型,類和子類層次結構,構造集成以及方法和過程等等。

  • 異種數(shù)據(jù)庫和遺產(chǎn)(legacy)數(shù)據(jù)庫

  • 文本數(shù)據(jù)庫和網(wǎng)絡數(shù)據(jù)庫

數(shù)據(jù)挖掘的主要方法

1,概念/類描述:特性化和區(qū)分
  • 歸納 ,總結和對比數(shù)據(jù)的特性。
  • 例如用戶屬性分析,電商用戶,月消費額超過5000元的用戶特征描述:30 - 40 歲之間,固定職業(yè),信用程度良好。
2, 關聯(lián)分析
  • 發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)規(guī)則,這些規(guī)則展示屬性 - 值 頻繁的在給定的數(shù)據(jù)中所一起出現(xiàn)的條件。
  • 廣泛的應用于購物籃或事務分析
3,分類和預測
  • 通過構造函數(shù)(或模型)用來描述和區(qū)別類或概念,用來預測類型標志未知的對象類。
  • 例如,按照耗油量將汽車分類
  • 導出模型的表示: 判定樹、分類規(guī)則、神經(jīng)網(wǎng)絡
  • 可以用來預報某些未知的或丟失的數(shù)字值。
4,聚類分析
  • 將類似的數(shù)據(jù)歸類到一起,形成一個新的類別進行分析。
  • 組內最大化的相似性,組間最小化的相似性
5,孤立點分析
  • 孤立點 : 一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)
  • 通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結論。
6,趨勢和演變分析
  • 描述行為隨時間變化的對象的發(fā)展規(guī)律或趨勢
  • 趨勢和偏差: 回歸分析
  • 序列模式匹配 : 周期性分析
  • 基于類似性的分析
7, 其他定向模式或統(tǒng)計分析

模式興趣度的度量

比較困難度量

1,模式興趣度的度量
  • 易于被人理解
  • 在某種程度上,對于新的或測試數(shù)據(jù)是有效的
  • 具有潛在效用
  • 新穎的
  • 符合用戶確信的某種假設
2, 模式興趣度的客觀和主觀度量、
  • 客觀度量 :基于所發(fā)現(xiàn)模式的結構和關于他們的統(tǒng)計,比如:支持度(數(shù)據(jù)多少程度上對結論的支持),置信度等等
  • 主觀度量: 基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的,新穎的、可行動的等等。

數(shù)據(jù)挖掘算法的優(yōu)化

  • 數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式
  • 方法
    (1),首先生成所有模式然后過濾那些無趣的
    (2),僅僅生成有趣的模式 - 挖掘查詢優(yōu)化

數(shù)據(jù)挖掘學科綜合性

數(shù)據(jù)挖掘的學科綜合.jpg

數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘的分類.jpg
1,根據(jù)所挖掘的數(shù)據(jù)庫分類
  • 關系數(shù)據(jù)庫,事務數(shù)據(jù)庫 ,流式數(shù)據(jù)庫,面向對象數(shù)據(jù)庫,對象關系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時態(tài)數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構數(shù)據(jù)庫,歷史數(shù)據(jù)庫,
2,根據(jù)挖掘的知識類型
  • 特征分析,區(qū)分,關聯(lián)分析,分類聚類,孤立點分析/演變分析,偏差分析等等
  • 多種方法的集成和多層機挖掘
3,根據(jù)挖掘所用技術
  • 面向數(shù)據(jù)庫的挖掘,數(shù)據(jù)倉庫,OLAP,機器學習,統(tǒng)計學,可視化等等
4,根據(jù)挖掘所用的應用
  • 金融,電信,銀行,欺詐分析,DNA分析,股票市場,WEB挖掘。
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容