21、什么是數(shù)據(jù)挖掘和KDD(知識(shí)發(fā)現(xiàn))

我對(duì)流程很感興趣。我想知道做事的好方法,即使是最好的辦法,如果可能的話。即使您沒有技能或深刻理解,過程也可以幫到您。它可以引領(lǐng)方式,技能和深刻的理解可以遵循。至少,我用它來推動(dòng)我的大部分工作。

我認(rèn)為研究數(shù)據(jù)挖掘是有用的,因?yàn)樗且粋€(gè)從數(shù)據(jù)中發(fā)現(xiàn)的過程。在這篇文章中,您將從教科書和論文中探索“數(shù)據(jù)挖掘”的權(quán)威定義。由于數(shù)據(jù)挖掘是一個(gè)過程,因此定義將包括對(duì)過程的許多解釋。

image.png

金礦
照片信譽(yù)GSofV,保留一些權(quán)利

權(quán)威教科書

在本節(jié)中,我們將從該領(lǐng)域的兩本權(quán)威教科書中查看“數(shù)據(jù)挖掘”的定義。

數(shù)據(jù)挖掘:實(shí)用的機(jī)器學(xué)習(xí)工具和技術(shù)

image.png

這是Ian Witten和Eibe Frank的教科書。

作者在前言中評(píng)論道:

“數(shù)據(jù)挖掘是從數(shù)據(jù)中提取隱含的,以前未知的,可能有用的信息。我們的想法是構(gòu)建自動(dòng)篩選數(shù)據(jù)庫,尋求規(guī)律或模式的計(jì)算機(jī)程序。如果找到強(qiáng)有力的模式,可能會(huì)推廣以對(duì)未來數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。...機(jī)器學(xué)習(xí)為數(shù)據(jù)挖掘提供了技術(shù)基礎(chǔ)。它用于從數(shù)據(jù)庫中的原始數(shù)據(jù)中提取信息......“

在本書的第1章中,作者寫道:

“數(shù)據(jù)挖掘被定義為發(fā)現(xiàn)數(shù)據(jù)模式的過程。該過程必須是自動(dòng)的(或更常見的)半自動(dòng)的。發(fā)現(xiàn)的模式必須有意義,因?yàn)樗鼤?huì)帶來一些優(yōu)勢(shì),通常是經(jīng)濟(jì)優(yōu)勢(shì)。數(shù)據(jù)總是大量存在。“

我在進(jìn)入該領(lǐng)域的早期就讀過這本書,這個(gè)數(shù)據(jù)挖掘的定義及其與機(jī)器學(xué)習(xí)的關(guān)系一直困擾著我。當(dāng)我應(yīng)用機(jī)器學(xué)習(xí)方法時(shí),我應(yīng)用一個(gè)看起來像數(shù)據(jù)挖掘過程的過程,除了我不是試圖發(fā)現(xiàn)模式本身,而是我試圖為一個(gè)定義良好的問題找到一個(gè)“足夠好”的解決方案。

數(shù)據(jù)挖掘:概念和技術(shù)

這是Jiawei Han和Micheline Kamber的教科書。

在作者的序言中寫道:

“數(shù)據(jù)挖掘,通常也被稱為數(shù)據(jù)知識(shí)發(fā)現(xiàn)(KDD),是自動(dòng)或方便地提取模式,表示在大型數(shù)據(jù)庫,數(shù)據(jù)倉庫,Web,其他海量信息庫或數(shù)據(jù)流中隱式存儲(chǔ)或捕獲的知識(shí)。”

這是KDD略有不同的定義,我認(rèn)為這是該領(lǐng)域的標(biāo)準(zhǔn)。我相信KDD的首選定義是數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。

在第1章中,作者總結(jié)了KDD過程(第7頁和第8頁):

  1. 數(shù)據(jù)清理,以消除噪音和不一致的數(shù)據(jù)。
  2. 數(shù)據(jù)集成,可以組合多個(gè)數(shù)據(jù)源。
  3. 數(shù)據(jù)選擇,從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。
  4. 數(shù)據(jù)轉(zhuǎn)換,通過預(yù)先形成匯總或匯總操作,將數(shù)據(jù)轉(zhuǎn)換并合并為適合挖掘的形式。
  5. 數(shù)據(jù)挖掘,這是一個(gè)必不可少的過程,其中應(yīng)用智能方法來提取數(shù)據(jù)模式。
  6. 模式評(píng)估,以基于有趣的度量來識(shí)別代表知識(shí)的真正有趣的模式。
  7. 知識(shí)呈現(xiàn),其中可視化和知??識(shí)表示技術(shù)用于向用戶呈現(xiàn)挖掘的知識(shí)。

在本書中,作者評(píng)論說數(shù)據(jù)挖掘更常見的是從數(shù)據(jù)過程中引用整個(gè)知識(shí)發(fā)現(xiàn),可能是因?yàn)樗且粋€(gè)較短的術(shù)語。

權(quán)威文章

在本節(jié)中,我們將在該領(lǐng)域的權(quán)威文章中探索數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD)的過程。這些都是可重復(fù)技術(shù)的macgainze文章,而不是同行評(píng)審的期刊文章。然而,較不正式的語氣允許對(duì)這一高級(jí)主題進(jìn)行有益的討論。

從數(shù)據(jù)挖掘到數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)

這是1996年由Usama Fayyad,Gregory Piatetsky-Shapiro和Padhraic Smyth撰寫的AI雜志上的一篇文章。

他們將KDD定義為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),這是我更熟悉的定義:

“...... KDD領(lǐng)域關(guān)注的是開發(fā)用于理解數(shù)據(jù)的方法和技術(shù)。......該過程的核心是應(yīng)用特定的數(shù)據(jù)挖掘方法進(jìn)行模式發(fā)現(xiàn)和提取。“

“... KDD是指從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,而數(shù)據(jù)挖掘是指此過程中的特定步驟。數(shù)據(jù)挖掘是特定算法的應(yīng)用,用于從數(shù)據(jù)中提取模式?!?/p>

作者在圖片中提供了有用的KDD摘要,其中包含框中的實(shí)體和將框連接為實(shí)體上的變換的過程。該描述總結(jié)如下。我很勉強(qiáng)重現(xiàn)圖像,對(duì)不起,正式出版物在這方面可能很難。

  • 第1步:選擇(數(shù)據(jù)到目標(biāo)數(shù)據(jù))
  • 第2步:預(yù)處理(將目標(biāo)數(shù)據(jù)轉(zhuǎn)換為已處理數(shù)據(jù))
  • 第3步:轉(zhuǎn)換(將處理后的數(shù)據(jù)轉(zhuǎn)換為轉(zhuǎn)換數(shù)據(jù))
  • 第4步:數(shù)據(jù)挖掘(將數(shù)據(jù)轉(zhuǎn)換為模式)
  • 第5步:將解釋和/或評(píng)估模式轉(zhuǎn)化為知識(shí))

這個(gè)過程很簡(jiǎn)單,它是我在處理問題時(shí)喜歡使用的模型。

從數(shù)據(jù)量中提取有用知識(shí)的KDD過程

這是1996年由Usama Fayyad,Gregory Piatetsky-Shapiro和Padhraic Smyth在ACM通訊中的一篇文章。

在本文中,作者給出了KDD過程的更詳細(xì)的總結(jié)。這個(gè)更詳細(xì)的版本在上面的“From Data Mining ...”文章中,但我感覺不太清楚。下面將更詳細(xì)地概述KDD過程。

  1. 了解應(yīng)用程序域和過程的目標(biāo)
  2. 創(chuàng)建目標(biāo)數(shù)據(jù)集作為所有可用數(shù)據(jù)的子集
  3. 數(shù)據(jù)清理和預(yù)處理,以消除噪音,處理丟失的數(shù)據(jù)和異常值
  4. 數(shù)據(jù)縮減和投影,以便專注于與問題相關(guān)的功能
  5. 將進(jìn)程的目標(biāo)與數(shù)據(jù)挖掘方法相匹配。確定模型的目的,例如摘要或分類。
  6. 選擇數(shù)據(jù)挖掘算法以匹配模型的目的(從步驟5開始)
  7. 數(shù)據(jù)挖掘,即在數(shù)據(jù)上運(yùn)行算法。
  8. 解釋挖掘的模式以使用戶可以理解,例如摘要和可視化。
  9. 根據(jù)發(fā)現(xiàn)的知識(shí),例如報(bào)告或做出決定。

我喜歡這個(gè)過程中的細(xì)節(jié)。它確實(shí)說明了理解過程目標(biāo)的必要性,并且持久選擇的算法與這些目標(biāo)相匹配。

摘要

在這篇文章中,您了解到數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)模式。您了解到,這是一個(gè)由許多步驟組成的過程,包括數(shù)據(jù)準(zhǔn)備,算法運(yùn)行和結(jié)果表示。

您了解到機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中使用的工具,數(shù)據(jù)挖掘?qū)嶋H上是數(shù)據(jù)庫或KDD中知識(shí)發(fā)現(xiàn)過程中的一個(gè)步驟,并且它已經(jīng)成為術(shù)語的同義詞,因?yàn)樗菀渍f。

您了解到,當(dāng)您從事機(jī)器學(xué)習(xí)項(xiàng)目時(shí),您可能正在執(zhí)行某種形式的KDD流程,其具體目標(biāo)是解決問題而不是進(jìn)行發(fā)現(xiàn)。

資源

如果您想深入了解,可以閱讀下面這篇文章的研究中使用的更多信息。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 關(guān)于對(duì)每天一小步的理解。對(duì)于每天每天堅(jiān)持做一件事,大多數(shù)人做不到。覺得太慢了,效果不大。就像很多致富的機(jī)會(huì)其實(shí)...
    ruby呂閱讀 110評(píng)論 0 0
  • 今天在整理復(fù)習(xí)資料,準(zhǔn)備打印講義。去年買了一堆習(xí)題,雖然最后過了,但是發(fā)現(xiàn)做完的沒幾本,看著白白的書,真是讓人難受...
    寵蜜閱讀 107評(píng)論 0 0
  • 如此幸福的一天 霧一早就散了 我在花園里干活 蜂鳥停在忍冬花上 這世上沒有一樣?xùn)|西我想占有 我知道沒有一個(gè)人值得我...
    梓杭閱讀 310評(píng)論 0 0
  • 001 今天推薦的這本書是大名鼎鼎的GTD(Getting Things Done),中文名搞定(最早叫盡管去做)...
    騎象人偉誠(chéng)閱讀 293評(píng)論 0 1

友情鏈接更多精彩內(nèi)容