我對(duì)流程很感興趣。我想知道做事的好方法,即使是最好的辦法,如果可能的話。即使您沒有技能或深刻理解,過程也可以幫到您。它可以引領(lǐng)方式,技能和深刻的理解可以遵循。至少,我用它來推動(dòng)我的大部分工作。
我認(rèn)為研究數(shù)據(jù)挖掘是有用的,因?yàn)樗且粋€(gè)從數(shù)據(jù)中發(fā)現(xiàn)的過程。在這篇文章中,您將從教科書和論文中探索“數(shù)據(jù)挖掘”的權(quán)威定義。由于數(shù)據(jù)挖掘是一個(gè)過程,因此定義將包括對(duì)過程的許多解釋。

金礦
照片信譽(yù)GSofV,保留一些權(quán)利
權(quán)威教科書
在本節(jié)中,我們將從該領(lǐng)域的兩本權(quán)威教科書中查看“數(shù)據(jù)挖掘”的定義。
數(shù)據(jù)挖掘:實(shí)用的機(jī)器學(xué)習(xí)工具和技術(shù)

這是Ian Witten和Eibe Frank的教科書。
作者在前言中評(píng)論道:
“數(shù)據(jù)挖掘是從數(shù)據(jù)中提取隱含的,以前未知的,可能有用的信息。我們的想法是構(gòu)建自動(dòng)篩選數(shù)據(jù)庫,尋求規(guī)律或模式的計(jì)算機(jī)程序。如果找到強(qiáng)有力的模式,可能會(huì)推廣以對(duì)未來數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。...機(jī)器學(xué)習(xí)為數(shù)據(jù)挖掘提供了技術(shù)基礎(chǔ)。它用于從數(shù)據(jù)庫中的原始數(shù)據(jù)中提取信息......“
在本書的第1章中,作者寫道:
“數(shù)據(jù)挖掘被定義為發(fā)現(xiàn)數(shù)據(jù)模式的過程。該過程必須是自動(dòng)的(或更常見的)半自動(dòng)的。發(fā)現(xiàn)的模式必須有意義,因?yàn)樗鼤?huì)帶來一些優(yōu)勢(shì),通常是經(jīng)濟(jì)優(yōu)勢(shì)。數(shù)據(jù)總是大量存在。“
我在進(jìn)入該領(lǐng)域的早期就讀過這本書,這個(gè)數(shù)據(jù)挖掘的定義及其與機(jī)器學(xué)習(xí)的關(guān)系一直困擾著我。當(dāng)我應(yīng)用機(jī)器學(xué)習(xí)方法時(shí),我應(yīng)用一個(gè)看起來像數(shù)據(jù)挖掘過程的過程,除了我不是試圖發(fā)現(xiàn)模式本身,而是我試圖為一個(gè)定義良好的問題找到一個(gè)“足夠好”的解決方案。
數(shù)據(jù)挖掘:概念和技術(shù)
這是Jiawei Han和Micheline Kamber的教科書。在作者的序言中寫道:
“數(shù)據(jù)挖掘,通常也被稱為數(shù)據(jù)知識(shí)發(fā)現(xiàn)(KDD),是自動(dòng)或方便地提取模式,表示在大型數(shù)據(jù)庫,數(shù)據(jù)倉庫,Web,其他海量信息庫或數(shù)據(jù)流中隱式存儲(chǔ)或捕獲的知識(shí)。”
這是KDD略有不同的定義,我認(rèn)為這是該領(lǐng)域的標(biāo)準(zhǔn)。我相信KDD的首選定義是數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。
在第1章中,作者總結(jié)了KDD過程(第7頁和第8頁):
- 數(shù)據(jù)清理,以消除噪音和不一致的數(shù)據(jù)。
- 數(shù)據(jù)集成,可以組合多個(gè)數(shù)據(jù)源。
- 數(shù)據(jù)選擇,從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。
- 數(shù)據(jù)轉(zhuǎn)換,通過預(yù)先形成匯總或匯總操作,將數(shù)據(jù)轉(zhuǎn)換并合并為適合挖掘的形式。
- 數(shù)據(jù)挖掘,這是一個(gè)必不可少的過程,其中應(yīng)用智能方法來提取數(shù)據(jù)模式。
- 模式評(píng)估,以基于有趣的度量來識(shí)別代表知識(shí)的真正有趣的模式。
- 知識(shí)呈現(xiàn),其中可視化和知??識(shí)表示技術(shù)用于向用戶呈現(xiàn)挖掘的知識(shí)。
在本書中,作者評(píng)論說數(shù)據(jù)挖掘更常見的是從數(shù)據(jù)過程中引用整個(gè)知識(shí)發(fā)現(xiàn),可能是因?yàn)樗且粋€(gè)較短的術(shù)語。
權(quán)威文章
在本節(jié)中,我們將在該領(lǐng)域的權(quán)威文章中探索數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD)的過程。這些都是可重復(fù)技術(shù)的macgainze文章,而不是同行評(píng)審的期刊文章。然而,較不正式的語氣允許對(duì)這一高級(jí)主題進(jìn)行有益的討論。
從數(shù)據(jù)挖掘到數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)
這是1996年由Usama Fayyad,Gregory Piatetsky-Shapiro和Padhraic Smyth撰寫的AI雜志上的一篇文章。
他們將KDD定義為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),這是我更熟悉的定義:
“...... KDD領(lǐng)域關(guān)注的是開發(fā)用于理解數(shù)據(jù)的方法和技術(shù)。......該過程的核心是應(yīng)用特定的數(shù)據(jù)挖掘方法進(jìn)行模式發(fā)現(xiàn)和提取。“
和
“... KDD是指從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,而數(shù)據(jù)挖掘是指此過程中的特定步驟。數(shù)據(jù)挖掘是特定算法的應(yīng)用,用于從數(shù)據(jù)中提取模式?!?/p>
作者在圖片中提供了有用的KDD摘要,其中包含框中的實(shí)體和將框連接為實(shí)體上的變換的過程。該描述總結(jié)如下。我很勉強(qiáng)重現(xiàn)圖像,對(duì)不起,正式出版物在這方面可能很難。
- 第1步:選擇(數(shù)據(jù)到目標(biāo)數(shù)據(jù))
- 第2步:預(yù)處理(將目標(biāo)數(shù)據(jù)轉(zhuǎn)換為已處理數(shù)據(jù))
- 第3步:轉(zhuǎn)換(將處理后的數(shù)據(jù)轉(zhuǎn)換為轉(zhuǎn)換數(shù)據(jù))
- 第4步:數(shù)據(jù)挖掘(將數(shù)據(jù)轉(zhuǎn)換為模式)
- 第5步:將解釋和/或評(píng)估模式轉(zhuǎn)化為知識(shí))
這個(gè)過程很簡(jiǎn)單,它是我在處理問題時(shí)喜歡使用的模型。
從數(shù)據(jù)量中提取有用知識(shí)的KDD過程
這是1996年由Usama Fayyad,Gregory Piatetsky-Shapiro和Padhraic Smyth在ACM通訊中的一篇文章。
在本文中,作者給出了KDD過程的更詳細(xì)的總結(jié)。這個(gè)更詳細(xì)的版本在上面的“From Data Mining ...”文章中,但我感覺不太清楚。下面將更詳細(xì)地概述KDD過程。
- 了解應(yīng)用程序域和過程的目標(biāo)
- 創(chuàng)建目標(biāo)數(shù)據(jù)集作為所有可用數(shù)據(jù)的子集
- 數(shù)據(jù)清理和預(yù)處理,以消除噪音,處理丟失的數(shù)據(jù)和異常值
- 數(shù)據(jù)縮減和投影,以便專注于與問題相關(guān)的功能
- 將進(jìn)程的目標(biāo)與數(shù)據(jù)挖掘方法相匹配。確定模型的目的,例如摘要或分類。
- 選擇數(shù)據(jù)挖掘算法以匹配模型的目的(從步驟5開始)
- 數(shù)據(jù)挖掘,即在數(shù)據(jù)上運(yùn)行算法。
- 解釋挖掘的模式以使用戶可以理解,例如摘要和可視化。
- 根據(jù)發(fā)現(xiàn)的知識(shí),例如報(bào)告或做出決定。
我喜歡這個(gè)過程中的細(xì)節(jié)。它確實(shí)說明了理解過程目標(biāo)的必要性,并且持久選擇的算法與這些目標(biāo)相匹配。
摘要
在這篇文章中,您了解到數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)模式。您了解到,這是一個(gè)由許多步驟組成的過程,包括數(shù)據(jù)準(zhǔn)備,算法運(yùn)行和結(jié)果表示。
您了解到機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中使用的工具,數(shù)據(jù)挖掘?qū)嶋H上是數(shù)據(jù)庫或KDD中知識(shí)發(fā)現(xiàn)過程中的一個(gè)步驟,并且它已經(jīng)成為術(shù)語的同義詞,因?yàn)樗菀渍f。
您了解到,當(dāng)您從事機(jī)器學(xué)習(xí)項(xiàng)目時(shí),您可能正在執(zhí)行某種形式的KDD流程,其具體目標(biāo)是解決問題而不是進(jìn)行發(fā)現(xiàn)。
資源
如果您想深入了解,可以閱讀下面這篇文章的研究中使用的更多信息。
- 數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具和技術(shù)(會(huì)員鏈接)
- 數(shù)據(jù)挖掘:概念和技術(shù)(會(huì)員鏈接)
- 從數(shù)據(jù)挖掘到數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(谷歌學(xué)者),1996
- 1996年,從數(shù)據(jù)量中提取有用知識(shí)的KDD過程(谷歌學(xué)者)
