第一節(jié)課

時(shí)間:2019-2-25

一、DATA MINING

1.信息的處理方式——計(jì)算機(jī)的核心

2.進(jìn)行數(shù)據(jù)分析與挖掘(與關(guān)系型DB聯(lián)系緊密)

3.數(shù)據(jù)與知識(shí)

4.定義:數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。

5.數(shù)據(jù)挖掘的常用方法:

分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等


二、引言

1.概念描述

1)? 數(shù)據(jù)爆炸問(wèn)題

2)? 我們數(shù)據(jù)豐富,但信息貧乏!(We are drowning in data, but starving for knowledge.)

?3)? 解決方法:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

聯(lián)機(jī)事務(wù)處理(Online transaction processing,OLTP)——針對(duì)關(guān)系型數(shù)據(jù)庫(kù),如增刪改查的操作

數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理(OLAP)——針對(duì)數(shù)據(jù)倉(cāng)庫(kù)

2. .....她剛才在說(shuō)什么??..

3.什么是數(shù)據(jù)挖掘

從海量數(shù)據(jù)中抽取出有用的模式或者知識(shí),這些模式或者知識(shí)應(yīng)該是:

非常識(shí)性隱藏的、當(dāng)前未知的以及潛在有益的

有的也稱,KDD.

從數(shù)據(jù)倉(cāng)庫(kù)的角度來(lái)看:數(shù)據(jù)挖掘——知識(shí)發(fā)現(xiàn)過(guò)程的核心。

KDD的過(guò)程:——見常規(guī)的數(shù)據(jù)分析過(guò)程+數(shù)據(jù)挖掘

注意各個(gè)過(guò)程的數(shù)據(jù)可見的金字塔形。

4.數(shù)據(jù)挖掘和KDD在各個(gè)領(lǐng)域的典型應(yīng)用和作用的方面

5.基于何種數(shù)據(jù)?

關(guān)系數(shù)據(jù)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)

事務(wù)數(shù)據(jù)

其他類型的數(shù)據(jù):空間數(shù)據(jù);流數(shù)據(jù);ect.

6.數(shù)據(jù)挖掘的功能

1)概念描述:數(shù)據(jù)特征化和數(shù)據(jù)區(qū)分

特征化:數(shù)據(jù)可分為一類(CLASS)的一般特性或特征;

2)? 頻繁模式(或頻繁項(xiàng))(如義)

3)關(guān)聯(lián)與相關(guān)性 (關(guān)聯(lián)性數(shù)值與相關(guān)性數(shù)值不相同)

4)用于預(yù)測(cè)分析的分類和回歸

分類與回歸是兩種不同的預(yù)測(cè)。

分類構(gòu)造模型,進(jìn)行分類,用于將來(lái)的預(yù)測(cè)。分類預(yù)測(cè)類別標(biāo)號(hào);

分類的表示方式:決策樹,分類規(guī)則,神經(jīng)網(wǎng)絡(luò)等。

回歸預(yù)測(cè)一些未知或者丟失的數(shù)值?;貧w建立連續(xù)值的函數(shù)模型;

回歸的表示方式:邏輯回歸等。

7.聚類分析(Cluster Analysis)

聚類分析數(shù)據(jù)對(duì)象而不考慮類標(biāo)號(hào)。

目標(biāo):最大化類內(nèi)的相似性,最小化類間的相似性。

8.離群點(diǎn)分析

離群點(diǎn):一個(gè)數(shù)據(jù)對(duì)象,并不遵從這類數(shù)據(jù)的通用行為。

有時(shí)離群點(diǎn),和離群點(diǎn)分析很有用,并不總是噪音或亂數(shù)據(jù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容