帶你了解什么是大數(shù)據(jù),什么是數(shù)據(jù)分析,什么是數(shù)據(jù)挖掘

一、大數(shù)據(jù)是什么?

大數(shù)據(jù)的誕生和發(fā)展:

2005,google,GFS(google file system),后來(lái)成為了HDFS的前身。

2006,google,MapReduce。

2007,google,Apache基金會(huì)用于創(chuàng)建Hadoop的開(kāi)源社區(qū)。

2007,google,BigTable,HBase分布式數(shù)據(jù)庫(kù)。

2009,Spark。

大數(shù)據(jù)的工作:

1.數(shù)據(jù)獲?。号老x(chóng),數(shù)據(jù)接口獲取,傳感,開(kāi)源數(shù)據(jù)(UCI)

2.數(shù)據(jù)存儲(chǔ):HDFS、Hbase、HIVE

3.數(shù)據(jù)分析:MapReduce離線計(jì)算引擎,Spark內(nèi)存計(jì)算引擎……

4.數(shù)據(jù)挖掘:機(jī)器學(xué)習(xí)算法

大數(shù)據(jù)的工作內(nèi)容:

1.大數(shù)據(jù)是一個(gè)綜合概念,其中涉及到的第一步就是數(shù)據(jù)的獲取。

2.數(shù)據(jù)獲取之后,下一步就是需要進(jìn)行數(shù)據(jù)的處理和存儲(chǔ)。將各種各樣的數(shù)據(jù)進(jìn)行格式化操作,并且最終存儲(chǔ)到本地,進(jìn)行分析和留存。

3.在有了大量可靠的數(shù)據(jù)源之后,下一步需求針對(duì)數(shù)據(jù)進(jìn)行分析操作,通過(guò)分析可以獲知所需要的各種信息。

4.如果需要做到機(jī)器學(xué)習(xí)或者進(jìn)一步獲取數(shù)據(jù)信息,就需要做數(shù)據(jù)挖掘的工作。

如果你對(duì)大數(shù)據(jù)開(kāi)發(fā)感興趣,想系統(tǒng)學(xué)習(xí)大數(shù)據(jù)相關(guān)知識(shí)的話,可以加入大數(shù)據(jù)技術(shù)學(xué)習(xí)交流扣扣群:458數(shù)字345數(shù)字782,歡迎添加,私信管理員,了解課程介紹,獲取學(xué)習(xí)資源

二, 數(shù)據(jù)分析是什么?數(shù)據(jù)挖掘是什么?

數(shù)據(jù)分析和數(shù)據(jù)挖掘都是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)、所以我們稱數(shù)據(jù)分析和數(shù)據(jù)挖掘叫做數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),嚴(yán)格意義上來(lái)講,數(shù)據(jù)挖掘才是真正意義上的數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。其簡(jiǎn)稱為KDD。

數(shù)據(jù)分析是從數(shù)據(jù)庫(kù)中通過(guò)統(tǒng)計(jì)、計(jì)算、抽樣等相關(guān)的方法,獲取基于數(shù)據(jù)庫(kù)的數(shù)據(jù)表象的知識(shí),也就是指數(shù)據(jù)分析是從數(shù)據(jù)庫(kù)里面得到一些表象性的信息。

數(shù)據(jù)挖掘是從數(shù)據(jù)庫(kù)中,通過(guò)機(jī)器學(xué)習(xí)或者是通過(guò)數(shù)學(xué)算法等相關(guān)的方法獲取深層次的知識(shí)(比如屬性之間的規(guī)律性,或者是預(yù)測(cè))的技術(shù)。

所以,僅僅只依靠于數(shù)據(jù)分析,我們只能獲取到一些表象性的信息,但是通過(guò)數(shù)據(jù)挖掘我們可以獲取到很多相關(guān)的深層次的規(guī)律或者是一些預(yù)測(cè)性的信息。

數(shù)據(jù)挖掘的特點(diǎn):

1.數(shù)據(jù)集大:只有數(shù)據(jù)集越大,得到的規(guī)律才能越貼近于正確的實(shí)際的規(guī)律,結(jié)果也才越準(zhǔn)確。

2.不完整性:數(shù)據(jù)挖掘使用的數(shù)據(jù),往往都是不完整的。

3.不準(zhǔn)確性:又叫做噪聲數(shù)據(jù),在商業(yè)中用戶可能會(huì)提供假數(shù)據(jù),那么在工廠環(huán)境中或者是其他條件比較艱苦的環(huán)境里,那么正常的數(shù)據(jù)往往會(huì)收到電磁或者是輻射干擾,那么這個(gè)時(shí)候,數(shù)據(jù)就會(huì)出現(xiàn)超出正常值的情況。那么這些不正常的絕對(duì)不可能出現(xiàn)的數(shù)據(jù),就叫做噪聲,但是噪聲需要和離群點(diǎn)分辨開(kāi)。離群點(diǎn)指的是偏離了普遍規(guī)律的數(shù)據(jù)樣本,它可能和基礎(chǔ)規(guī)律相差很大,但是我們并不能說(shuō)這個(gè)樣本是一個(gè)噪聲數(shù)據(jù)。比如,100歲的老人,買電腦,雖然這個(gè)情況基本不可能看的到,但是這個(gè)情況仍然是可能出現(xiàn)的。所以我們無(wú)法認(rèn)為其是一個(gè)噪聲假數(shù)據(jù)。所以我們稱之為這個(gè)100歲老人的樣本是一個(gè)離群點(diǎn)。

4.模糊的:模糊的可以和不準(zhǔn)確性相關(guān)聯(lián)。由于數(shù)據(jù)不準(zhǔn)確,所以我們只能在大體上對(duì)數(shù)據(jù)進(jìn)行一個(gè)整體的觀察?;蛘呶覀兛梢越忉尀橛捎谏婕暗诫[私信息,無(wú)法獲知到具體的一些用戶的內(nèi)容,那么這個(gè)時(shí)候,我們?nèi)绻胍鱿嚓P(guān)的分析操作,就只能在大體上做一些分析。無(wú)法精確進(jìn)行判斷。

5.隨機(jī)性:隨機(jī)性有兩個(gè)解釋,一個(gè)是獲取的數(shù)據(jù)隨機(jī),我們無(wú)法得知用戶填寫(xiě)的到底是什么內(nèi)容。第二個(gè)是分析結(jié)果隨機(jī)。數(shù)據(jù)交給機(jī)器進(jìn)行判斷和學(xué)習(xí),那么一切的操作都屬于是灰箱操作。

數(shù)據(jù)挖掘的基本步驟:

數(shù)據(jù)輸入:輸入要挖掘的數(shù)據(jù)

數(shù)據(jù)轉(zhuǎn)換:做數(shù)據(jù)預(yù)處理的步驟,通過(guò)了數(shù)據(jù)轉(zhuǎn)換之后,數(shù)據(jù)就是一個(gè)可用的,無(wú)冗余的、完整的、統(tǒng)一的、精確的數(shù)據(jù)集。

(1)數(shù)據(jù)清理:對(duì)噪聲數(shù)據(jù)和不一致的數(shù)據(jù)做清除操作?;蛘呤菍?duì)重復(fù)數(shù)據(jù)做刪除,或者是對(duì)缺失數(shù)據(jù)做填充(眾數(shù)、中位數(shù)、自己判斷)。

(2)數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源的數(shù)據(jù)做整合。

(3)數(shù)據(jù)選擇:選擇需要的數(shù)據(jù)做挖掘。比如一個(gè)人買不買電腦和他叫什么沒(méi)什么關(guān)系,所以就不需要輸入到機(jī)器中進(jìn)行分析。

(4)數(shù)據(jù)變換:不同的數(shù)據(jù)被通過(guò)數(shù)據(jù)集成集成到一起的時(shí)候,就會(huì)出現(xiàn)一個(gè)問(wèn)題,叫做實(shí)體識(shí)別問(wèn)題。那么數(shù)據(jù)變換除了解決實(shí)體識(shí)別問(wèn)題以外,還需要統(tǒng)一不同的數(shù)據(jù)庫(kù)的數(shù)據(jù)的格式。

數(shù)據(jù)挖掘:通過(guò)數(shù)學(xué)算法對(duì)數(shù)據(jù)進(jìn)行分析,得到數(shù)據(jù)之間的規(guī)律,或者是我們所需要的知識(shí)。

模型評(píng)估:判斷機(jī)器得到的模型是否是可用的,比如一個(gè)機(jī)器學(xué)習(xí)之后得到一個(gè)模型,該模型預(yù)測(cè)的準(zhǔn)確率為10%,那么就不可用。所以模型評(píng)估很大一部分是在判斷機(jī)器學(xué)習(xí)得到的知識(shí)是否是準(zhǔn)確的,可用的。

數(shù)據(jù)輸出:將結(jié)果數(shù)據(jù)輸出,并且將得到的知識(shí)表示出來(lái),對(duì)應(yīng)了知識(shí)表示。

數(shù)據(jù)在進(jìn)行挖掘時(shí),我們往往都是通過(guò)某些屬性得以判斷某個(gè)結(jié)果,比如一個(gè)患者得了感冒、發(fā)燒、咳嗽、那么我們可以判斷其得了肺炎,這個(gè)時(shí)候,我們是通過(guò)感冒、發(fā)燒、咳嗽三個(gè)屬性分析得出是否得肺炎,那么前三個(gè)屬性就是我們分析所需要的屬性。通過(guò)對(duì)某些屬性的分析我們就可以得到某一些結(jié)果。這就是數(shù)據(jù)挖掘的基本規(guī)律。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前 言 有這樣一句古老的諺語(yǔ):“如果你每天早上做的第一件事就是吃掉一只獲活的...
    老云帶你看蕓蕓眾生閱讀 511評(píng)論 0 1
  • 等候 等候耶和華 等候風(fēng)掃過(guò)街道的殘葉 等候紅旗漫卷時(shí)的經(jīng)年歲月 等候你來(lái)時(shí) 我跳躍的、激動(dòng)和驚喜 等候 等候午后...
    霂隱閱讀 126評(píng)論 0 0
  • 昨晚,做了一個(gè)夢(mèng),夢(mèng)到了從我生活中消失了兩年的那個(gè)她;可惜巧合的是,那么不符合邏輯的事情,而我在夢(mèng)中卻當(dāng)了真!然后...
    A_ck閱讀 230評(píng)論 1 0
  • 這是白云蘭子陪伴你的第458天 超忙碌的一周,感覺(jué)沒(méi)有喘息一般,但喜歡的讀書(shū),我還是堅(jiān)定的堅(jiān)持著。手中的《呼嘯山莊...
    白云蘭子閱讀 448評(píng)論 0 2
  • 狗子是一只獅子犬和另一只不知道什么犬的串種,它渾身金黃外形有點(diǎn)像秋田犬,但比秋田犬要小上一號(hào)是一只公犬,我給它...
    張千戶閱讀 257評(píng)論 0 2

友情鏈接更多精彩內(nèi)容