適合低學(xué)歷的大數(shù)據(jù)學(xué)習(xí)方法:大數(shù)據(jù)采集,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué)!

大數(shù)據(jù)采集

01

概覽

02

相關(guān)延展

系統(tǒng)日志數(shù)據(jù)的采集

?Scribe是Facebook開源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到大量的應(yīng)用。它夠從各種日志源上收集日志,存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)上,以便于進(jìn)行集中的統(tǒng)計(jì)分析處理。 Scribe為日志的“分布式收集,統(tǒng)一處理”提供了一個(gè)可擴(kuò)展的、高容錯(cuò)的方案。(老師收學(xué)生信息表,需要班長代理收集的例子)。

??? Chukwa提供了一個(gè)對(duì)大數(shù)據(jù)量日志類數(shù)據(jù)采集、存儲(chǔ)、分析和展示的全套解決方案和框架,可以用于監(jiān)控大規(guī)模Hadoop 集群的整體運(yùn)行情況并對(duì)它們的日志進(jìn)行分析(相當(dāng)于學(xué)校內(nèi)無死角的監(jiān)控?cái)z像頭)。

注:以上兩張架構(gòu)圖現(xiàn)在不太理解,當(dāng)學(xué)完第四章再回過頭來看,就easy多了。

對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。

大數(shù)據(jù)預(yù)處理

數(shù)據(jù)清理通過填寫缺失值,光滑噪聲數(shù)據(jù),識(shí)別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。數(shù)據(jù)清理的過程主要包括數(shù)據(jù)預(yù)處理、確定清理方法、檢驗(yàn)清理方法、執(zhí)行清理工具和數(shù)據(jù)歸檔。同時(shí)每個(gè)階段可以再分若干個(gè)任務(wù)。

數(shù)據(jù)集成是將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)集集成到一起,但集成后的不可避免的會(huì)出現(xiàn)數(shù)據(jù)冗余,原因主要有:代表同一概念的屬性在不同數(shù)據(jù)庫中可能具有不同的名字;有些屬性可能由于其他屬性導(dǎo)出的。數(shù)據(jù)集成后可以再次進(jìn)行數(shù)據(jù)清理、檢測(cè)和刪去由數(shù)據(jù)集帶來的冗余。

數(shù)據(jù)歸約的目的是得到數(shù)據(jù)集的簡(jiǎn)化表示。雖然數(shù)據(jù)集的簡(jiǎn)化表示比原數(shù)據(jù)集的規(guī)模小得多,但仍然能夠產(chǎn)生幾乎同樣的分析結(jié)果。

數(shù)據(jù)變換是使用規(guī)范化、數(shù)據(jù)離散化和概念分層等方法使得數(shù)據(jù)的玩具可以在多個(gè)抽象層上進(jìn)行。數(shù)據(jù)變換操作是引導(dǎo)數(shù)據(jù)挖掘過程成功的附加預(yù)處理過程。

大數(shù)據(jù)分析

01

概覽數(shù)據(jù)分析

數(shù)據(jù)分析是大數(shù)據(jù)價(jià)值鏈中最終和最重要的階段,其目的是挖掘數(shù)據(jù)中潛在的價(jià)值以提供相應(yīng)的建議或決策。

? 數(shù)據(jù)分析( Data Analysis)是一個(gè)檢查、清理、轉(zhuǎn)換和建模數(shù)據(jù)的過程,目的是發(fā)現(xiàn)有用的信息,得出結(jié)論和推動(dòng)決策制定。

??????? 數(shù)據(jù)挖掘(Data mining)是指用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫的交叉方法在相對(duì)較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計(jì)算過程。

??????? 數(shù)據(jù)分析流程(下圖)(兩句話,①數(shù)據(jù)分析是從業(yè)務(wù)中來,到業(yè)務(wù)中去;②脫離了業(yè)務(wù)的數(shù)據(jù)分析都是耍流氓)。

02

傳統(tǒng)數(shù)據(jù)分析方法

比較有代表性的傳統(tǒng)數(shù)據(jù)分析方法:

統(tǒng)計(jì)分析,相關(guān)分析,回歸分析,聚類分析,因子分析,A / B測(cè)試;

????①統(tǒng)計(jì)分析

?????? ②相關(guān)分析:一種用于確定觀測(cè)現(xiàn)象之間的相關(guān)規(guī)律,從而進(jìn)行預(yù)測(cè)和控制的分析方法。相關(guān)分析是利用現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)研究關(guān)系的強(qiáng)度的過程(例子是身高與年齡)。同時(shí),相關(guān)不等于因果(睡眠與收入)。

??????? ③回歸分析:揭示一個(gè)變量和其他幾個(gè)變量之間的相關(guān)性的數(shù)學(xué)工具。

回歸分析能夠識(shí)別隨機(jī)隱藏的變量之間的依賴關(guān)系(一元線性回歸)。

??????? ④聚類分析:一種將對(duì)象進(jìn)行分組的統(tǒng)計(jì)方法。聚類分析用于區(qū)分具有某些特征的對(duì)象,并根據(jù)這些特征將它們分成不同的類別。同一類別中的對(duì)象具有高同質(zhì)性,不同類別中的對(duì)象具有高異質(zhì)性。

??????? ⑤因子分析:主要是通過少數(shù)幾個(gè)因子,來描述大量指標(biāo)或元素之間的關(guān)系(例子是找對(duì)象,以自己中意的幾個(gè)典型的維度對(duì)另一半進(jìn)行刻畫。如白富美,地域,教養(yǎng),品行,性格等等)。

?⑥A/B測(cè)試,也稱為水桶測(cè)試。它通過比較測(cè)試組,制定能改善目標(biāo)變量的計(jì)劃(更多地應(yīng)用在產(chǎn)品或網(wǎng)頁的設(shè)計(jì)中,根據(jù)用戶體驗(yàn)與反饋對(duì)產(chǎn)品進(jìn)行完善)。

03

大數(shù)據(jù)分析方法

??????? 這部分更多地是對(duì)大數(shù)據(jù)存儲(chǔ)效率,以及讀取速度進(jìn)行優(yōu)化的大數(shù)據(jù)分析方法。

??????? ①布隆過濾器:由一個(gè)位數(shù)組和一系列的哈希函數(shù)組成。布隆過濾器的原理是通過利用位數(shù)組來存儲(chǔ)數(shù)據(jù)本身之外的數(shù)據(jù)的哈希值。位數(shù)組本質(zhì)上是使用哈希函數(shù)來進(jìn)行數(shù)據(jù)的有損壓縮,從而存儲(chǔ)其位圖索引。布隆過濾器算法的核心思想:利用多個(gè)不同的哈希函數(shù)來解決“沖突”。(例子是班級(jí)同學(xué)進(jìn)行一間屋子,門口會(huì)有一排燈,某幾個(gè)燈亮表示一個(gè)同學(xué),為了避免沖突,燈亮以顏色進(jìn)行區(qū)分。燈亮表示1,不亮表示0)。

??????? ②散列法:一種將數(shù)據(jù)變換為較短的固定長度數(shù)值或索引值的基本方法。特點(diǎn):快速讀取、快速寫入和高查詢速度。難點(diǎn):如何找到健全的散列函數(shù)。 優(yōu)點(diǎn):空間效率高、查詢速度快。缺點(diǎn):具有一定的誤識(shí)別率、刪除困難等。例子是諜戰(zhàn)片里面?zhèn)鬟f情報(bào)場(chǎng)景,最重要的是找到密碼本(散列法的難點(diǎn))。

?③索引法:是減少磁盤讀取和寫入成本的有效方法。索引法能夠提高插入、刪除、修改和查詢速度。索引一般分為兩類:聚集索引和非聚集索引。例子是索引類似于書籍的目錄。

?????? ④字典樹:又稱單詞查找樹,是一種哈希樹的變體。它主要應(yīng)用于快速檢索和字頻統(tǒng)計(jì)。主要思想是:利用字符串的常見前綴來最大限度地減少字符串的比較,從而提高查詢效率。

??????? ⑤并行計(jì)算:并行計(jì)算是指利用若干計(jì)算資源來完成計(jì)算任務(wù)。其基本思想是:分解一個(gè)問題并將其分配給幾個(gè)獨(dú)立的進(jìn)程,以便獨(dú)立完成,從而實(shí)現(xiàn)協(xié)同處理。

04

大數(shù)據(jù)分析架構(gòu)

大數(shù)據(jù)分析可以根據(jù)實(shí)時(shí)要求分為實(shí)時(shí)分析(金融領(lǐng)域:超市付款,哈羅單車)和離線分析(淘寶商品推薦)。

大數(shù)據(jù)分析按照層次的不同,還可以分為內(nèi)存級(jí)分析、BI分析(數(shù)據(jù)層、業(yè)務(wù)層和應(yīng)用層)和海量分析(數(shù)據(jù)采集模塊、數(shù)據(jù)冗余模塊、維度定義模塊、并行分析模塊)。

05

大數(shù)據(jù)分析應(yīng)用工具(略)

課上通過R語言的展示,旨在讓同學(xué)們對(duì)大數(shù)據(jù)分析的功能有個(gè)直觀認(rèn)識(shí)。

大數(shù)據(jù)存儲(chǔ)

從本章開始,涉及的大數(shù)據(jù)名詞越來越多,開始大家覺得晦澀難懂,隨著課程的推進(jìn),一些技術(shù)及名詞會(huì)慢慢熟悉,希望大家耐著性子學(xué)習(xí)。堅(jiān)持下來,不要讓東哥唱獨(dú)角戲哈!

01

概覽

02

云存儲(chǔ)

云存儲(chǔ)沒有行業(yè)權(quán)威的定義。云存儲(chǔ)是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來的一個(gè)新的概念,是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù),是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。云存儲(chǔ)不僅是存儲(chǔ)設(shè)備或技術(shù),更是一種服務(wù)的創(chuàng)新。

特點(diǎn):可靠性、可用性、安全性、規(guī)范化、低成本。

架構(gòu)(動(dòng)物園):訪問層、應(yīng)用接口層、基礎(chǔ)管理層。

技術(shù):存儲(chǔ)虛擬化(齊天大圣)、分布式存儲(chǔ)、數(shù)據(jù)縮減、負(fù)載均衡。

云存儲(chǔ)的虛擬化將存儲(chǔ)資源虛擬化為全局命名空間(動(dòng)物園的名字),并通過多租戶技術(shù)(跟著旅行社的導(dǎo)游參觀動(dòng)物園)給使用者提供存儲(chǔ)資源。

分布式存儲(chǔ)分為分布式塊存儲(chǔ),分布式對(duì)象存儲(chǔ)以及分布式文件系統(tǒng)。

數(shù)據(jù)縮減一定程度上節(jié)約企業(yè)存儲(chǔ)成本,提高效率。包括自動(dòng)精簡(jiǎn)配置(欺騙),自動(dòng)存儲(chǔ)分層(超市擺放物品),重復(fù)數(shù)據(jù)刪除(自己產(chǎn)生的數(shù)據(jù))。

負(fù)載均衡技術(shù),節(jié)點(diǎn)的負(fù)載均衡能夠更好的實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)擴(kuò)展,即若系統(tǒng)收到的請(qǐng)求均勻分配給每個(gè)節(jié)點(diǎn)后超出節(jié)點(diǎn)的處理能力,只需通過擴(kuò)充節(jié)點(diǎn)的數(shù)目就可以減少系統(tǒng)所有節(jié)點(diǎn)的壓力,而無需對(duì)內(nèi)部的負(fù)載均衡機(jī)制做任何處理。(4x1接力比賽,體育委員根據(jù)每個(gè)人的速度,耐力分配接力順序)。

03

大數(shù)據(jù)存儲(chǔ)

??? 大數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)分為DAS,NAS以及SAN。

DAS

適用環(huán)境:①服務(wù)器地理分布很分散,通過SAN或NAS互聯(lián)困難。②存儲(chǔ)系統(tǒng)必須直接與應(yīng)用服務(wù)器連接。③小型網(wǎng)絡(luò)。

缺點(diǎn):①擴(kuò)展性差。②資源利用率低。③可管理性差。DAS的數(shù)據(jù)分散在應(yīng)用服務(wù)器各自的存儲(chǔ)設(shè)備上,不變集中管理、分析和使用數(shù)據(jù)。④異構(gòu)化嚴(yán)重。

NAS

優(yōu)點(diǎn):①即插即用,可以基于已有的企業(yè)網(wǎng)絡(luò)方便連接到應(yīng)用服務(wù)器。②專用操作系統(tǒng)支持不同的文件系統(tǒng),從而可以支持應(yīng)用服務(wù)器不同操作系統(tǒng)之間的文件共享。③專用服務(wù)器上經(jīng)過優(yōu)化的文件系統(tǒng)提高了文件的訪問效率。④獨(dú)立于應(yīng)用服務(wù)器,即使應(yīng)用服務(wù)器故障或停止工作,仍然可以讀出數(shù)據(jù)。

缺點(diǎn):①共用網(wǎng)絡(luò)的模式使網(wǎng)絡(luò)帶寬成為存儲(chǔ)性能瓶頸。②NAS訪問要經(jīng)過文件系統(tǒng)格式轉(zhuǎn)換,故只能以文件一級(jí)訪問,不適合塊級(jí)的應(yīng)用。

SAN

04

數(shù)據(jù)倉庫

??? 從決策支持角度來看,數(shù)據(jù)倉庫可以簡(jiǎn)單定義為:專為決策支持服務(wù)的數(shù)據(jù)庫系統(tǒng) ,它并非對(duì)原有業(yè)務(wù)系統(tǒng)的取代,而是在所有業(yè)務(wù)系統(tǒng)之上建立一個(gè)統(tǒng)一的、一致的企業(yè)級(jí)數(shù)據(jù)視圖。

? 特點(diǎn):數(shù)據(jù)倉庫的的數(shù)據(jù)是面向主題組織的;數(shù)據(jù)倉庫中的數(shù)據(jù)是繼承的。數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的。數(shù)據(jù)是隨時(shí)間不斷變化的。

數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別

???? 在物理實(shí)現(xiàn)上,數(shù)據(jù)倉庫與傳統(tǒng)意義上的數(shù)據(jù)庫并無本質(zhì)的區(qū)別,主要是以關(guān)系表的形式實(shí)現(xiàn)的。更多的時(shí)候,我們將數(shù)據(jù)倉庫作為一個(gè)數(shù)據(jù)庫應(yīng)用系統(tǒng)來看待。

數(shù)據(jù)倉庫體系架構(gòu):數(shù)據(jù)倉庫從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)過整理加工后存儲(chǔ)在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫。通過數(shù)據(jù)倉庫訪問工具,向數(shù)據(jù)倉庫的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,支持企業(yè)全局決策過程和對(duì)企業(yè)經(jīng)營管理的深入綜合分析。整個(gè)數(shù)據(jù)倉庫系統(tǒng)是一個(gè)包含4個(gè)層次的體系機(jī)構(gòu)。

對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容