一、大數(shù)據(jù)的結(jié)構(gòu)
1.大數(shù)據(jù)的結(jié)構(gòu)化
大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒(méi)有必要神話它或?qū)λ3志次分模谝栽朴?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來(lái)很難收集和使用的數(shù)據(jù)開(kāi)始容易被利用起來(lái)了,通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值 。

其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,從以下三個(gè)層面來(lái)展開(kāi):
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
2.結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù)。也稱作行數(shù)據(jù),是由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。結(jié)構(gòu)化數(shù)據(jù)標(biāo)記,是一種能讓網(wǎng)站以更好的姿態(tài)展示在搜索結(jié)果當(dāng)中的方式,搜索引擎都支持標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)標(biāo)記。
結(jié)構(gòu)化數(shù)據(jù)可以通過(guò)固有鍵值獲取相應(yīng)信息,且數(shù)據(jù)的格式固定,如RDBMS data 。
結(jié)構(gòu)化最常見(jiàn)的就是具有模式的數(shù)據(jù),結(jié)構(gòu)化就是模式。大多數(shù)技術(shù)應(yīng)用基于結(jié)構(gòu)化數(shù)據(jù)。
3.半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)和普通純文本相比具有一定的結(jié)構(gòu)性,但和具有嚴(yán)格理論模型的關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)相比更靈活。它是一種適于數(shù)據(jù)庫(kù)集成的數(shù)據(jù)模型,也就是說(shuō),適于描述包含在兩個(gè)或多個(gè)數(shù)據(jù)庫(kù)(這些數(shù)據(jù)庫(kù)含有不同模式的相似數(shù)據(jù))中的數(shù)據(jù)。它是一種標(biāo)記服務(wù)的基礎(chǔ)模型,用于Web上共享信息。對(duì)半結(jié)構(gòu)化數(shù)據(jù)模型感興趣的動(dòng)機(jī)主要是它的靈活性。特別的,半結(jié)構(gòu)化數(shù)據(jù)是“無(wú)模式”的。更準(zhǔn)確地說(shuō),其數(shù)據(jù)是自描述的。它攜帶了關(guān)于其模式的信息,并且這樣的模式可以隨時(shí)間在單一數(shù)據(jù)庫(kù)內(nèi)任意改變。
這種靈活性可能使查詢處理更加困難,但它給用戶提供了顯著地優(yōu)勢(shì)。例如,可以在半結(jié)構(gòu)化模型中維護(hù)一個(gè)電影數(shù)據(jù)庫(kù),并且能如用戶所愿地添加類似“我喜歡看此部電影嗎?”這樣的新屬性。這些屬性不需要所有電影都有值,或者甚至不需要多于一個(gè)電影有值。同樣的,可以添加類似“homage to”這樣的聯(lián)系而不需要改變模式,或者甚至表示不止一對(duì)的電影間的聯(lián)系。
因?yàn)槲覀円私鈹?shù)據(jù)的細(xì)節(jié),所以不能將數(shù)據(jù)簡(jiǎn)單地組織成一個(gè)文件按照非結(jié)構(gòu)化數(shù)據(jù)處理,由于結(jié)構(gòu)變化很大也不能夠簡(jiǎn)單的建立一個(gè)表和他對(duì)應(yīng)。
半結(jié)構(gòu)化數(shù)據(jù)可以通過(guò)靈活的鍵值調(diào)整獲取相應(yīng)信息,且數(shù)據(jù)的格式不固定,如json,同一鍵值下存儲(chǔ)的信息可能是數(shù)值型的,可能是文本型的,也可能是字典或者列表。
半結(jié)構(gòu)化數(shù)據(jù)比較有意思,首先它的數(shù)據(jù)是有結(jié)構(gòu)的,但卻不方便模式化,有可能因?yàn)槊枋霾粯?biāo)準(zhǔn),有可能因?yàn)槊枋鲇猩炜s性,總之不能模式化。XML和json表示的數(shù)據(jù)就有半模式的特點(diǎn)。
半結(jié)構(gòu)化數(shù)據(jù)中結(jié)構(gòu)模式附著或相融與數(shù)據(jù)本身,數(shù)據(jù)自身就描述了其相應(yīng)結(jié)構(gòu)模式,具有下述特征:
(1)數(shù)據(jù)結(jié)構(gòu)自描述性。結(jié)構(gòu)與數(shù)據(jù)相交融,在研究和應(yīng)用中不需要區(qū)分“元數(shù)據(jù)”和“一般數(shù)據(jù)”(兩者合二為一)。
(2)數(shù)據(jù)結(jié)構(gòu)描述的復(fù)雜性。結(jié)構(gòu)難以納入現(xiàn)有的各種描述框架,實(shí)際應(yīng)用中不易進(jìn)行清晰的理解與把握。
(3)數(shù)據(jù)結(jié)構(gòu)描述的動(dòng)態(tài)性。數(shù)據(jù)變化通常會(huì)導(dǎo)致結(jié)構(gòu)模式變化,整體上具有動(dòng)態(tài)得結(jié)構(gòu)模式。
常規(guī)的數(shù)據(jù)模型例如E-R模型、關(guān)系模型和對(duì)象模型恰恰與上述特點(diǎn)相反,因此可以成為結(jié)構(gòu)化數(shù)據(jù)模型。而相對(duì)于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)的構(gòu)成更為復(fù)雜和不確定,從而也具有更高的靈活性,能夠適應(yīng)更為廣泛的應(yīng)用需求。其實(shí)用半模式化的視角看待數(shù)據(jù)是非常合理的。沒(méi)有模式的限定,數(shù)據(jù)可以自由地流入系統(tǒng),還可以自由的更新。這更便于客觀的描述事物。在使用時(shí)模式才應(yīng)該起作用,使用者想獲取數(shù)據(jù)就應(yīng)當(dāng)構(gòu)建需要的模式來(lái)檢索數(shù)據(jù)。由于不同的使用者構(gòu)建不同的模式,數(shù)據(jù)將最大化的被利用。這才是最自然的使用數(shù)據(jù)的方式。
4.非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù),是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的,不適于由數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn),包括所有格式的辦公文檔、XML、HTML、各類報(bào)表、圖片和咅頻、視頻信息等。支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)采用多值字段、了字段和變長(zhǎng)字段機(jī)制進(jìn)行數(shù)據(jù)項(xiàng)的創(chuàng)建和管理,廣泛應(yīng)用于全文檢索和各種多媒體信息處理領(lǐng)域。據(jù)IDC的一項(xiàng)調(diào)查報(bào)告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。
非結(jié)構(gòu)化數(shù)據(jù)不可以通過(guò)鍵值獲取相應(yīng)信息。非結(jié)構(gòu)化一般指無(wú)法結(jié)構(gòu)化的數(shù)據(jù),例如圖片、文件、超媒體等典型信息,在互聯(lián)網(wǎng)上的信息內(nèi)容形式中占據(jù)了很大比例。隨著“互聯(lián)網(wǎng)+”戰(zhàn)略的實(shí)施,將會(huì)有越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生,據(jù)預(yù)測(cè),非結(jié)構(gòu)化數(shù)據(jù)將占據(jù)所有各種數(shù)據(jù)的70-80%以上。結(jié)構(gòu)化數(shù)據(jù)分析挖掘技術(shù)經(jīng)過(guò)多年的發(fā)展,已經(jīng)形成了相對(duì)比較成熟的技術(shù)體系。也正是由于非結(jié)構(gòu)化數(shù)據(jù)中沒(méi)有限定結(jié)構(gòu)形式,表示靈活,蘊(yùn)含了豐富的信息。因此,綜合看來(lái),在大數(shù)據(jù)分析挖掘中,掌握非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)是至關(guān)重要的。
其挑戰(zhàn)性問(wèn)題在于語(yǔ)言表達(dá)的靈活性和多樣性,具體的非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)包括:
(1)Web頁(yè)面信息內(nèi)容提?。?br>
(2)結(jié)構(gòu)化處理(含文文本的詞匯切分、詞性分析、歧義處理等);
(3)語(yǔ)義處理(含實(shí)體提取、詞匯相關(guān)度、句子相關(guān)度、篇章相關(guān)度、句法分析等)
(4)文本建模(含向量空間模型、主題模型等)
(5)隱私保護(hù)(含社交網(wǎng)絡(luò)的連接型數(shù)據(jù)處理、位置軌跡型數(shù)據(jù)處理等)
這些技術(shù)所涉及的技術(shù)較廣,在情感分類、客戶語(yǔ)音挖掘、法律文書分析等等許多領(lǐng)域都有廣泛的應(yīng)用價(jià)值。
二、大數(shù)據(jù)的特征
1.大數(shù)據(jù)的4V特點(diǎn)
“大數(shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫(kù)克耶在編寫《大數(shù)據(jù)時(shí)代》中提出,指不用隨機(jī)分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進(jìn)行分析處理。
大數(shù)據(jù)具有4V特點(diǎn),即Volume(大量)、Velocity(高速)、Variety(多樣)和Veracity(精確),其核心在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。
(1)數(shù)據(jù)體量巨大(volumes)
指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過(guò)1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。有資料證實(shí),到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB。
例如,IDC 最近的報(bào)告預(yù)測(cè)稱,到2020 年,全球數(shù)據(jù)量將擴(kuò)大50 倍。目前,大數(shù)據(jù)的規(guī)模尚是一個(gè)不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡(jiǎn)而言之,存儲(chǔ)1 PB數(shù)據(jù)將需要兩萬(wàn)臺(tái)配備50GB硬盤的個(gè)人電腦。此外,各種意想不到的來(lái)源都能產(chǎn)生數(shù)據(jù)。
在2003年,人類第一次破譯人體基因密碼時(shí),用了10年才完成了30億對(duì)堿基對(duì)的排序;而在10年之后,世界范圍內(nèi)的基因儀15分鐘就可以完成同樣的工作量。伴隨著各種隨身設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲(chǔ)等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄,數(shù)據(jù)因此被大量生產(chǎn)出來(lái)。
移動(dòng)互聯(lián)網(wǎng)的核心網(wǎng)絡(luò)節(jié)點(diǎn)是人,不再是網(wǎng)頁(yè),人人都成為數(shù)據(jù)制造者,短信、微博、照片、錄像都是其數(shù)據(jù)產(chǎn)品;數(shù)據(jù)來(lái)自無(wú)數(shù)自動(dòng)化傳感器、自動(dòng)記錄設(shè)施、生產(chǎn)監(jiān)測(cè)、環(huán)境監(jiān)測(cè)、交通監(jiān)測(cè)、安防監(jiān)測(cè)等;來(lái)自自動(dòng)流程記錄,刷卡機(jī)、收款機(jī)、電子不停車收費(fèi)系統(tǒng),互聯(lián)網(wǎng)點(diǎn)擊、電話撥號(hào)等設(shè)施以及各種辦事流程登記等。
(2)數(shù)據(jù)類別大和類型多樣(variety)
數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化。數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。
數(shù)據(jù)多樣性的增加主要是由于新型多結(jié)構(gòu)數(shù)據(jù),以及包括網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機(jī)通話記錄及傳感器網(wǎng)絡(luò)等數(shù)據(jù)類型造成。
大數(shù)據(jù)具有多層結(jié)構(gòu),這意味著大數(shù)據(jù)會(huì)呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),大數(shù)據(jù)存在不規(guī)則和模糊不清的特性,造成很難甚至無(wú)法使用傳統(tǒng)的應(yīng)用軟件進(jìn)行分析。傳統(tǒng)業(yè)務(wù)數(shù)據(jù)隨時(shí)間演變已擁有標(biāo)準(zhǔn)的格式,能夠被標(biāo)準(zhǔn)的商務(wù)智能軟件識(shí)別。目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復(fù)雜數(shù)據(jù)中挖掘價(jià)值。
多樣化的數(shù)據(jù)來(lái)源正是大數(shù)據(jù)的威力所在,例如交通狀況與其他領(lǐng)域的數(shù)據(jù)都存在較強(qiáng)的關(guān)聯(lián)性。大數(shù)據(jù)不僅是處理巨量數(shù)據(jù)的利器,更為處理不同來(lái)源、不同格式的多元化數(shù)據(jù)提供了可能。
(3)處理速度快(Velocity)
高速描述的是數(shù)據(jù)被創(chuàng)建和移動(dòng)的速度。在高速網(wǎng)絡(luò)時(shí)代,通過(guò)基于實(shí)現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器,創(chuàng)建實(shí)時(shí)數(shù)據(jù)流已成為流行趨勢(shì)。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實(shí)時(shí)需求。
在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。
在未來(lái),越來(lái)越多的數(shù)據(jù)挖掘趨于前端化,即提前感知預(yù)測(cè)并直接提供服務(wù)給所需要的對(duì)象,這也需要大數(shù)據(jù)具有迅速的處理速度。
(4)價(jià)值真實(shí)性(Value)高和密度低
數(shù)據(jù)真實(shí)性高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
數(shù)據(jù)的真實(shí)性和質(zhì)量是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ)。
2.大數(shù)據(jù)的3S或3I特點(diǎn)
3S指的是:大?。⊿ize)、速度(Speed)和結(jié)構(gòu)(Structure)。
3I指的是:
(1)、定義不明確的(Ill-de.ned):多個(gè)主流的大數(shù)據(jù)定義都強(qiáng)調(diào)了數(shù)據(jù)規(guī)模需要超過(guò)傳統(tǒng)方法處理數(shù)據(jù)的規(guī)模,而隨著技術(shù)的進(jìn)步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也會(huì)相應(yīng)不斷變大,因而并沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)。
(2)、令人生畏的(Intimidating):從管理大數(shù)據(jù)到使用正確的工具獲取它的價(jià)值,利用大數(shù)據(jù)的過(guò)程中充滿了各種挑戰(zhàn)。
(3)、即時(shí)的(Immediate):數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間快速衰減,因此為了保證大數(shù)據(jù)的可控性,需要縮短數(shù)據(jù)搜集到獲得數(shù)據(jù)洞察之間的時(shí)間,使得大數(shù)據(jù)成為真正的即時(shí)大數(shù)據(jù),這意味著能盡快地分析數(shù)據(jù)對(duì)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)至關(guān)重要。