大數(shù)據(jù)的論文

大數(shù)據(jù)的核心在于新的大數(shù)據(jù)平臺。

大數(shù)據(jù)平臺hadoop 使得原來需要超級計算中心才能做的事情,現(xiàn)在在企業(yè),通過普通的集群也可以處理了。

大數(shù)據(jù)的核心理論-谷歌的三大論文

Google File System :分布式文件系統(tǒng)

原來的數(shù)據(jù)存儲有兩大問題:

1. 單個磁盤不夠大------->? 解決方法是:GFS 的解決是多個磁盤(DataNode)來存儲 -------> 新的問題:效率地下 -------> 新問題的解決辦法水平復(fù)制+按照塊存儲(hadoop1.x 一個塊 64M,hadoop2.x 一個塊是128M) -------> 新的問題:磁盤太慢 ------->新的解決方案:SPARK解決磁盤和內(nèi)存映射問題

2.數(shù)據(jù)不安全。磁盤損壞,壞道等。-------> 解決多級冗余備份,對于hadoop默認是三級備份,也就是一份數(shù)據(jù)默認在三個位置上存儲-------> 多個磁盤如何管理(NameNode)監(jiān)控和處理磁盤故障

BigTable 所有的數(shù)據(jù)存入一張表中間。

好處效率更高,壞處需要的存儲空間更大 -------> HDFS 存儲

MapReduce

解決大數(shù)據(jù)運算問題,Map 拆分計算,映射運算,reduce 規(guī)約匯總。

深度學(xué)習(xí)算法也就是改進了的神經(jīng)網(wǎng)絡(luò)。

以前的機器學(xué)習(xí)算法偏向與SVM等,不需要集群也能做出一點效果的,神經(jīng)網(wǎng)絡(luò)的算法很多時候不能做出好的效果,原因有二:其一是算法需要的計算即資源太多。其二數(shù)據(jù)一旦上規(guī)模之后,運算不出來。算法得到了改進,第二大數(shù)據(jù)的進步讓規(guī)模以上數(shù)據(jù)的計算成為可能。

未來的發(fā)展方向:

推理:類腦計算。

創(chuàng)造:方向尚不明了。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容