大數(shù)據(jù)的核心在于新的大數(shù)據(jù)平臺。
大數(shù)據(jù)平臺hadoop 使得原來需要超級計算中心才能做的事情,現(xiàn)在在企業(yè),通過普通的集群也可以處理了。
大數(shù)據(jù)的核心理論-谷歌的三大論文
Google File System :分布式文件系統(tǒng)
原來的數(shù)據(jù)存儲有兩大問題:
1. 單個磁盤不夠大------->? 解決方法是:GFS 的解決是多個磁盤(DataNode)來存儲 -------> 新的問題:效率地下 -------> 新問題的解決辦法水平復(fù)制+按照塊存儲(hadoop1.x 一個塊 64M,hadoop2.x 一個塊是128M) -------> 新的問題:磁盤太慢 ------->新的解決方案:SPARK解決磁盤和內(nèi)存映射問題
2.數(shù)據(jù)不安全。磁盤損壞,壞道等。-------> 解決多級冗余備份,對于hadoop默認是三級備份,也就是一份數(shù)據(jù)默認在三個位置上存儲-------> 多個磁盤如何管理(NameNode)監(jiān)控和處理磁盤故障
BigTable 所有的數(shù)據(jù)存入一張表中間。
好處效率更高,壞處需要的存儲空間更大 -------> HDFS 存儲
MapReduce
解決大數(shù)據(jù)運算問題,Map 拆分計算,映射運算,reduce 規(guī)約匯總。
深度學(xué)習(xí)算法也就是改進了的神經(jīng)網(wǎng)絡(luò)。
以前的機器學(xué)習(xí)算法偏向與SVM等,不需要集群也能做出一點效果的,神經(jīng)網(wǎng)絡(luò)的算法很多時候不能做出好的效果,原因有二:其一是算法需要的計算即資源太多。其二數(shù)據(jù)一旦上規(guī)模之后,運算不出來。算法得到了改進,第二大數(shù)據(jù)的進步讓規(guī)模以上數(shù)據(jù)的計算成為可能。
未來的發(fā)展方向:
推理:類腦計算。
創(chuàng)造:方向尚不明了。