大家好,好久不見啦。我是李大仁。
近一年都在忙著PM skill社區(qū)運營工作, 每天要看很多優(yōu)秀產(chǎn)品作者的文章,受益匪淺。
《產(chǎn)品經(jīng)理的技術(shù)修養(yǎng)》一書斷更許久,這是續(xù)更的第一篇,首發(fā)于公眾號、同步于PM skill社區(qū)。
Jack
8.1 大數(shù)據(jù)和Hadoop家族
小奈:表哥,你知道么。昨天我同事更新簡歷,然后就被hr約談了。據(jù)說是有一種大數(shù)據(jù)簡歷監(jiān)控服務(wù),可以監(jiān)控到公司員工簡歷更新動態(tài)。
李大仁:沒錯的,是有這樣一家公司,不過這家大數(shù)據(jù)簡歷公司,已經(jīng)被警方端了,所有員工都被帶走。隨后,有部分員工被陸續(xù)放出。
該公司疑似在沒有獲得授權(quán)下抓取用戶簡歷。
之前創(chuàng)新工廠還投資過。號稱有上億簡歷。
****小奈****:大數(shù)據(jù)好可怕啊,我還能更新簡歷么?
李大仁:大數(shù)據(jù)并不可怕,而且大數(shù)據(jù)也不僅僅是你理解的那樣。
小奈:大數(shù)據(jù)究竟是什么?我想系統(tǒng)的了解下。
李大仁講故事模式:
之前也給你講過,在瀏覽器輸入url后的故事了。我們來回顧一下。
當(dāng)你在瀏覽器輸入url之后,網(wǎng)頁像商品一樣,從遠方服務(wù)器通過網(wǎng)絡(luò)管道傳輸回來,顯示在瀏覽器上。
這個便是早期的web網(wǎng)頁應(yīng)用。這里我們將web應(yīng)用比喻為商品,用戶則是村里購物的小李。早期的架構(gòu)就像是小作坊生產(chǎn)商品,再通過公路運輸。
后來隨著村里經(jīng)濟發(fā)展,大量像小李網(wǎng)絡(luò)購物的村民。商家小作坊模式已經(jīng)適應(yīng)不了。有一家叫谷歌的商家,提出了工廠聯(lián)合生產(chǎn)-統(tǒng)一裝配高速公路運輸?shù)哪J剑∕ap切割工作-reduce合并結(jié)果)。
商品分為好幾個部分,每個工廠就可以并行生產(chǎn)(分布式集群并行計算),然后統(tǒng)一裝配運輸。這種聯(lián)合模式工廠(Hadoop)大大提升了商品的生產(chǎn)效率。
這就是大數(shù)據(jù),簡單來說就是一種“分而治之”的哲學(xué)。
我是聯(lián)合模式工廠,我叫Hadoop:
作為一個大數(shù)據(jù)工廠的基礎(chǔ)設(shè)施,我分為兩部分。HDFS(Hadoop Distributed FileSystem )分布式文件系統(tǒng),這個是機身。另一部分是MapReduce(分布式計算模型),這個是引擎。
HDFS是HBase(高可用、大型機身),作為大數(shù)據(jù)工廠設(shè)施機身的開山鼻祖,在數(shù)據(jù)文件存儲這塊意義非凡。
Map-Reduce引擎的原理如下,通過切分計算工作,最后再聚合計算結(jié)果。
我是Hadoop,各個村子都用上我了,村里都擁有了大數(shù)據(jù)的能力和財富。那么多人用我,自然而然,我的家族也龐大起來,形成一個生態(tài)。
HBase:是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計的,這是一種分布式數(shù)據(jù)庫,利用HBase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。
Apache Zookeeper: 是一個為分布式應(yīng)用所設(shè)計的分布的、開源的協(xié)調(diào)服務(wù),它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,簡化分布式應(yīng)用協(xié)調(diào)及其管理的難度,提供高性能的分布式服務(wù)。
查看小程序或原文,與我一起深入了解hadoop家族
【產(chǎn)品經(jīng)理大咖秀】2019年第4期:深訪順豐云計算產(chǎn)品經(jīng)理
【產(chǎn)品經(jīng)理大咖秀】2019年第2期:啥是佩奇?
【產(chǎn)品經(jīng)理大咖秀】2019年第1期:數(shù)據(jù)產(chǎn)品經(jīng)理的價值