Apache Flink 是一個(gè)分布式處理引擎及框架,用以對(duì)無(wú)限數(shù)據(jù)和有限數(shù)據(jù)流做有狀態(tài)計(jì)算。Flink 被設(shè)計(jì)成在所有常見(jiàn)的集群環(huán)境中運(yùn)行,以內(nèi)存速度和任何規(guī)模執(zhí)行計(jì)算。
在這里,我們會(huì)解釋Flink 架構(gòu)的幾個(gè)重要方面。
處理有限/無(wú)限數(shù)據(jù)
任何類型的數(shù)據(jù),都被當(dāng)成事件流處理。信用卡交易、傳感器數(shù)據(jù)、機(jī)器日志、用戶與網(wǎng)站的交互數(shù)據(jù)以及手機(jī)應(yīng)用,所有這些數(shù)據(jù)都被生成為一個(gè)流。
數(shù)據(jù)可以被處理成有限數(shù)據(jù)流和無(wú)限數(shù)據(jù)流。
- 無(wú)限數(shù)據(jù)流:有開(kāi)始沒(méi)結(jié)束。他們一旦開(kāi)始就不會(huì)種植。無(wú)限數(shù)據(jù)流必須持續(xù)產(chǎn)生,一旦產(chǎn)生,就必須被即使處理。想要等所有數(shù)據(jù)都到達(dá)之后再處理是不可能的,此類數(shù)據(jù)不會(huì)在任何時(shí)間任何地點(diǎn)完成。處理無(wú)限數(shù)據(jù)流通常需要按照特定的順序(如事件發(fā)生的順序)接收事件,以便能夠推斷結(jié)果的完整性。
-
有限數(shù)據(jù)流:有始有終。有限數(shù)據(jù)流可以在獲取所有數(shù)據(jù)之后在著手處理,在獲取數(shù)據(jù)時(shí),也不要求按照某種順序,因?yàn)橛邢迶?shù)據(jù)集通常能夠被排序。有限數(shù)據(jù)流的處理也被稱為批處理。
Apache Flink擅長(zhǎng)處理無(wú)限和有限數(shù)據(jù)集
對(duì)時(shí)間和狀態(tài)的精確控制使Flink的運(yùn)行時(shí)能夠在無(wú)限數(shù)據(jù)流上運(yùn)行任何類型的應(yīng)用程序。有限流由專門為固定大小的數(shù)據(jù)集設(shè)計(jì)的算法和數(shù)據(jù)結(jié)構(gòu)進(jìn)行內(nèi)部處理,從而產(chǎn)生優(yōu)異的性能。
想要了解更多的話,請(qǐng)參考這些基于Flink 的用戶實(shí)例。
部署應(yīng)用:適配各種環(huán)境
Apache Flink 是一個(gè)分布式系統(tǒng),需要計(jì)算資源來(lái)執(zhí)行應(yīng)用。Flink 可以集成到任何常見(jiàn)的集群資源管理器中,如:Hadoop YARN、Apache Mesos 以及Kubernetes,同時(shí)也可以運(yùn)行為一個(gè)單獨(dú)的集群。
Flink 可以和前面提到的這些資源管理器很好的協(xié)作,這是通過(guò)一個(gè)被稱為"資源管理器部署模式"的設(shè)計(jì)來(lái)實(shí)現(xiàn)的,通過(guò)這個(gè)設(shè)計(jì),F(xiàn)link 可以適配各種資源管理器。
當(dāng)部署Flink 應(yīng)用時(shí),F(xiàn)link 會(huì)基于應(yīng)用的配置自動(dòng)識(shí)別所需要的資源,并從資源管理器中獲取。當(dāng)出現(xiàn)故障時(shí),F(xiàn)link 會(huì)請(qǐng)求新的資源并替換那些失敗了的容器。所有提交、控制應(yīng)用的請(qǐng)求都是通過(guò)REST調(diào)用。這大大簡(jiǎn)化了Flink 在很多場(chǎng)景下的集成工作。
運(yùn)行應(yīng)用:隨意變更規(guī)模
Flink 在設(shè)計(jì)上支持運(yùn)行任意規(guī)模的有狀態(tài)流應(yīng)用。應(yīng)用程序被并行化為數(shù)千個(gè)任務(wù),這些任務(wù)在集群中分布并并發(fā)執(zhí)行。因此,應(yīng)用程序可以利用幾乎無(wú)限量的CPU、主內(nèi)存、磁盤和網(wǎng)絡(luò)IO。而且,F(xiàn)link很容易維護(hù)非常大的應(yīng)用程序狀態(tài)。它的異步和增量檢查點(diǎn)算法確保對(duì)處理延遲的影響最小,同時(shí)保證一次狀態(tài)的一致性。
以下是用戶的使用心得,關(guān)于在正式環(huán)境運(yùn)行Flink 應(yīng)用程序的表現(xiàn):
- 應(yīng)用程序每天處理數(shù)萬(wàn)億事件
- 應(yīng)用程序維護(hù)TB量級(jí)的狀態(tài)
- 應(yīng)用程序在數(shù)千個(gè)CPU上運(yùn)行
利用內(nèi)存性能
有狀態(tài)的Flink 應(yīng)用程序針對(duì)本地狀態(tài)訪問(wèn)進(jìn)行了優(yōu)化。任務(wù)狀態(tài)通常保存在內(nèi)存中,或者,如果狀態(tài)大小超過(guò)可用內(nèi)存,則保存在訪問(wèn)效率較高的磁盤數(shù)據(jù)結(jié)構(gòu)上。因此,任務(wù)通過(guò)訪問(wèn)本地(通常在內(nèi)存中)的狀態(tài)執(zhí)行所有計(jì)算,從而產(chǎn)生非常低的處理延遲。Flink通過(guò)定期和異步地檢查本地狀態(tài)到持久存儲(chǔ),從而確保在發(fā)生故障時(shí)的狀態(tài)一致性。

