色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊(cè)寫文章

ZooKeeper簡(jiǎn)單概念及原理/應(yīng)用場(chǎng)景

時(shí)待吾

ZooKeeper簡(jiǎn)單概念及原理/應(yīng)用場(chǎng)景

一個(gè)真正的寫數(shù)據(jù)流程是怎么樣的？一個(gè)真正的讀數(shù)據(jù)流程是怎么樣的？一個(gè)真正的同步數(shù)據(jù)流程是怎么樣的？從哪里到哪里？什么時(shí)候開始進(jìn)行同步？同步點(diǎn)是什么？同步的數(shù)據(jù)有哪些？ZXID最大意味著什么？

1.ZooKeeper是什么？

ZooKeeper是一個(gè)分布式的，開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，是Google的Chubby一個(gè)開源的實(shí)現(xiàn)，它是集群的管理者，監(jiān)視著集群中各個(gè)節(jié)點(diǎn)的狀態(tài)根據(jù)節(jié)點(diǎn)提交的反饋進(jìn)行下一步合理操作。最終，將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶

2.ZooKeeper提供了什么？1)文件系統(tǒng)（持久化節(jié)點(diǎn)? 和? 臨時(shí)節(jié)點(diǎn)的使用可以方便進(jìn)行服務(wù)注冊(cè)和服務(wù)發(fā)現(xiàn)等集群管理? 以及順序編號(hào)可以方便實(shí)現(xiàn)分布式鎖（保持時(shí)序的）和分布式隊(duì)列（先進(jìn)先出）以及命名服務(wù)） 2)通知機(jī)制（監(jiān)聽機(jī)制可以實(shí)現(xiàn) 數(shù)據(jù)的發(fā)布與訂閱負(fù)載均衡以及配置管理）

3.Zookeeper文件系統(tǒng)：每個(gè)子目錄項(xiàng)如 NameService 都被稱作為znode，和文件系統(tǒng)一樣，我們能夠自由的增加、刪除znode，在一個(gè)znode下增加、刪除子znode，唯一的不同在于znode是可以存儲(chǔ)數(shù)據(jù)的。

有四種類型的znode：（臨時(shí)節(jié)點(diǎn)可以用來(lái)服務(wù)發(fā)現(xiàn) 服務(wù)注冊(cè)?? 順序編號(hào)可以用來(lái)實(shí)現(xiàn)保持時(shí)序的分布式鎖命名服務(wù)（分布式自增id）分布式隊(duì)列先進(jìn)先出）

1、PERSISTENT-持久化目錄節(jié)點(diǎn)：客戶端與zookeeper斷開連接后，該節(jié)點(diǎn)依舊存在

2、PERSISTENT_SEQUENTIAL-持久化順序編號(hào)目錄節(jié)點(diǎn)：客戶端與zookeeper斷開連接后，該節(jié)點(diǎn)依舊存在，只是Zookeeper給該節(jié)點(diǎn)名稱進(jìn)行順序編號(hào)

3、EPHEMERAL-臨時(shí)目錄節(jié)點(diǎn)：客戶端與zookeeper斷開連接后，該節(jié)點(diǎn)被刪除（node_0000000001）

4、EPHEMERAL_SEQUENTIAL-臨時(shí)順序編號(hào)目錄節(jié)點(diǎn)：客戶端與zookeeper斷開連接后，該節(jié)點(diǎn)被刪除，只是Zookeeper給該節(jié)點(diǎn)名稱進(jìn)行順序編號(hào)

4.Zookeeper通知機(jī)制：客戶端注冊(cè)監(jiān)聽它關(guān)心的目錄節(jié)點(diǎn)，當(dāng)目錄節(jié)點(diǎn)發(fā)生變化（數(shù)據(jù)改變、被刪除、子目錄節(jié)點(diǎn)增加刪除實(shí)現(xiàn)對(duì)應(yīng)接口時(shí)，調(diào)用對(duì)應(yīng)的函數(shù)實(shí)現(xiàn)--回調(diào)）時(shí)，zookeeper會(huì)通知客戶端。（zklient訂閱指定路徑的監(jiān)聽接口）

5.Zookeeper做了什么？：1.命名服務(wù)? ?2.配置管理? ?3.集群管理（服務(wù)發(fā)現(xiàn)和master選舉） ? 4.分布式鎖（獨(dú)占鎖和保持時(shí)序） 5.隊(duì)列管理 6 負(fù)載均衡

6.Zookeeper命名服務(wù)：在zookeeper的文件系統(tǒng)里創(chuàng)建一個(gè)目錄，即有唯一的path。在我們使用tborg無(wú)法確定上游程序的部署機(jī)器時(shí)即可與下游程序約定好path，通過(guò)path即能互相探索發(fā)現(xiàn)。（臨時(shí)節(jié)點(diǎn)順序編號(hào)）

7.Zookeeper的配置管理：程序總是需要配置的，如果程序分散部署在多臺(tái)機(jī)器上，要逐個(gè)改變配置就變得困難。現(xiàn)在把這些配置全部放到zookeeper上去，保存在 Zookeeper 的某個(gè)目錄節(jié)點(diǎn)中，然后所有相關(guān)應(yīng)用程序?qū)@個(gè)目錄節(jié)點(diǎn)進(jìn)行監(jiān)聽，一旦配置信息發(fā)生變化，每個(gè)應(yīng)用程序就會(huì)收到 Zookeeper 的通知，然后從 Zookeeper 獲取新的配置信息應(yīng)用到系統(tǒng)中就好。（監(jiān)聽機(jī)制 -- 回調(diào)實(shí)現(xiàn)）

8.Zookeeper集群管理：所謂集群管理無(wú)在乎兩點(diǎn)：是否有機(jī)器退出和加入（服務(wù)發(fā)現(xiàn)）、選舉master。

對(duì)于第一點(diǎn)，所有機(jī)器約定在父目錄GroupMembers下創(chuàng)建臨時(shí)目錄節(jié)點(diǎn)，然后監(jiān)聽父目錄節(jié)點(diǎn)的子節(jié)點(diǎn)變化消息。一旦有機(jī)器掛掉，該機(jī)器與 zookeeper的連接斷開，其所創(chuàng)建的臨時(shí)目錄節(jié)點(diǎn)被刪除，所有其他機(jī)器都收到通知：某個(gè)兄弟目錄被刪除，于是，所有人都知道：它上船了。（臨時(shí)節(jié)點(diǎn)和監(jiān)聽機(jī)制）

新機(jī)器加入也是類似，所有機(jī)器收到通知：新兄弟目錄加入，highcount又有了，對(duì)于第二點(diǎn)，我們稍微改變一下，所有機(jī)器創(chuàng)建臨時(shí)順序編號(hào)目錄節(jié)點(diǎn)，每次選取編號(hào)最小的機(jī)器作為master就好。

9.Zookeeper分布式鎖

有了zookeeper的一致性文件系統(tǒng)，鎖的問(wèn)題變得容易。鎖服務(wù)可以分為兩類，一個(gè)是保持獨(dú)占（監(jiān)聽機(jī)制），另一個(gè)是控制時(shí)序（順序編號(hào)和監(jiān)聽機(jī)制）。

對(duì)于第一類，我們將zookeeper上的一個(gè)znode看作是一把鎖，通過(guò)createznode的方式來(lái)實(shí)現(xiàn)。所有客戶端都去創(chuàng)建 /distribute_lock 節(jié)點(diǎn)，最終成功創(chuàng)建的那個(gè)客戶端也即擁有了這把鎖。用完刪除掉自己創(chuàng)建的distribute_lock 節(jié)點(diǎn)就釋放出鎖。

對(duì)于第二類， /distribute_lock 已經(jīng)預(yù)先存在，所有客戶端在它下面創(chuàng)建臨時(shí)順序編號(hào)目錄節(jié)點(diǎn)，和選master一樣，編號(hào)最小的獲得鎖，用完刪除，依次方便。

10.Zookeeper隊(duì)列管理

兩種類型的隊(duì)列：

1、同步隊(duì)列，當(dāng)一個(gè)隊(duì)列的成員都聚齊時(shí)，這個(gè)隊(duì)列才可用，否則一直等待所有成員到達(dá)。

2、隊(duì)列按照 FIFO 方式進(jìn)行入隊(duì)和出隊(duì)操作。

第一類，在約定目錄下創(chuàng)建臨時(shí)目錄節(jié)點(diǎn)，監(jiān)聽節(jié)點(diǎn)數(shù)目是否是我們要求的數(shù)目。

第二類，和分布式鎖服務(wù)中的控制時(shí)序場(chǎng)景基本原理一致，入列有編號(hào)，出列按編號(hào)。

11.分布式與數(shù)據(jù)復(fù)制

Zookeeper作為一個(gè)集群提供一致的數(shù)據(jù)服務(wù)，自然，它要在所有機(jī)器間做數(shù)據(jù)復(fù)制。數(shù)據(jù)復(fù)制的好處：

1、容錯(cuò)：一個(gè)節(jié)點(diǎn)出錯(cuò)，不致于讓整個(gè)系統(tǒng)停止工作，別的節(jié)點(diǎn)可以接管它的工作；

2、提高系統(tǒng)的擴(kuò)展能力 ：把負(fù)載分布到多個(gè)節(jié)點(diǎn)上，或者增加節(jié)點(diǎn)來(lái)提高系統(tǒng)的負(fù)載能力；

3、提高性能：讓客戶端本地訪問(wèn)就近的節(jié)點(diǎn)，提高用戶訪問(wèn)速度。

從客戶端讀寫訪問(wèn)的透明度來(lái)看，數(shù)據(jù)復(fù)制集群系統(tǒng)分下面兩種：

1、寫主(WriteMaster) ：對(duì)數(shù)據(jù)的修改提交給指定的節(jié)點(diǎn)。讀無(wú)此限制，可以讀取任何一個(gè)節(jié)點(diǎn)。這種情況下客戶端需要對(duì)讀與寫進(jìn)行區(qū)別，俗稱讀寫分離；

2、寫任意(Write Any)：對(duì)數(shù)據(jù)的修改可提交給任意的節(jié)點(diǎn)，跟讀一樣。這種情況下，客戶端對(duì)集群節(jié)點(diǎn)的角色與變化透明。

對(duì)zookeeper來(lái)說(shuō)，它采用的方式是寫任意。通過(guò)增加機(jī)器，它的讀吞吐能力和響應(yīng)能力擴(kuò)展性非常好，而寫，隨著機(jī)器的增多吞吐能力肯定下降（這也是它建立observer的原因），而響應(yīng)能力則取決于具體實(shí)現(xiàn)方式，是延遲復(fù)制保持最終一致性，還是立即復(fù)制快速響應(yīng)。

12.Zookeeper角色描述

領(lǐng)導(dǎo)者（Leader）：領(lǐng)導(dǎo)者負(fù)責(zé)進(jìn)行投票的發(fā)起和決議，更新系統(tǒng)狀態(tài)。

學(xué)習(xí)者（Learner）：

跟隨者（Follower）：follower用于接收客戶請(qǐng)求并向客戶端返回結(jié)果，在選主過(guò)程中參與投票。

觀察者（observer）：observer可以接收客戶端連接，將寫請(qǐng)求轉(zhuǎn)發(fā)給leader節(jié)點(diǎn)。但observer不參加投票過(guò)程，只同步leader的狀態(tài)。observer的目的是為了擴(kuò)展系統(tǒng)，提高讀取速度。

客戶端（client）：請(qǐng)求發(fā)起方

13.Zookeeper與客戶端

14.Zookeeper設(shè)計(jì)目的

1.最終一致性：client不論連接到哪個(gè)Server，展示給它都是同一個(gè)視圖，這是zookeeper最重要的性能。

2.可靠性：具有簡(jiǎn)單、健壯、良好的性能，如果消息被到一臺(tái)服務(wù)器接受，那么它將被所有的服務(wù)器接受。

3.實(shí)時(shí)性：Zookeeper保證客戶端將在一個(gè)時(shí)間間隔范圍內(nèi)獲得服務(wù)器的更新信息，或者服務(wù)器失效的信息。但由于網(wǎng)絡(luò)延時(shí)等原因，Zookeeper不能保證兩個(gè)客戶端能同時(shí)得到剛更新的數(shù)據(jù)，如果需要最新數(shù)據(jù)，應(yīng)該在讀數(shù)據(jù)之前調(diào)用sync()接口。

4.等待無(wú)關(guān)（wait-free）：慢的或者失效的client不得干預(yù)快速的client的請(qǐng)求，使得每個(gè)client都能有效的等待。

5.原子性：更新只能成功或者失敗，沒(méi)有中間狀態(tài)。

6.順序性：包括全局有序和偏序兩種：全局有序是指如果在一臺(tái)服務(wù)器上消息a在消息b前發(fā)布，則在所有Server上消息a都將在消息b前被發(fā)布；偏序是指如果一個(gè)消息b在消息a后被同一個(gè)發(fā)送者發(fā)布，a必將排在b前面。

15.Zookeeper工作原理

Zookeeper 的核心是原子廣播，這個(gè)機(jī)制保證了各個(gè)Server之間的同步。實(shí)現(xiàn)這個(gè)機(jī)制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式，它們分別是恢復(fù)模式（選主）和廣播模式（同步）。當(dāng)服務(wù)啟動(dòng)或者在領(lǐng)導(dǎo)者崩潰后，Zab就進(jìn)入了恢復(fù)模式，當(dāng)領(lǐng)導(dǎo)者被選舉出來(lái)，且大多數(shù)Server完成了和 leader的狀態(tài)同步以后，恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和Server具有相同的系統(tǒng)狀態(tài)。

為了保證事務(wù)的順序一致性，zookeeper采用了遞增的事務(wù)id號(hào)（zxid）來(lái)標(biāo)識(shí)事務(wù)。所有的提議（proposal）都在被提出的時(shí)候加上了zxid。實(shí)現(xiàn)中zxid是一個(gè)64位的數(shù)字，它高32位是epoch用來(lái)標(biāo)識(shí)leader關(guān)系是否改變，每次一個(gè)leader被選出來(lái)，它都會(huì)有一個(gè)新的epoch，標(biāo)識(shí)當(dāng)前屬于那個(gè)leader的統(tǒng)治時(shí)期。低32位用于遞增計(jì)數(shù)。

16.Zookeeper 下 Server工作狀態(tài)

每個(gè)Server在工作過(guò)程中有三種狀態(tài)：LOOKING：當(dāng)前Server不知道leader是誰(shuí)，正在搜尋；LEADING：當(dāng)前Server即為選舉出來(lái)的leader；FOLLOWING：leader已經(jīng)選舉出來(lái)，當(dāng)前Server與之同步

17.Zookeeper選主流程(basic paxos)（沒(méi)明白?。。。?/i>

當(dāng)leader崩潰或者leader失去大多數(shù)的follower，這時(shí)候zk進(jìn)入恢復(fù)模式，恢復(fù)模式需要重新選舉出一個(gè)新的leader，讓所有的Server都恢復(fù)到一個(gè)正確的狀態(tài)。Zk的選舉算法有兩種：一種是基于basic paxos實(shí)現(xiàn)的，另外一種是基于fast paxos算法實(shí)現(xiàn)的。系統(tǒng)默認(rèn)的選舉算法為fast paxos。

1.選舉線程由當(dāng)前Server發(fā)起選舉的線程擔(dān)任，其主要功能是對(duì)投票結(jié)果進(jìn)行統(tǒng)計(jì)，并選出推薦的Server；

2.選舉線程首先向所有Server發(fā)起一次詢問(wèn)(包括自己)；

3.選舉線程收到回復(fù)后，驗(yàn)證是否是自己發(fā)起的詢問(wèn)(驗(yàn)證zxid是否一致)，然后獲取對(duì)方的id(myid)，并存儲(chǔ)到當(dāng)前詢問(wèn)對(duì)象列表中，最后獲取對(duì)方提議的leader相關(guān)信息(id,zxid)，并將這些信息存儲(chǔ)到當(dāng)次選舉的投票記錄表中；

4.收到所有Server回復(fù)以后，就計(jì)算出zxid最大的那個(gè)Server（?? zxid最大意味著什么？），并將這個(gè)Server相關(guān)信息設(shè)置成下一次要投票的Server；

5.線程將當(dāng)前zxid最大的Server設(shè)置為當(dāng)前Server要推薦的Leader，如果此時(shí)獲勝的Server獲得n/2 + 1的Server票數(shù)，設(shè)置當(dāng)前推薦的leader為獲勝的Server，將根據(jù)獲勝的Server相關(guān)信息設(shè)置自己的狀態(tài)，否則，繼續(xù)這個(gè)過(guò)程，直到leader被選舉出來(lái)。通過(guò)流程分析我們可以得出：要使Leader獲得多數(shù)Server的支持，則Server總數(shù)必須是奇數(shù)2n+1，且存活的Server的數(shù)目不得少于n+1. 每個(gè)Server啟動(dòng)后都會(huì)重復(fù)以上流程。在恢復(fù)模式下，如果是剛從崩潰狀態(tài)恢復(fù)的或者剛啟動(dòng)的server還會(huì)從磁盤快照中恢復(fù)數(shù)據(jù)和會(huì)話信息，zk會(huì)記錄事務(wù)日志并定期進(jìn)行快照，方便在恢復(fù)時(shí)進(jìn)行狀態(tài)恢復(fù)。選主的具體流程圖所示：

18.Zookeeper選主流程（fast paxos）（沒(méi)明白?。。。?/i>

fast paxos流程是在選舉過(guò)程中，某Server首先向所有Server提議自己要成為leader，當(dāng)其它Server收到提議以后，解決epoch和 zxid的沖突，并接受對(duì)方的提議，然后向?qū)Ψ桨l(fā)送接受提議完成的消息，重復(fù)這個(gè)流程，最后一定能選舉出Leader。

19.Zookeeper同步流程（沒(méi)明白？）

數(shù)據(jù)同步是指：每臺(tái)Cilent機(jī)器都連接一個(gè)Follower或leader。當(dāng)Cilent上數(shù)據(jù)被修改后，其連接的Follower或leader上的Server會(huì)首先接收到，而leader會(huì)隨時(shí)檢測(cè)所有與的Follower上的Server如果有數(shù)據(jù)變化就將數(shù)據(jù)同步到其他Follower上，

hadoop2.0中使用zookeeper確保整個(gè)NameService中只有一個(gè)活躍的NameNode（會(huì)有多個(gè)代用的NameNode但處于代用狀態(tài)），當(dāng)一個(gè)nameNode 當(dāng)?shù)艋驎?huì)啟用其他的備用的NameNode。此外在Hbase集群中也會(huì)使用zookeeper來(lái)保證Hbase集群中只有一個(gè)HMaster，同時(shí)通過(guò)zookeeper將Hbase客戶端、RegionServer、Master三者聯(lián)系在一起。

選完Leader以后，zk就進(jìn)入狀態(tài)同步過(guò)程。

1. Leader等待server連接；

2 .Follower連接leader，將最大的zxid發(fā)送給leader；（最大的zxid意味著什么？）

3 .Leader根據(jù)follower的zxid確定同步點(diǎn)；（同步點(diǎn)意味著什么？）

4 .完成同步后通知follower 已經(jīng)成為uptodate狀態(tài)；（到底是誰(shuí)完成同步？）

5 .Follower收到uptodate消息后，又可以重新接受client的請(qǐng)求進(jìn)行服務(wù)了。

20.Zookeeper工作流程-Leader --

1 .恢復(fù)數(shù)據(jù)；（恢復(fù)什么數(shù)據(jù)？怎么恢復(fù)？）

2 .維持與Learner的心跳（ping消息），接收Learner請(qǐng)求（寫請(qǐng)求和同步請(qǐng)求? ）并判斷Learner的請(qǐng)求消息類型；

3 .Learner的消息類型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息，根據(jù)不同的消息類型，進(jìn)行不同的處理。

PING 消息是指Learner的心跳信息；

REQUEST消息是Follower發(fā)送的提議信息，包括寫請(qǐng)求及同步請(qǐng)求；

ACK消息是 Follower的對(duì)提議的回復(fù)，超過(guò)半數(shù)的Follower通過(guò)，則commit該提議；

REVALIDATE消息是用來(lái)延長(zhǎng)SESSION有效時(shí)間。

21.Zookeeper工作流程-Follower

Follower主要有四個(gè)功能：

1.向Leader發(fā)送請(qǐng)求（PING消息、REQUEST消息、ACK消息、REVALIDATE消息）；

2.接收Leader消息并進(jìn)行處理；

3.接收Client的請(qǐng)求，如果為寫請(qǐng)求，發(fā)送給Leader進(jìn)行投票；（為什么要進(jìn)行投票？）

4.返回Client結(jié)果。

Follower的消息循環(huán)處理如下幾種來(lái)自Leader的消息：

1 .PING消息：心跳消息；

2 .PROPOSAL消息：Leader發(fā)起的提案，要求Follower投票；

3 .COMMIT消息：服務(wù)器端最新一次提案的信息；

4 .UPTODATE消息：表明同步完成；

5 .REVALIDATE消息：根據(jù)Leader的REVALIDATE結(jié)果，關(guān)閉待revalidate的session還是允許其接受消息；

6 .SYNC消息：返回SYNC結(jié)果到客戶端，這個(gè)消息最初由客戶端發(fā)起，用來(lái)強(qiáng)制得到最新的更新。

2、Zookeeper 的讀寫機(jī)制

Zookeeper是一個(gè)由多個(gè)server組成的集群；一個(gè)leader，多個(gè)follower；每個(gè)server保存一份數(shù)據(jù)副本；全局?jǐn)?shù)據(jù)一致；分布式讀寫；更新請(qǐng)求轉(zhuǎn)發(fā)，由leader實(shí)施

3、Zookeeper 的保證

?更新請(qǐng)求順序進(jìn)行，來(lái)自同一個(gè)client的更新請(qǐng)求按其發(fā)送順序依次執(zhí)行（ZXID保證）；數(shù)據(jù)更新原子性，一次數(shù)據(jù)更新要么成功，要么失?。蝗治ㄒ粩?shù)據(jù)視圖，client無(wú)論連接到哪個(gè)server，數(shù)據(jù)視圖都是一致的（全局一致性）；實(shí)時(shí)性，在一定事件范圍內(nèi)，client能讀到最新數(shù)據(jù)

4、Zookeeper節(jié)點(diǎn)寫數(shù)據(jù)操作流程

注：1.在Client向Follwer發(fā)出一個(gè)寫的請(qǐng)求 -> 2.Follwer把請(qǐng)求發(fā)送給Leader -> 3.Leader接收到以后開始發(fā)起投票并通知Follwer進(jìn)行投票 -> 4.Follwer把投票結(jié)果發(fā)送給Leader -> 5.Leader將結(jié)果匯總后如果需要寫入，則開始寫入同時(shí)把寫入操作通知給Leader，然后commit; -> 6.Follwer把請(qǐng)求結(jié)果返回給Client

5、Zookeeper leader 選舉

? 半數(shù)通過(guò)

– 3臺(tái)機(jī)器掛一臺(tái) 2>3/2

– 4臺(tái)機(jī)器掛2臺(tái) 2！>4/2

? A提案說(shuō)，我要選自己，B你同意嗎？C你同意嗎？B說(shuō)，我同意選A；C說(shuō)，我同意選A。(注意，這里超過(guò)半數(shù)了，其實(shí)在現(xiàn)實(shí)世界選舉已經(jīng)成功了。

但是計(jì)算機(jī)世界是很嚴(yán)格，另外要理解算法，要繼續(xù)模擬下去。)

? 接著B提案說(shuō)，我要選自己，A你同意嗎；A說(shuō)，我已經(jīng)超半數(shù)同意當(dāng)選，你的提案無(wú)效；C說(shuō)，A已經(jīng)超半數(shù)同意當(dāng)選，B提案無(wú)效。

? 接著C提案說(shuō)，我要選自己，A你同意嗎；A說(shuō)，我已經(jīng)超半數(shù)同意當(dāng)選，你的提案無(wú)效；B說(shuō)，A已經(jīng)超半數(shù)同意當(dāng)選，C的提案無(wú)效。

? 選舉已經(jīng)產(chǎn)生了Leader，后面的都是follower，只能服從Leader的命令。而且這里還有個(gè)小細(xì)節(jié)，就是其實(shí)誰(shuí)先啟動(dòng)誰(shuí)當(dāng)頭。

6、zxid

? znode節(jié)點(diǎn)的狀態(tài)信息中包含czxid, 那么什么是zxid呢?

? ZooKeeper狀態(tài)的每一次改變, 都對(duì)應(yīng)著一個(gè)遞增的Transaction id, 該id稱為zxid. 由于zxid的遞增性質(zhì), 如果zxid1小于zxid2, 那么zxid1肯定先于zxid2發(fā)生.

創(chuàng)建任意節(jié)點(diǎn), 或者更新任意節(jié)點(diǎn)的數(shù)據(jù), 或者刪除任意節(jié)點(diǎn), 都會(huì)導(dǎo)致Zookeeper狀態(tài)發(fā)生改變, 從而導(dǎo)致zxid的值增加.

7、Zookeeper工作原理

? Zookeeper的核心是原子廣播，這個(gè)機(jī)制保證了各個(gè)server之間的同步。實(shí)現(xiàn)這個(gè)機(jī)制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式，它們分別是恢復(fù)模式和廣播模式。當(dāng)服務(wù)啟動(dòng)或者在領(lǐng)導(dǎo)者崩潰后，Zab就進(jìn)入了恢復(fù)模式，當(dāng)領(lǐng)導(dǎo)者被選舉出來(lái)，且大多數(shù)server的完成了和leader的狀態(tài)同步以后，恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和server具有相同的系統(tǒng)狀態(tài)(什么狀態(tài)？)

? 一旦leader已經(jīng)和多數(shù)的follower進(jìn)行了狀態(tài)同步后，他就可以開始廣播消息了，即進(jìn)入廣播狀態(tài)。這時(shí)候當(dāng)一個(gè)server加入zookeeper服務(wù)中，它會(huì)在恢復(fù)模式下啟動(dòng)，發(fā)現(xiàn)leader，并和leader進(jìn)行狀態(tài)同步。待到同步結(jié)束，它也參與消息廣播。Zookeeper服務(wù)一直維持在Broadcast狀態(tài)，直到leader崩潰了或者leader失去了大部分的followers支持。

? 廣播模式需要保證proposal被按順序處理，因此zk采用了遞增的事務(wù)id號(hào)(zxid)來(lái)保證。所有的提議(proposal)都在被提出的時(shí)候加上了zxid。實(shí)現(xiàn)中zxid是一個(gè)64為的數(shù)字，它高32位是epoch用來(lái)標(biāo)識(shí)leader關(guān)系是否改變，每次一個(gè)leader被選出來(lái)，它都會(huì)有一個(gè)新的epoch。低32位是個(gè)遞增計(jì)數(shù)。

? 當(dāng)leader崩潰或者leader失去大多數(shù)的follower，這時(shí)候zk進(jìn)入恢復(fù)模式，恢復(fù)模式需要重新選舉出一個(gè)新的leader，讓所有的server都恢復(fù)到一個(gè)正確的狀態(tài)。

? 每個(gè)Server啟動(dòng)以后都詢問(wèn)其它的Server它要投票給誰(shuí)。對(duì)于其他server的詢問(wèn)，server每次根據(jù)自己的狀態(tài)都回復(fù)自己推薦的leader的id和上一次處理事務(wù)的zxid（系統(tǒng)啟動(dòng)時(shí)每個(gè)server都會(huì)推薦自己）收到所有Server回復(fù)以后，就計(jì)算出zxid最大的哪個(gè)Server，并將這個(gè)Server相關(guān)信息設(shè)置成下一次要投票的Server。計(jì)算這過(guò)程中獲得票數(shù)最多的的sever為獲勝者，如果獲勝者的票數(shù)超過(guò)半數(shù)，則改server被選為leader。否則，繼續(xù)這個(gè)過(guò)程，直到leader被選舉出來(lái)。

? leader就會(huì)開始等待其他server連接；Follower連接leader，將最大的zxid發(fā)送給leader；Leader根據(jù)follower的zxid確定同步點(diǎn)（同步點(diǎn)在哪?）；完成同步后通知follower 已經(jīng)成為uptodate狀態(tài)；Follower收到uptodate消息后，又可以重新接受client的請(qǐng)求進(jìn)行服務(wù)了

8、數(shù)據(jù)一致性與paxos 算法

? 據(jù)說(shuō)Paxos算法的難理解與算法的知名度一樣令人敬仰，所以我們先看如何保持?jǐn)?shù)據(jù)的一致性，這里有個(gè)原則就是：

? 在一個(gè)分布式數(shù)據(jù)庫(kù)系統(tǒng)中，如果各節(jié)點(diǎn)的初始狀態(tài)一致，每個(gè)節(jié)點(diǎn)都執(zhí)行相同的操作序列，那么他們最后能得到一個(gè)一致的狀態(tài)。

? Paxos算法解決的什么問(wèn)題呢，解決的就是保證每個(gè)節(jié)點(diǎn)執(zhí)行相同的操作序列。好吧，這還不簡(jiǎn)單，master維護(hù)一個(gè)全局寫隊(duì)列，所有寫操作都必須放入這個(gè)隊(duì)列編號(hào)，那么無(wú)論我們寫多少個(gè)節(jié)點(diǎn)，只要寫操作是按編號(hào)來(lái)的，就能保證一致性。沒(méi)錯(cuò)，就是這樣，可是如果master掛了呢。

? Paxos算法通過(guò)投票來(lái)對(duì)寫操作進(jìn)行全局編號(hào)，同一時(shí)刻，只有一個(gè)寫操作被批準(zhǔn)，同時(shí)并發(fā)的寫操作要去爭(zhēng)取選票，只有獲得過(guò)半數(shù)選票的寫操作才會(huì)被批準(zhǔn)（所以永遠(yuǎn)只會(huì)有一個(gè)寫操作得到批準(zhǔn)），其他的寫操作競(jìng)爭(zhēng)失敗只好再發(fā)起一輪投票，就這樣，在日復(fù)一日年復(fù)一年的投票中，所有寫操作都被嚴(yán)格編號(hào)排序。編號(hào)嚴(yán)格遞增，當(dāng)一個(gè)節(jié)點(diǎn)接受了一個(gè)編號(hào)為100的寫操作，之后又接受到編號(hào)為99的寫操作（因?yàn)榫W(wǎng)絡(luò)延遲等很多不可預(yù)見原因），它馬上能意識(shí)到自己數(shù)據(jù)不一致了，自動(dòng)停止對(duì)外服務(wù)并重啟同步過(guò)程。任何一個(gè)節(jié)點(diǎn)掛掉都不會(huì)影響整個(gè)集群的數(shù)據(jù)一致性（總2n+1臺(tái)，除非掛掉大于n臺(tái)）。

總結(jié):? Zookeeper 作為 Hadoop 項(xiàng)目中的一個(gè)子項(xiàng)目，是 Hadoop 集群管理的一個(gè)必不可少的模塊，它主要用來(lái)控制集群中的數(shù)據(jù)，如它管理 Hadoop 集群中的 NameNode，還有 Hbase 中 Master Election、Server 之間狀態(tài)同步等。\

9、Observer

?Zookeeper需保證高可用和強(qiáng)一致性； 為了支持更多的客戶端，需要增加更多Server； Server增多，投票階段延遲增大，影響性能；權(quán)衡伸縮性和高吞吐率，引入Observer; Observer不參與投票； Observers接受客戶端的連接，并將寫請(qǐng)求轉(zhuǎn)發(fā)給leader節(jié)點(diǎn)；加入更多Observer節(jié)點(diǎn)，提高伸縮性，同時(shí)不影響吞吐率

10、?為什么zookeeper集群的數(shù)目，一般為奇數(shù)個(gè)？

?Leader選舉算法采用了Paxos協(xié)議；

?Paxos核心思想：當(dāng)多數(shù)Server寫成功，則任務(wù)數(shù)據(jù)寫成功如果有3個(gè)Server，則兩個(gè)寫成功即可；如果有4或5個(gè)Server，則三個(gè)寫成功即可。?Server數(shù)目一般為奇數(shù)（3、5、7）如果有3個(gè)Server，則最多允許1個(gè)Server掛掉；如果有4個(gè)Server，則同樣最多允許1個(gè)Server掛掉由此，我們看出3臺(tái)服務(wù)器和4臺(tái)服務(wù)器的的容災(zāi)能力是一樣的，所以為了節(jié)省服務(wù)器資源，一般我們采用奇數(shù)個(gè)數(shù)，作為服務(wù)器部署個(gè)數(shù)。

11、Zookeeper 的數(shù)據(jù)模型

? 層次化的目錄結(jié)構(gòu)，命名符合常規(guī)文件系統(tǒng)規(guī)范 ? 每個(gè)節(jié)點(diǎn)在zookeeper中叫做znode,并且其有一個(gè)唯一的路徑標(biāo)識(shí) ? 節(jié)點(diǎn)Znode可以包含數(shù)據(jù)和子節(jié)點(diǎn)，但是EPHEMERAL類型的節(jié)點(diǎn)不能有子節(jié)點(diǎn) ? Znode中的數(shù)據(jù)可以有多個(gè)版本，比如某一個(gè)路徑下存有多個(gè)數(shù)據(jù)版本，那么查詢這個(gè)路徑下的數(shù)據(jù)就需要帶上版本 ? 客戶端應(yīng)用可以在節(jié)點(diǎn)上設(shè)置監(jiān)視器 ? 節(jié)點(diǎn)不支持部分讀寫，而是一次性完整讀寫

12、Zookeeper 的節(jié)點(diǎn)

? Znode有兩種類型，短暫的（ephemeral）和持久的（persistent）

? Znode的類型在創(chuàng)建時(shí)確定并且之后不能再修改

? 短暫znode的客戶端會(huì)話結(jié)束時(shí)，zookeeper會(huì)將該短暫znode刪除，短暫znode不可以有子節(jié)點(diǎn)

? 持久znode不依賴于客戶端會(huì)話，只有當(dāng)客戶端明確要?jiǎng)h除該持久znode時(shí)才會(huì)被刪除

? Znode有四種形式的目錄節(jié)點(diǎn)

? PERSISTENT（持久的）

? EPHEMERAL(暫時(shí)的)

? PERSISTENT_SEQUENTIAL（持久化順序編號(hào)目錄節(jié)點(diǎn)）

? EPHEMERAL_SEQUENTIAL（暫時(shí)化順序編號(hào)目錄節(jié)點(diǎn)）

Zookeeper 監(jiān)視（Watches）簡(jiǎn)介

Zookeeper C API 的聲明和描述在 include/zookeeper.h 中可以找到，另外大部分的 Zookeeper C API 常量、結(jié)構(gòu)體聲明也在 zookeeper.h 中，如果如果你在使用 C API 是遇到不明白的地方，最好看看 zookeeper.h，或者自己使用 doxygen 生成 Zookeeper C API 的幫助文檔。

Zookeeper 中最有特色且最不容易理解的是監(jiān)視(Watches)。Zookeeper 所有的讀操作——getData(),getChildren(), 和exists()都可以設(shè)置監(jiān)視(watch)，監(jiān)視事件可以理解為一次性的觸發(fā)器，官方定義如下： a watch event is one-time trigger, sent to the client that set the watch, which occurs when the data for which the watch was set changes。對(duì)此需要作出如下理解：

（一次性觸發(fā)）One-time trigger

當(dāng)設(shè)置監(jiān)視的數(shù)據(jù)發(fā)生改變時(shí)，該監(jiān)視事件會(huì)被發(fā)送到客戶端，例如，如果客戶端調(diào)用了 getData("/znode1", true) 并且稍后 /znode1 節(jié)點(diǎn)上的數(shù)據(jù)發(fā)生了改變或者被刪除了，客戶端將會(huì)獲取到/znode1 發(fā)生變化的監(jiān)視事件，而如果 /znode1 再一次發(fā)生了變化，除非客戶端再次對(duì) /znode1設(shè)置監(jiān)視，否則客戶端不會(huì)收到事件通知。

（發(fā)送至客戶端）Sent to the client

Zookeeper 客戶端和服務(wù)端是通過(guò) socket 進(jìn)行通信的，由于網(wǎng)絡(luò)存在故障，所以監(jiān)視事件很有可能不會(huì)成功地到達(dá)客戶端，監(jiān)視事件是異步發(fā)送至監(jiān)視者的，Zookeeper 本身提供了保序性(ordering guarantee)：即客戶端只有首先看到了監(jiān)視事件后，才會(huì)感知到它所設(shè)置監(jiān)視的 znode 發(fā)生了變化(a client will never see a change for which it has set a watch until it first sees the watch event). 網(wǎng)絡(luò)延遲或者其他因素可能導(dǎo)致不同的客戶端在不同的時(shí)刻感知某一監(jiān)視事件，但是不同的客戶端所看到的一切具有一致的順序。

（被設(shè)置 watch 的數(shù)據(jù)）The data for which the watch was set

這意味著znode 節(jié)點(diǎn)本身具有不同的改變方式。你也可以想象 Zookeeper 維護(hù)了兩條監(jiān)視鏈表：數(shù)據(jù)監(jiān)視和子節(jié)點(diǎn)監(jiān)視(data watches and child watches) getData() and exists() 設(shè)置數(shù)據(jù)監(jiān)視，getChildren() 設(shè)置子節(jié)點(diǎn)監(jiān)視?；蛘?，你也可以想象 Zookeeper 設(shè)置的不同監(jiān)視返回不同的數(shù)據(jù)，getData() 和 exists() 返回 znode節(jié)點(diǎn)的相關(guān)信息，而 getChildren() 返回子節(jié)點(diǎn)列表。因此， setData()會(huì)觸發(fā)設(shè)置在某一節(jié)點(diǎn)上所設(shè)置的數(shù)據(jù)監(jiān)視(假定數(shù)據(jù)設(shè)置成功)，而一次成功的 create()操作則會(huì)出發(fā)當(dāng)前節(jié)點(diǎn)上所設(shè)置的數(shù)據(jù)監(jiān)視以及父節(jié)點(diǎn)的子節(jié)點(diǎn)監(jiān)視。一次成功的 delete()操作將會(huì)觸發(fā)當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)監(jiān)視和子節(jié)點(diǎn)監(jiān)視事件，同時(shí)也會(huì)觸發(fā)該節(jié)點(diǎn)父節(jié)點(diǎn)的child watch。

Zookeeper中的監(jiān)視是輕量級(jí)的，因此容易設(shè)置、維護(hù)和分發(fā)。當(dāng)客戶端與 Zookeeper服務(wù)器端失去聯(lián)系時(shí)，客戶端并不會(huì)收到監(jiān)視事件的通知，只有當(dāng)客戶端重新連接后，若在必要的情況下，以前注冊(cè)的監(jiān)視會(huì)重新被注冊(cè)并觸發(fā)，對(duì)于開發(fā)人員來(lái)說(shuō)這通常是透明的。只有一種情況會(huì)導(dǎo)致監(jiān)視事件的丟失，即：通過(guò) exists() 設(shè)置了某個(gè) znode 節(jié)點(diǎn)的監(jiān)視，但是如果某個(gè)客戶端在此znode 節(jié)點(diǎn)被創(chuàng)建和刪除的時(shí)間間隔內(nèi)與 zookeeper 服務(wù)器失去了聯(lián)系，該客戶端即使稍后重新連接zookeeper服務(wù)器后也得不到事件通知。

Watch事件類型：

ZOO_CREATED_EVENT：節(jié)點(diǎn)創(chuàng)建事件，需要watch一個(gè)不存在的節(jié)點(diǎn)，當(dāng)節(jié)點(diǎn)被創(chuàng)建時(shí)觸發(fā)，此watch通過(guò)zoo_exists()設(shè)置

ZOO_DELETED_EVENT：節(jié)點(diǎn)刪除事件，此watch通過(guò)zoo_exists()或zoo_get()設(shè)置

ZOO_CHANGED_EVENT：節(jié)點(diǎn)數(shù)據(jù)改變事件，此watch通過(guò)zoo_exists()或zoo_get()設(shè)置

ZOO_CHILD_EVENT：子節(jié)點(diǎn)列表改變事件，此watch通過(guò)zoo_get_children()或zoo_get_children2()設(shè)置

ZOO_SESSION_EVENT：會(huì)話失效事件，客戶端與服務(wù)端斷開或重連時(shí)觸發(fā)

ZOO_NOTWATCHING_EVENT：watch移除事件，服務(wù)端出于某些原因不再為客戶端watch節(jié)點(diǎn)時(shí)觸發(fā)

最后編輯于：2017.12.08 05:34:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

Zookeeper系列（一） Zookeeper的原理學(xué)習(xí)
一、ZooKeeper的背景 1.1 認(rèn)識(shí)ZooKeeper ZooKeeper---譯名為“動(dòng)物園管理員”。動(dòng)物...
algernoon閱讀 9,327評(píng)論 1贊 106
zookeeper原理（轉(zhuǎn)）
ZooKeeper是一個(gè)分布式的，開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，它包含一個(gè)簡(jiǎn)單的原語(yǔ)集，分布式應(yīng)用程序可以基于...
Prize閱讀 310評(píng)論 0贊 1

Zookeeper基本原理
簡(jiǎn)介 ZooKeeper是一個(gè)開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，它包含一個(gè)簡(jiǎn)單的原語(yǔ)集，分布式應(yīng)用程序可以基于它實(shí)...
jiangmo閱讀 876評(píng)論 0贊 2
zookeeper原理（轉(zhuǎn)）
ZooKeeper是一個(gè)分布式的，開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，它包含一個(gè)簡(jiǎn)單的原語(yǔ)集，分布式應(yīng)用程序可以基于...
caryr閱讀 395評(píng)論 0贊 0
當(dāng)你決定為夢(mèng)想出發(fā)，就該提前明白這是漫長(zhǎng)而孤獨(dú)的征途
文/靜顏這是一個(gè)說(shuō)起夢(mèng)想會(huì)被人問(wèn)你瘋...
是靜顏呀閱讀 972評(píng)論 8贊 11

友情鏈接更多精彩內(nèi)容

14贊15贊

贊賞

手機(jī)看全文

感谢您访问我们的网站，您可能还对以下资源感兴趣：
色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

紫金县| 通许县| 独山县| 江北区| 昌黎县| 荣成市| 宝丰县| 彩票| 长沙县| 循化| 肥东县| 无棣县| 贵定县| 望谟县| 安庆市| 安康市| 台南市| 兴国县| 石阡县| 洛川县| 安溪县| 钟祥市| 广宗县| 十堰市| 双流县| 庄河市| 河东区| 新乡市| 余干县| 鸡西市| 佛冈县| 乌拉特前旗| 内江市| 滁州市| 鹿泉市| 民和| 南城县| 达尔| 扬中市| 辰溪县| 汪清县|