一個(gè)真正的寫數(shù)據(jù)流程是怎么樣的?一個(gè)真正的讀數(shù)據(jù)流程是怎么樣的?一個(gè)真正的同步數(shù)據(jù)流程是怎么樣的?從哪里到哪里?什么時(shí)候開始進(jìn)行同步?同步點(diǎn)是什么?同步的數(shù)據(jù)有哪些?ZXID最大意味著什么?
1.ZooKeeper是什么?
ZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn),它是集群的管理者,監(jiān)視著集群中各個(gè)節(jié)點(diǎn)的狀態(tài)根據(jù)節(jié)點(diǎn)提交的反饋進(jìn)行下一步合理操作。最終,將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶
2.ZooKeeper提供了什么?1)文件系統(tǒng)(持久化節(jié)點(diǎn)? 和? 臨時(shí)節(jié)點(diǎn)的使用可以方便進(jìn)行服務(wù)注冊(cè)和服務(wù)發(fā)現(xiàn)等集群管理? 以及順序編號(hào)可以方便實(shí)現(xiàn)分布式鎖(保持時(shí)序的)和分布式隊(duì)列(先進(jìn)先出)以及命名服務(wù)) 2)通知機(jī)制(監(jiān)聽機(jī)制可以實(shí)現(xiàn) 數(shù)據(jù)的發(fā)布與訂閱 負(fù)載均衡 以及配置管理)
3.Zookeeper文件系統(tǒng):每個(gè)子目錄項(xiàng)如 NameService 都被稱作為znode,和文件系統(tǒng)一樣,我們能夠自由的增加、刪除znode,在一個(gè)znode下增加、刪除子znode,唯一的不同在于znode是可以存儲(chǔ)數(shù)據(jù)的。
有四種類型的znode:(臨時(shí)節(jié)點(diǎn)可以用來(lái)服務(wù)發(fā)現(xiàn) 服務(wù)注冊(cè)?? 順序編號(hào)可以用來(lái)實(shí)現(xiàn)保持時(shí)序的分布式鎖 命名服務(wù)(分布式自增id)分布式隊(duì)列先進(jìn)先出 )
1、PERSISTENT-持久化目錄節(jié)點(diǎn):客戶端與zookeeper斷開連接后,該節(jié)點(diǎn)依舊存在
2、PERSISTENT_SEQUENTIAL-持久化順序編號(hào)目錄節(jié)點(diǎn):客戶端與zookeeper斷開連接后,該節(jié)點(diǎn)依舊存在,只是Zookeeper給該節(jié)點(diǎn)名稱進(jìn)行順序編號(hào)
3、EPHEMERAL-臨時(shí)目錄節(jié)點(diǎn):客戶端與zookeeper斷開連接后,該節(jié)點(diǎn)被刪除(node_0000000001)
4、EPHEMERAL_SEQUENTIAL-臨時(shí)順序編號(hào)目錄節(jié)點(diǎn):客戶端與zookeeper斷開連接后,該節(jié)點(diǎn)被刪除,只是Zookeeper給該節(jié)點(diǎn)名稱進(jìn)行順序編號(hào)

4.Zookeeper通知機(jī)制:客戶端注冊(cè)監(jiān)聽它關(guān)心的目錄節(jié)點(diǎn),當(dāng)目錄節(jié)點(diǎn)發(fā)生變化(數(shù)據(jù)改變、被刪除、子目錄節(jié)點(diǎn)增加刪除 實(shí)現(xiàn)對(duì)應(yīng)接口時(shí),調(diào)用對(duì)應(yīng)的函數(shù)實(shí)現(xiàn)--回調(diào))時(shí),zookeeper會(huì)通知客戶端。(zklient訂閱 指定路徑的監(jiān)聽接口)
5.Zookeeper做了什么?:1.命名服務(wù)? ?2.配置管理? ?3.集群管理(服務(wù)發(fā)現(xiàn)和master選舉) ? 4.分布式鎖 (獨(dú)占鎖和保持時(shí)序) 5.隊(duì)列管理 6 負(fù)載均衡
6.Zookeeper命名服務(wù):在zookeeper的文件系統(tǒng)里創(chuàng)建一個(gè)目錄,即有唯一的path。在我們使用tborg無(wú)法確定上游程序的部署機(jī)器時(shí)即可與下游程序約定好path,通過(guò)path即能互相探索發(fā)現(xiàn)。(臨時(shí)節(jié)點(diǎn)順序編號(hào))
7.Zookeeper的配置管理:程序總是需要配置的,如果程序分散部署在多臺(tái)機(jī)器上,要逐個(gè)改變配置就變得困難。現(xiàn)在把這些配置全部放到zookeeper上去,保存在 Zookeeper 的某個(gè)目錄節(jié)點(diǎn)中,然后所有相關(guān)應(yīng)用程序?qū)@個(gè)目錄節(jié)點(diǎn)進(jìn)行監(jiān)聽,一旦配置信息發(fā)生變化,每個(gè)應(yīng)用程序就會(huì)收到 Zookeeper 的通知,然后從 Zookeeper 獲取新的配置信息應(yīng)用到系統(tǒng)中就好。(監(jiān)聽機(jī)制 -- 回調(diào)實(shí)現(xiàn))

8.Zookeeper集群管理:所謂集群管理無(wú)在乎兩點(diǎn):是否有機(jī)器退出和加入(服務(wù)發(fā)現(xiàn))、選舉master。
對(duì)于第一點(diǎn),所有機(jī)器約定在父目錄GroupMembers下創(chuàng)建臨時(shí)目錄節(jié)點(diǎn),然后監(jiān)聽父目錄節(jié)點(diǎn)的子節(jié)點(diǎn)變化消息。一旦有機(jī)器掛掉,該機(jī)器與 zookeeper的連接斷開,其所創(chuàng)建的臨時(shí)目錄節(jié)點(diǎn)被刪除,所有其他機(jī)器都收到通知:某個(gè)兄弟目錄被刪除,于是,所有人都知道:它上船了。(臨時(shí)節(jié)點(diǎn)和監(jiān)聽機(jī)制)
新機(jī)器加入也是類似,所有機(jī)器收到通知:新兄弟目錄加入,highcount又有了,對(duì)于第二點(diǎn),我們稍微改變一下,所有機(jī)器創(chuàng)建臨時(shí)順序編號(hào)目錄節(jié)點(diǎn),每次選取編號(hào)最小的機(jī)器作為master就好。

9.Zookeeper分布式鎖
有了zookeeper的一致性文件系統(tǒng),鎖的問(wèn)題變得容易。鎖服務(wù)可以分為兩類,一個(gè)是保持獨(dú)占(監(jiān)聽機(jī)制),另一個(gè)是控制時(shí)序(順序編號(hào)和監(jiān)聽機(jī)制)。
對(duì)于第一類,我們將zookeeper上的一個(gè)znode看作是一把鎖,通過(guò)createznode的方式來(lái)實(shí)現(xiàn)。所有客戶端都去創(chuàng)建 /distribute_lock 節(jié)點(diǎn),最終成功創(chuàng)建的那個(gè)客戶端也即擁有了這把鎖。用完刪除掉自己創(chuàng)建的distribute_lock 節(jié)點(diǎn)就釋放出鎖。
對(duì)于第二類, /distribute_lock 已經(jīng)預(yù)先存在,所有客戶端在它下面創(chuàng)建臨時(shí)順序編號(hào)目錄節(jié)點(diǎn),和選master一樣,編號(hào)最小的獲得鎖,用完刪除,依次方便。

10.Zookeeper隊(duì)列管理
兩種類型的隊(duì)列:
1、同步隊(duì)列,當(dāng)一個(gè)隊(duì)列的成員都聚齊時(shí),這個(gè)隊(duì)列才可用,否則一直等待所有成員到達(dá)。
2、隊(duì)列按照 FIFO 方式進(jìn)行入隊(duì)和出隊(duì)操作。
第一類,在約定目錄下創(chuàng)建臨時(shí)目錄節(jié)點(diǎn),監(jiān)聽節(jié)點(diǎn)數(shù)目是否是我們要求的數(shù)目。
第二類,和分布式鎖服務(wù)中的控制時(shí)序場(chǎng)景基本原理一致,入列有編號(hào),出列按編號(hào)。
11.分布式與數(shù)據(jù)復(fù)制
Zookeeper作為一個(gè)集群提供一致的數(shù)據(jù)服務(wù),自然,它要在所有機(jī)器間做數(shù)據(jù)復(fù)制。數(shù)據(jù)復(fù)制的好處:
1、容錯(cuò):一個(gè)節(jié)點(diǎn)出錯(cuò),不致于讓整個(gè)系統(tǒng)停止工作,別的節(jié)點(diǎn)可以接管它的工作;
2、提高系統(tǒng)的擴(kuò)展能力 :把負(fù)載分布到多個(gè)節(jié)點(diǎn)上,或者增加節(jié)點(diǎn)來(lái)提高系統(tǒng)的負(fù)載能力;
3、提高性能:讓客戶端本地訪問(wèn)就近的節(jié)點(diǎn),提高用戶訪問(wèn)速度。
從客戶端讀寫訪問(wèn)的透明度來(lái)看,數(shù)據(jù)復(fù)制集群系統(tǒng)分下面兩種:
1、寫主(WriteMaster) :對(duì)數(shù)據(jù)的修改提交給指定的節(jié)點(diǎn)。讀無(wú)此限制,可以讀取任何一個(gè)節(jié)點(diǎn)。這種情況下客戶端需要對(duì)讀與寫進(jìn)行區(qū)別,俗稱讀寫分離;
2、寫任意(Write Any):對(duì)數(shù)據(jù)的修改可提交給任意的節(jié)點(diǎn),跟讀一樣。這種情況下,客戶端對(duì)集群節(jié)點(diǎn)的角色與變化透明。
對(duì)zookeeper來(lái)說(shuō),它采用的方式是寫任意。通過(guò)增加機(jī)器,它的讀吞吐能力和響應(yīng)能力擴(kuò)展性非常好,而寫,隨著機(jī)器的增多吞吐能力肯定下降(這也是它建立observer的原因),而響應(yīng)能力則取決于具體實(shí)現(xiàn)方式,是延遲復(fù)制保持最終一致性,還是立即復(fù)制快速響應(yīng)。
12.Zookeeper角色描述
領(lǐng)導(dǎo)者(Leader):領(lǐng)導(dǎo)者負(fù)責(zé)進(jìn)行投票的發(fā)起和決議,更新系統(tǒng)狀態(tài)。
學(xué)習(xí)者(Learner):
跟隨者(Follower):follower用于接收客戶請(qǐng)求并向客戶端返回結(jié)果,在選主過(guò)程中參與投票。
觀察者(observer):observer可以接收客戶端連接,將寫請(qǐng)求轉(zhuǎn)發(fā)給leader節(jié)點(diǎn)。但observer不參加投票過(guò)程,只同步leader的狀態(tài)。observer的目的是為了擴(kuò)展系統(tǒng),提高讀取速度。
客戶端(client):請(qǐng)求發(fā)起方

13.Zookeeper與客戶端

14.Zookeeper設(shè)計(jì)目的
1.最終一致性:client不論連接到哪個(gè)Server,展示給它都是同一個(gè)視圖,這是zookeeper最重要的性能。
2.可靠性:具有簡(jiǎn)單、健壯、良好的性能,如果消息被到一臺(tái)服務(wù)器接受,那么它將被所有的服務(wù)器接受。
3.實(shí)時(shí)性:Zookeeper保證客戶端將在一個(gè)時(shí)間間隔范圍內(nèi)獲得服務(wù)器的更新信息,或者服務(wù)器失效的信息。但由于網(wǎng)絡(luò)延時(shí)等原因,Zookeeper不能保證兩個(gè)客戶端能同時(shí)得到剛更新的數(shù)據(jù),如果需要最新數(shù)據(jù),應(yīng)該在讀數(shù)據(jù)之前調(diào)用sync()接口。
4.等待無(wú)關(guān)(wait-free):慢的或者失效的client不得干預(yù)快速的client的請(qǐng)求,使得每個(gè)client都能有效的等待。
5.原子性:更新只能成功或者失敗,沒(méi)有中間狀態(tài)。
6.順序性:包括全局有序和偏序兩種:全局有序是指如果在一臺(tái)服務(wù)器上消息a在消息b前發(fā)布,則在所有Server上消息a都將在消息b前被發(fā)布;偏序是指如果一個(gè)消息b在消息a后被同一個(gè)發(fā)送者發(fā)布,a必將排在b前面。
15.Zookeeper工作原理
Zookeeper 的核心是原子廣播,這個(gè)機(jī)制保證了各個(gè)Server之間的同步。實(shí)現(xiàn)這個(gè)機(jī)制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式,它們分別是恢復(fù)模式(選主)和廣播模式(同步)。當(dāng)服務(wù)啟動(dòng)或者在領(lǐng)導(dǎo)者崩潰后,Zab就進(jìn)入了恢復(fù)模式,當(dāng)領(lǐng)導(dǎo)者被選舉出來(lái),且大多數(shù)Server完成了和 leader的狀態(tài)同步以后,恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和Server具有相同的系統(tǒng)狀態(tài)。
為了保證事務(wù)的順序一致性,zookeeper采用了遞增的事務(wù)id號(hào)(zxid)來(lái)標(biāo)識(shí)事務(wù)。所有的提議(proposal)都在被提出的時(shí)候加上了zxid。實(shí)現(xiàn)中zxid是一個(gè)64位的數(shù)字,它高32位是epoch用來(lái)標(biāo)識(shí)leader關(guān)系是否改變,每次一個(gè)leader被選出來(lái),它都會(huì)有一個(gè)新的epoch,標(biāo)識(shí)當(dāng)前屬于那個(gè)leader的統(tǒng)治時(shí)期。低32位用于遞增計(jì)數(shù)。
16.Zookeeper 下 Server工作狀態(tài)
每個(gè)Server在工作過(guò)程中有三種狀態(tài):LOOKING:當(dāng)前Server不知道leader是誰(shuí),正在搜尋;LEADING:當(dāng)前Server即為選舉出來(lái)的leader;FOLLOWING:leader已經(jīng)選舉出來(lái),當(dāng)前Server與之同步
17.Zookeeper選主流程(basic paxos)(沒(méi)明白?。。。?/i>
當(dāng)leader崩潰或者leader失去大多數(shù)的follower,這時(shí)候zk進(jìn)入恢復(fù)模式,恢復(fù)模式需要重新選舉出一個(gè)新的leader,讓所有的Server都恢復(fù)到一個(gè)正確的狀態(tài)。Zk的選舉算法有兩種:一種是基于basic paxos實(shí)現(xiàn)的,另外一種是基于fast paxos算法實(shí)現(xiàn)的。系統(tǒng)默認(rèn)的選舉算法為fast paxos。
1.選舉線程由當(dāng)前Server發(fā)起選舉的線程擔(dān)任,其主要功能是對(duì)投票結(jié)果進(jìn)行統(tǒng)計(jì),并選出推薦的Server;
2.選舉線程首先向所有Server發(fā)起一次詢問(wèn)(包括自己);
3.選舉線程收到回復(fù)后,驗(yàn)證是否是自己發(fā)起的詢問(wèn)(驗(yàn)證zxid是否一致),然后獲取對(duì)方的id(myid),并存儲(chǔ)到當(dāng)前詢問(wèn)對(duì)象列表中,最后獲取對(duì)方提議的leader相關(guān)信息(id,zxid),并將這些信息存儲(chǔ)到當(dāng)次選舉的投票記錄表中;
4.收到所有Server回復(fù)以后,就計(jì)算出zxid最大的那個(gè)Server(?? zxid最大意味著什么?),并將這個(gè)Server相關(guān)信息設(shè)置成下一次要投票的Server;
5.線程將當(dāng)前zxid最大的Server設(shè)置為當(dāng)前Server要推薦的Leader,如果此時(shí)獲勝的Server獲得n/2 + 1的Server票數(shù),設(shè)置當(dāng)前推薦的leader為獲勝的Server,將根據(jù)獲勝的Server相關(guān)信息設(shè)置自己的狀態(tài),否則,繼續(xù)這個(gè)過(guò)程,直到leader被選舉出來(lái)。 通過(guò)流程分析我們可以得出:要使Leader獲得多數(shù)Server的支持,則Server總數(shù)必須是奇數(shù)2n+1,且存活的Server的數(shù)目不得少于n+1. 每個(gè)Server啟動(dòng)后都會(huì)重復(fù)以上流程。在恢復(fù)模式下,如果是剛從崩潰狀態(tài)恢復(fù)的或者剛啟動(dòng)的server還會(huì)從磁盤快照中恢復(fù)數(shù)據(jù)和會(huì)話信息,zk會(huì)記錄事務(wù)日志并定期進(jìn)行快照,方便在恢復(fù)時(shí)進(jìn)行狀態(tài)恢復(fù)。選主的具體流程圖所示:

18.Zookeeper選主流程(fast paxos)(沒(méi)明白?。。。?/i>
fast paxos流程是在選舉過(guò)程中,某Server首先向所有Server提議自己要成為leader,當(dāng)其它Server收到提議以后,解決epoch和 zxid的沖突,并接受對(duì)方的提議,然后向?qū)Ψ桨l(fā)送接受提議完成的消息,重復(fù)這個(gè)流程,最后一定能選舉出Leader。

19.Zookeeper同步流程(沒(méi)明白?)
數(shù)據(jù)同步是指:每臺(tái)Cilent機(jī)器都連接一個(gè)Follower或leader。當(dāng)Cilent上數(shù)據(jù)被修改后,其連接的Follower或leader上的Server會(huì)首先接收到,而leader會(huì)隨時(shí)檢測(cè)所有與的Follower上的Server如果有數(shù)據(jù)變化就將數(shù)據(jù)同步到其他Follower上,
hadoop2.0中使用zookeeper確保整個(gè)NameService中只有一個(gè)活躍的NameNode(會(huì)有多個(gè)代用的NameNode但處于代用狀態(tài)),當(dāng)一個(gè)nameNode 當(dāng)?shù)艋驎?huì)啟用其他的備用的NameNode。此外在Hbase集群中也會(huì)使用zookeeper來(lái)保證Hbase集群中只有一個(gè)HMaster,同時(shí)通過(guò)zookeeper將Hbase客戶端、RegionServer、Master三者聯(lián)系在一起。
選完Leader以后,zk就進(jìn)入狀態(tài)同步過(guò)程。
1. Leader等待server連接;
2 .Follower連接leader,將最大的zxid發(fā)送給leader;(最大的zxid意味著什么?)
3 .Leader根據(jù)follower的zxid確定同步點(diǎn);(同步點(diǎn)意味著什么?)
4 .完成同步后通知follower 已經(jīng)成為uptodate狀態(tài);(到底是誰(shuí)完成同步?)
5 .Follower收到uptodate消息后,又可以重新接受client的請(qǐng)求進(jìn)行服務(wù)了。

20.Zookeeper工作流程-Leader --
1 .恢復(fù)數(shù)據(jù);(恢復(fù)什么數(shù)據(jù)?怎么恢復(fù)?)
2 .維持與Learner的心跳(ping消息),接收Learner請(qǐng)求(寫請(qǐng)求和同步請(qǐng)求? )并判斷Learner的請(qǐng)求消息類型;
3 .Learner的消息類型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息,根據(jù)不同的消息類型,進(jìn)行不同的處理。
PING 消息是指Learner的心跳信息;
REQUEST消息是Follower發(fā)送的提議信息,包括寫請(qǐng)求及同步請(qǐng)求;
ACK消息是 Follower的對(duì)提議的回復(fù),超過(guò)半數(shù)的Follower通過(guò),則commit該提議;
REVALIDATE消息是用來(lái)延長(zhǎng)SESSION有效時(shí)間。

21.Zookeeper工作流程-Follower
Follower主要有四個(gè)功能:
1.向Leader發(fā)送請(qǐng)求(PING消息、REQUEST消息、ACK消息、REVALIDATE消息);
2.接收Leader消息并進(jìn)行處理;
3.接收Client的請(qǐng)求,如果為寫請(qǐng)求,發(fā)送給Leader進(jìn)行投票;(為什么要進(jìn)行投票?)
4.返回Client結(jié)果。
Follower的消息循環(huán)處理如下幾種來(lái)自Leader的消息:
1 .PING消息: 心跳消息;
2 .PROPOSAL消息:Leader發(fā)起的提案,要求Follower投票;
3 .COMMIT消息:服務(wù)器端最新一次提案的信息;
4 .UPTODATE消息:表明同步完成;
5 .REVALIDATE消息:根據(jù)Leader的REVALIDATE結(jié)果,關(guān)閉待revalidate的session還是允許其接受消息;
6 .SYNC消息:返回SYNC結(jié)果到客戶端,這個(gè)消息最初由客戶端發(fā)起,用來(lái)強(qiáng)制得到最新的更新。
2、Zookeeper 的讀寫機(jī)制
Zookeeper是一個(gè)由多個(gè)server組成的集群;一個(gè)leader,多個(gè)follower;每個(gè)server保存一份數(shù)據(jù)副本;全局?jǐn)?shù)據(jù)一致;分布式讀寫;更新請(qǐng)求轉(zhuǎn)發(fā),由leader實(shí)施
3、Zookeeper 的保證
?更新請(qǐng)求順序進(jìn)行,來(lái)自同一個(gè)client的更新請(qǐng)求按其發(fā)送順序依次執(zhí)行(ZXID保證);數(shù)據(jù)更新原子性,一次數(shù)據(jù)更新要么成功,要么失?。蝗治ㄒ粩?shù)據(jù)視圖,client無(wú)論連接到哪個(gè)server,數(shù)據(jù)視圖都是一致的(全局一致性);實(shí)時(shí)性,在一定事件范圍內(nèi),client能讀到最新數(shù)據(jù)
4、Zookeeper節(jié)點(diǎn)寫數(shù)據(jù)操作流程

注:1.在Client向Follwer發(fā)出一個(gè)寫的請(qǐng)求 -> 2.Follwer把請(qǐng)求發(fā)送給Leader -> 3.Leader接收到以后開始發(fā)起投票并通知Follwer進(jìn)行投票 -> 4.Follwer把投票結(jié)果發(fā)送給Leader -> 5.Leader將結(jié)果匯總后如果需要寫入,則開始寫入同時(shí)把寫入操作通知給Leader,然后commit; -> 6.Follwer把請(qǐng)求結(jié)果返回給Client
5、Zookeeper leader 選舉
? 半數(shù)通過(guò)
– 3臺(tái)機(jī)器 掛一臺(tái) 2>3/2
– 4臺(tái)機(jī)器 掛2臺(tái) 2!>4/2
? A提案說(shuō),我要選自己,B你同意嗎?C你同意嗎?B說(shuō),我同意選A;C說(shuō),我同意選A。(注意,這里超過(guò)半數(shù)了,其實(shí)在現(xiàn)實(shí)世界選舉已經(jīng)成功了。
但是計(jì)算機(jī)世界是很嚴(yán)格,另外要理解算法,要繼續(xù)模擬下去。)
? 接著B提案說(shuō),我要選自己,A你同意嗎;A說(shuō),我已經(jīng)超半數(shù)同意當(dāng)選,你的提案無(wú)效;C說(shuō),A已經(jīng)超半數(shù)同意當(dāng)選,B提案無(wú)效。
? 接著C提案說(shuō),我要選自己,A你同意嗎;A說(shuō),我已經(jīng)超半數(shù)同意當(dāng)選,你的提案無(wú)效;B說(shuō),A已經(jīng)超半數(shù)同意當(dāng)選,C的提案無(wú)效。
? 選舉已經(jīng)產(chǎn)生了Leader,后面的都是follower,只能服從Leader的命令。而且這里還有個(gè)小細(xì)節(jié),就是其實(shí)誰(shuí)先啟動(dòng)誰(shuí)當(dāng)頭。


6、zxid
? znode節(jié)點(diǎn)的狀態(tài)信息中包含czxid, 那么什么是zxid呢?
? ZooKeeper狀態(tài)的每一次改變, 都對(duì)應(yīng)著一個(gè)遞增的Transaction id, 該id稱為zxid. 由于zxid的遞增性質(zhì), 如果zxid1小于zxid2, 那么zxid1肯定先于zxid2發(fā)生.
創(chuàng)建任意節(jié)點(diǎn), 或者更新任意節(jié)點(diǎn)的數(shù)據(jù), 或者刪除任意節(jié)點(diǎn), 都會(huì)導(dǎo)致Zookeeper狀態(tài)發(fā)生改變, 從而導(dǎo)致zxid的值增加.
7、Zookeeper工作原理
? Zookeeper的核心是原子廣播,這個(gè)機(jī)制保證了各個(gè)server之間的同步。實(shí)現(xiàn)這個(gè)機(jī)制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式,它們分別是恢復(fù)模式和廣播模式。當(dāng)服務(wù)啟動(dòng)或者在領(lǐng)導(dǎo)者崩潰后,Zab就進(jìn)入了恢復(fù)模式,當(dāng)領(lǐng)導(dǎo)者被選舉出來(lái),且大多數(shù)server的完成了和leader的狀態(tài)同步以后,恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和server具有相同的系統(tǒng)狀態(tài)(什么狀態(tài)?)
? 一旦leader已經(jīng)和多數(shù)的follower進(jìn)行了狀態(tài)同步后,他就可以開始廣播消息了,即進(jìn)入廣播狀態(tài)。這時(shí)候當(dāng)一個(gè)server加入zookeeper服務(wù)中,它會(huì)在恢復(fù)模式下啟動(dòng),發(fā)現(xiàn)leader,并和leader進(jìn)行狀態(tài)同步。待到同步結(jié)束,它也參與消息廣播。Zookeeper服務(wù)一直維持在Broadcast狀態(tài),直到leader崩潰了或者leader失去了大部分的followers支持。
? 廣播模式需要保證proposal被按順序處理,因此zk采用了遞增的事務(wù)id號(hào)(zxid)來(lái)保證。所有的提議(proposal)都在被提出的時(shí)候加上了zxid。實(shí)現(xiàn)中zxid是一個(gè)64為的數(shù)字,它高32位是epoch用來(lái)標(biāo)識(shí)leader關(guān)系是否改變,每次一個(gè)leader被選出來(lái),它都會(huì)有一個(gè)新的epoch。低32位是個(gè)遞增計(jì)數(shù)。
? 當(dāng)leader崩潰或者leader失去大多數(shù)的follower,這時(shí)候zk進(jìn)入恢復(fù)模式,恢復(fù)模式需要重新選舉出一個(gè)新的leader,讓所有的server都恢復(fù)到一個(gè)正確的狀態(tài)。
? 每個(gè)Server啟動(dòng)以后都詢問(wèn)其它的Server它要投票給誰(shuí)。對(duì)于其他server的詢問(wèn),server每次根據(jù)自己的狀態(tài)都回復(fù)自己推薦的leader的id和上一次處理事務(wù)的zxid(系統(tǒng)啟動(dòng)時(shí)每個(gè)server都會(huì)推薦自己)收到所有Server回復(fù)以后,就計(jì)算出zxid最大的哪個(gè)Server,并將這個(gè)Server相關(guān)信息設(shè)置成下一次要投票的Server。計(jì)算這過(guò)程中獲得票數(shù)最多的的sever為獲勝者,如果獲勝者的票數(shù)超過(guò)半數(shù),則改server被選為leader。否則,繼續(xù)這個(gè)過(guò)程,直到leader被選舉出來(lái)。
? leader就會(huì)開始等待其他server連接;Follower連接leader,將最大的zxid發(fā)送給leader;Leader根據(jù)follower的zxid確定同步點(diǎn)(同步點(diǎn)在哪?);完成同步后通知follower 已經(jīng)成為uptodate狀態(tài);Follower收到uptodate消息后,又可以重新接受client的請(qǐng)求進(jìn)行服務(wù)了
8、數(shù)據(jù)一致性與paxos 算法
? 據(jù)說(shuō)Paxos算法的難理解與算法的知名度一樣令人敬仰,所以我們先看如何保持?jǐn)?shù)據(jù)的一致性,這里有個(gè)原則就是:
? 在一個(gè)分布式數(shù)據(jù)庫(kù)系統(tǒng)中,如果各節(jié)點(diǎn)的初始狀態(tài)一致,每個(gè)節(jié)點(diǎn)都執(zhí)行相同的操作序列,那么他們最后能得到一個(gè)一致的狀態(tài)。
? Paxos算法解決的什么問(wèn)題呢,解決的就是保證每個(gè)節(jié)點(diǎn)執(zhí)行相同的操作序列。好吧,這還不簡(jiǎn)單,master維護(hù)一個(gè)全局寫隊(duì)列,所有寫操作都必須 放入這個(gè)隊(duì)列編號(hào),那么無(wú)論我們寫多少個(gè)節(jié)點(diǎn),只要寫操作是按編號(hào)來(lái)的,就能保證一致性。沒(méi)錯(cuò),就是這樣,可是如果master掛了呢。
? Paxos算法通過(guò)投票來(lái)對(duì)寫操作進(jìn)行全局編號(hào),同一時(shí)刻,只有一個(gè)寫操作被批準(zhǔn),同時(shí)并發(fā)的寫操作要去爭(zhēng)取選票,只有獲得過(guò)半數(shù)選票的寫操作才會(huì)被 批準(zhǔn)(所以永遠(yuǎn)只會(huì)有一個(gè)寫操作得到批準(zhǔn)),其他的寫操作競(jìng)爭(zhēng)失敗只好再發(fā)起一輪投票,就這樣,在日復(fù)一日年復(fù)一年的投票中,所有寫操作都被嚴(yán)格編號(hào)排 序。編號(hào)嚴(yán)格遞增,當(dāng)一個(gè)節(jié)點(diǎn)接受了一個(gè)編號(hào)為100的寫操作,之后又接受到編號(hào)為99的寫操作(因?yàn)榫W(wǎng)絡(luò)延遲等很多不可預(yù)見原因),它馬上能意識(shí)到自己 數(shù)據(jù)不一致了,自動(dòng)停止對(duì)外服務(wù)并重啟同步過(guò)程。任何一個(gè)節(jié)點(diǎn)掛掉都不會(huì)影響整個(gè)集群的數(shù)據(jù)一致性(總2n+1臺(tái),除非掛掉大于n臺(tái))。
總結(jié):? Zookeeper 作為 Hadoop 項(xiàng)目中的一個(gè)子項(xiàng)目,是 Hadoop 集群管理的一個(gè)必不可少的模塊,它主要用來(lái)控制集群中的數(shù)據(jù),如它管理 Hadoop 集群中的 NameNode,還有 Hbase 中 Master Election、Server 之間狀態(tài)同步等。\
9、Observer
?Zookeeper需保證高可用和強(qiáng)一致性; 為了支持更多的客戶端,需要增加更多Server; Server增多,投票階段延遲增大,影響性能; 權(quán)衡伸縮性和高吞吐率,引入Observer; Observer不參與投票; Observers接受客戶端的連接,并將寫請(qǐng)求轉(zhuǎn)發(fā)給leader節(jié)點(diǎn); 加入更多Observer節(jié)點(diǎn),提高伸縮性,同時(shí)不影響吞吐率
10、?為什么zookeeper集群的數(shù)目,一般為奇數(shù)個(gè)?
?Leader選舉算法采用了Paxos協(xié)議;
?Paxos核心思想:當(dāng)多數(shù)Server寫成功,則任務(wù)數(shù)據(jù)寫成功如果有3個(gè)Server,則兩個(gè)寫成功即可;如果有4或5個(gè)Server,則三個(gè)寫成功即可。?Server數(shù)目一般為奇數(shù)(3、5、7)如果有3個(gè)Server,則最多允許1個(gè)Server掛掉;如果有4個(gè)Server,則同樣最多允許1個(gè)Server掛掉由此,我們看出3臺(tái)服務(wù)器和4臺(tái)服務(wù)器的的容災(zāi)能力是一樣的,所以為了節(jié)省服務(wù)器資源,一般我們采用奇數(shù)個(gè)數(shù),作為服務(wù)器部署個(gè)數(shù)。
11、Zookeeper 的數(shù)據(jù)模型
? 層次化的目錄結(jié)構(gòu),命名符合常規(guī)文件系統(tǒng)規(guī)范 ? 每個(gè)節(jié)點(diǎn)在zookeeper中叫做znode,并且其有一個(gè)唯一的路徑標(biāo)識(shí) ? 節(jié)點(diǎn)Znode可以包含數(shù)據(jù)和子節(jié)點(diǎn),但是EPHEMERAL類型的節(jié)點(diǎn)不能有子節(jié)點(diǎn) ? Znode中的數(shù)據(jù)可以有多個(gè)版本,比如某一個(gè)路徑下存有多個(gè)數(shù)據(jù)版本,那么查詢這個(gè)路徑下的數(shù)據(jù)就需要帶上版本 ? 客戶端應(yīng)用可以在節(jié)點(diǎn)上設(shè)置監(jiān)視器 ? 節(jié)點(diǎn)不支持部分讀寫,而是一次性完整讀寫
12、Zookeeper 的節(jié)點(diǎn)
? Znode有兩種類型,短暫的(ephemeral)和持久的(persistent)
? Znode的類型在創(chuàng)建時(shí)確定并且之后不能再修改
? 短暫znode的客戶端會(huì)話結(jié)束時(shí),zookeeper會(huì)將該短暫znode刪除,短暫znode不可以有子節(jié)點(diǎn)
? 持久znode不依賴于客戶端會(huì)話,只有當(dāng)客戶端明確要?jiǎng)h除該持久znode時(shí)才會(huì)被刪除
? Znode有四種形式的目錄節(jié)點(diǎn)
? PERSISTENT(持久的)
? EPHEMERAL(暫時(shí)的)
? PERSISTENT_SEQUENTIAL(持久化順序編號(hào)目錄節(jié)點(diǎn))
? EPHEMERAL_SEQUENTIAL(暫時(shí)化順序編號(hào)目錄節(jié)點(diǎn))
Zookeeper 監(jiān)視(Watches) 簡(jiǎn)介
Zookeeper C API 的聲明和描述在 include/zookeeper.h 中可以找到,另外大部分的 Zookeeper C API 常量、結(jié)構(gòu)體聲明也在 zookeeper.h 中,如果如果你在使用 C API 是遇到不明白的地方,最好看看 zookeeper.h,或者自己使用 doxygen 生成 Zookeeper C API 的幫助文檔。
Zookeeper 中最有特色且最不容易理解的是監(jiān)視(Watches)。Zookeeper 所有的讀操作——getData(),getChildren(), 和exists()都 可以設(shè)置監(jiān)視(watch),監(jiān)視事件可以理解為一次性的觸發(fā)器, 官方定義如下: a watch event is one-time trigger, sent to the client that set the watch, which occurs when the data for which the watch was set changes。對(duì)此需要作出如下理解:
(一次性觸發(fā))One-time trigger
當(dāng)設(shè)置監(jiān)視的數(shù)據(jù)發(fā)生改變時(shí),該監(jiān)視事件會(huì)被發(fā)送到客戶端,例如,如果客戶端調(diào)用了 getData("/znode1", true) 并且稍后 /znode1 節(jié)點(diǎn)上的數(shù)據(jù)發(fā)生了改變或者被刪除了,客戶端將會(huì)獲取到/znode1 發(fā)生變化的監(jiān)視事件,而如果 /znode1 再一次發(fā)生了變化,除非客戶端再次對(duì) /znode1設(shè)置監(jiān)視,否則客戶端不會(huì)收到事件通知。
(發(fā)送至客戶端)Sent to the client
Zookeeper 客戶端和服務(wù)端是通過(guò) socket 進(jìn)行通信的,由于網(wǎng)絡(luò)存在故障,所以監(jiān)視事件很有可能不會(huì)成功地到達(dá)客戶端,監(jiān)視事件是異步發(fā)送至監(jiān)視者的,Zookeeper 本身提供了保序性(ordering guarantee):即客戶端只有首先看到了監(jiān)視事件后,才會(huì)感知到它所設(shè)置監(jiān)視的 znode 發(fā)生了變化(a client will never see a change for which it has set a watch until it first sees the watch event). 網(wǎng)絡(luò)延遲或者其他因素可能導(dǎo)致不同的客戶端在不同的時(shí)刻感知某一監(jiān)視事件,但是不同的客戶端所看到的一切具有一致的順序。
(被設(shè)置 watch 的數(shù)據(jù))The data for which the watch was set
這意味著znode 節(jié)點(diǎn)本身具有不同的改變方式。你也可以想象 Zookeeper 維護(hù)了兩條監(jiān)視鏈表:數(shù)據(jù)監(jiān)視和子節(jié)點(diǎn)監(jiān)視(data watches and child watches) getData() and exists() 設(shè)置數(shù)據(jù)監(jiān)視,getChildren() 設(shè)置子節(jié)點(diǎn)監(jiān)視?;蛘?,你也可以想象 Zookeeper 設(shè)置的不同監(jiān)視返回不同的數(shù)據(jù),getData() 和 exists() 返回 znode節(jié)點(diǎn)的相關(guān)信息,而 getChildren() 返回子節(jié)點(diǎn)列表。因此, setData()會(huì)觸發(fā)設(shè)置在某一節(jié)點(diǎn)上所設(shè)置的數(shù)據(jù)監(jiān)視(假定數(shù)據(jù)設(shè)置成功),而一次成功的 create()操作則會(huì)出發(fā)當(dāng)前節(jié)點(diǎn)上所設(shè)置的數(shù)據(jù)監(jiān)視以及父節(jié)點(diǎn)的子節(jié)點(diǎn)監(jiān)視。一次成功的 delete()操作將會(huì)觸發(fā)當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)監(jiān)視和子節(jié)點(diǎn)監(jiān)視事件,同時(shí)也會(huì)觸發(fā)該節(jié)點(diǎn)父節(jié)點(diǎn)的child watch。
Zookeeper中的監(jiān)視是輕量級(jí)的,因此容易設(shè)置、維護(hù)和分發(fā)。當(dāng)客戶端與 Zookeeper服務(wù)器端失去聯(lián)系時(shí),客戶端并不會(huì)收到監(jiān)視事件的通知,只有當(dāng)客戶端重新連接后,若在必要的情況下,以前注冊(cè)的監(jiān)視會(huì)重新被注冊(cè)并觸發(fā),對(duì)于開發(fā)人員來(lái)說(shuō)這通常是透明的。只有一種情況會(huì)導(dǎo)致監(jiān)視事件的丟失,即:通過(guò) exists() 設(shè)置了某個(gè) znode 節(jié)點(diǎn)的監(jiān)視,但是如果某個(gè)客戶端在此znode 節(jié)點(diǎn)被創(chuàng)建和刪除的時(shí)間間隔內(nèi)與 zookeeper 服務(wù)器失去了聯(lián)系,該客戶端即使稍后重新連接zookeeper服務(wù)器后也得不到事件通知。
Watch事件類型:
ZOO_CREATED_EVENT:節(jié)點(diǎn)創(chuàng)建事件,需要watch一個(gè)不存在的節(jié)點(diǎn),當(dāng)節(jié)點(diǎn)被創(chuàng)建時(shí)觸發(fā),此watch通過(guò)zoo_exists()設(shè)置
ZOO_DELETED_EVENT:節(jié)點(diǎn)刪除事件,此watch通過(guò)zoo_exists()或zoo_get()設(shè)置
ZOO_CHANGED_EVENT:節(jié)點(diǎn)數(shù)據(jù)改變事件,此watch通過(guò)zoo_exists()或zoo_get()設(shè)置
ZOO_CHILD_EVENT:子節(jié)點(diǎn)列表改變事件,此watch通過(guò)zoo_get_children()或zoo_get_children2()設(shè)置
ZOO_SESSION_EVENT:會(huì)話失效事件,客戶端與服務(wù)端斷開或重連時(shí)觸發(fā)
ZOO_NOTWATCHING_EVENT:watch移除事件,服務(wù)端出于某些原因不再為客戶端watch節(jié)點(diǎn)時(shí)觸發(fā)