SQL與NOSQL區(qū)別

云計(jì)算背后的秘密:NoSQL誕生的原因和優(yōu)缺點(diǎn)

我本來(lái)一直覺(jué)得NoSQL其實(shí)很容易理解的,我本身也已經(jīng)對(duì)NoSQL有了非常深入的研究,但是在最近準(zhǔn)備YunTable的Chart的時(shí)候,發(fā)現(xiàn)NoSQL不僅非常博大精深,而且我個(gè)人對(duì)NoSQL的理解也只是皮毛而已,但我還算是一個(gè)“知恥而后勇”的人,所以經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)之后,從本系列第六篇開(kāi)始,就將和大家聊聊NoSQL,而本篇將主要給大家做一下NoSQL數(shù)據(jù)庫(kù)的綜述。首先將和大家聊聊為什么NoSQL會(huì)在關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)非常普及的情況下異軍突起?

誕生的原因

隨著互聯(lián)網(wǎng)的不斷發(fā)展,各種類型的應(yīng)用層出不窮,所以導(dǎo)致在這個(gè)云計(jì)算的時(shí)代,對(duì)技術(shù)提出了更多的需求,主要體現(xiàn)在下面這四個(gè)方面:1. 低延遲的讀寫(xiě)速度:應(yīng)用快速地反應(yīng)能極大地提升用戶的滿意度; 2. 支撐海量的數(shù)據(jù)和流量:對(duì)于搜索這樣大型應(yīng)用而言,需要利用PB級(jí)別的數(shù)據(jù)和能應(yīng)對(duì)百萬(wàn)級(jí)的流量; 3. 大規(guī)模集群的管理:系統(tǒng)管理員希望分布式應(yīng)用能更簡(jiǎn)單的部署和管理;

[if !supportLists]1.?[endif]龐大運(yùn)營(yíng)成本的考量:IT經(jīng)理們希望在硬件成本、軟件成本和人力成本能夠有大幅度地降低;

目前世界上主流的存儲(chǔ)系統(tǒng)大部分還是采用了關(guān)系型數(shù)據(jù)庫(kù),其主要有一下優(yōu)點(diǎn):

1.事務(wù)處理—保持?jǐn)?shù)據(jù)的一致性;

2.由于以標(biāo)準(zhǔn)化為前提,數(shù)據(jù)更新的開(kāi)銷很小(相同的字段基本上只有一處);

3.可以進(jìn)行Join等復(fù)雜查詢。

雖然關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)在業(yè)界的數(shù)據(jù)存儲(chǔ)方面占據(jù)不可動(dòng)搖的地位,但是由于其天生的幾個(gè)限制,使其很難滿足上面這幾個(gè)需求:1. 擴(kuò)展困難:由于存在類似Join這樣多表查詢機(jī)制,使得數(shù)據(jù)庫(kù)在擴(kuò)展方面很艱難; 2. 讀寫(xiě)慢:這種情況主要發(fā)生在數(shù)據(jù)量達(dá)到一定規(guī)模時(shí)由于關(guān)系型數(shù)據(jù)庫(kù)的系統(tǒng)邏輯非常復(fù)雜,使得其非常容易發(fā)生死鎖等的并發(fā)問(wèn)題,所以導(dǎo)致其讀寫(xiě)速度下滑非常嚴(yán)重; 3. 成本高:企業(yè)級(jí)數(shù)據(jù)庫(kù)的License價(jià)格很驚人,并且隨著系統(tǒng)的規(guī)模,而不斷上升; 4. 有限的支撐容量:現(xiàn)有關(guān)系型解決方案還無(wú)法支撐Google這樣海量的數(shù)據(jù)存儲(chǔ); 業(yè)界為了解決上面提到的幾個(gè)需求,推出了多款新類型的數(shù)據(jù)庫(kù),并且由于它們?cè)谠O(shè)計(jì)上和傳統(tǒng)的NoSQL數(shù)據(jù)庫(kù)相比有很大的不同,所以被統(tǒng)稱為“NoSQL”系列數(shù)據(jù)庫(kù)??偟膩?lái)說(shuō),在設(shè)計(jì)上,它們非常關(guān)注對(duì)數(shù)據(jù)高并發(fā)地讀寫(xiě)和對(duì)海量數(shù)據(jù)的存儲(chǔ)等,與關(guān)系型數(shù)據(jù)庫(kù)相比,它們?cè)诩軜?gòu)和數(shù)據(jù)模型方量面做了“減法”,而在擴(kuò)展和并發(fā)等方面做了“加法”。現(xiàn)在主流的NoSQL數(shù)據(jù)庫(kù)有BigTable、HBase、Cassandra、SimpleDB、CouchDB、MongoDB和Redis等。接下來(lái),將關(guān)注NoSQL數(shù)據(jù)庫(kù)到底存在哪些優(yōu)缺點(diǎn)。

優(yōu)缺點(diǎn)

在優(yōu)勢(shì)方面,主要體現(xiàn)在下面這三點(diǎn):1. 簡(jiǎn)單的擴(kuò)展:典型例子是Cassandra,由于其架構(gòu)是類似于經(jīng)典的P2P,所以能通過(guò)輕松地添加新的節(jié)點(diǎn)來(lái)擴(kuò)展這個(gè)集群; 2. 快速的讀寫(xiě):主要例子有Redis,由于其邏輯簡(jiǎn)單,而且純內(nèi)存操作,使得其性能非常出色,單節(jié)點(diǎn)每秒可以處理超過(guò)10萬(wàn)次讀寫(xiě)操作; 3. 低廉的成本:這是大多數(shù)分布式數(shù)據(jù)庫(kù)共有的特點(diǎn),因?yàn)橹饕际情_(kāi)源軟件,沒(méi)有昂貴的License成本; 4. 但瑕不掩瑜,NoSQL數(shù)據(jù)庫(kù)還存在著很多的不足,常見(jiàn)主要有下面這幾個(gè):1. 不提供對(duì)SQL的支持:如果不支持SQL這樣的工業(yè)標(biāo)準(zhǔn),將會(huì)對(duì)用戶產(chǎn)生一定的學(xué)習(xí)和應(yīng)用遷移成本; 2. 支持的特性不夠豐富:現(xiàn)有產(chǎn)品所提供的功能都比較有限,大多數(shù)NoSQL數(shù)據(jù)庫(kù)都不支持事務(wù),也不像MS SQL Server和Oracle那樣能提供各種附加功能,比如BI和報(bào)表等; 3. 現(xiàn)有產(chǎn)品的不夠成熟:大多數(shù)產(chǎn)品都還處于初創(chuàng)期,和關(guān)系型數(shù)據(jù)庫(kù)幾十年的完善不可同日而語(yǔ); 上面NoSQL產(chǎn)品的優(yōu)缺點(diǎn)都是些比較共通的,在實(shí)際情況下,每個(gè)產(chǎn)品都會(huì)根據(jù)自己所遵從的數(shù)據(jù)模型和CAP理念而有所不同,接下來(lái),將給大家介紹NoSQL兩個(gè)最重要的概念:數(shù)據(jù)模型和CAP理念,并在本文最后,對(duì)主流的NoSQL數(shù)據(jù)庫(kù)進(jìn)行分類。

Naresh Kumar是位軟件工程師與熱情的博主,對(duì)于編程與新事物擁有極大的興趣,非常樂(lè)于與其他開(kāi)發(fā)者和程序員分享技術(shù)上的研究成果。近日,Naresh撰文比較了NoSQL與RDBMS,并詳細(xì)介紹了他們各自的特點(diǎn)與適用的場(chǎng)景。

NoSQL并不是關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),本文將會(huì)介紹NoSQL數(shù)據(jù)庫(kù)與關(guān)系型數(shù)據(jù)庫(kù)之間的差別,同時(shí)還會(huì)討論在何種場(chǎng)景下應(yīng)該使用NoSQL,何種場(chǎng)景下不應(yīng)該使用。由于NoSQL還是個(gè)相對(duì)較新的技術(shù),因此它還面臨著很多挑戰(zhàn)。

時(shí)至今日,互聯(lián)網(wǎng)上有數(shù)以億計(jì)的用戶。大數(shù)據(jù)與云計(jì)算已經(jīng)成為很多主要的互聯(lián)網(wǎng)應(yīng)用都在使用或是準(zhǔn)備使用的技術(shù),這是因?yàn)榛ヂ?lián)網(wǎng)用戶每天都在不斷增長(zhǎng),數(shù)據(jù)也變得越來(lái)越復(fù)雜,而且有很多非結(jié)構(gòu)化的數(shù)據(jù)存在,這是很難通過(guò)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)處理的。NoSQL技術(shù)則能比較好地解決這個(gè)問(wèn)題,它主要用于非結(jié)構(gòu)化的大數(shù)據(jù)與云計(jì)算上。從這個(gè)角度來(lái)看,NoSQL是一種全新的數(shù)據(jù)庫(kù)思維方式。

為何要使用NoSQL數(shù)據(jù)庫(kù)?

1.NoSQL具有靈活的數(shù)據(jù)模型,可以處理非結(jié)構(gòu)化/半結(jié)構(gòu)化的大數(shù)據(jù)

現(xiàn)在,我們可以通過(guò)Facebook、D&B等第三方輕松獲得與訪問(wèn)數(shù)據(jù),如個(gè)人用戶信息、地理位置數(shù)據(jù)、社交圖譜、用戶產(chǎn)生的內(nèi)容、機(jī)器日志數(shù)據(jù)以及傳感器生成的數(shù)據(jù)等。對(duì)這些數(shù)據(jù)的使用正在快速改變著通信、購(gòu)物、廣告、娛樂(lè)以及關(guān)系管理的特質(zhì)。沒(méi)有使用這些數(shù)據(jù)的應(yīng)用很快就會(huì)被用戶所遺忘。開(kāi)發(fā)者希望使用非常靈活的數(shù)據(jù)庫(kù),能夠輕松容納新的數(shù)據(jù)類型,并且不會(huì)被第三方數(shù)據(jù)提供商內(nèi)容結(jié)構(gòu)的變化所累。很多新數(shù)據(jù)都是非結(jié)構(gòu)化或是半結(jié)構(gòu)化的,因此開(kāi)發(fā)者還需要能夠高效存儲(chǔ)這種數(shù)據(jù)的數(shù)據(jù)庫(kù)。但遺憾的是,關(guān)系型數(shù)據(jù)庫(kù)所使用的定義嚴(yán)格、基于模式的方式是無(wú)法快速容納新的數(shù)據(jù)類型的,對(duì)于非結(jié)構(gòu)化或是半結(jié)構(gòu)化的數(shù)據(jù)更是無(wú)能為力。NoSQL提供的數(shù)據(jù)模型則能很好地滿足這種需求。很多應(yīng)用都會(huì)從這種非結(jié)構(gòu)化數(shù)據(jù)模型中獲益,比如說(shuō)CRM、ERP、BPM等等,他們可以通過(guò)這種靈活性存儲(chǔ)數(shù)據(jù)而無(wú)需修改表或是創(chuàng)建更多的列。這些數(shù)據(jù)庫(kù)也非常適合于創(chuàng)建原型或是快速應(yīng)用,因?yàn)檫@種靈活性使得新特性的開(kāi)發(fā)變得非常容易。

2.NoSQL很容易實(shí)現(xiàn)可伸縮性(向上擴(kuò)展與水平擴(kuò)展)

如果有很多用戶在頻繁且并發(fā)地使用你的應(yīng)用,那么你就需要考慮可伸縮的數(shù)據(jù)庫(kù)技術(shù)而非傳統(tǒng)的RDBMS了。對(duì)于關(guān)系型技術(shù)來(lái)說(shuō),很多應(yīng)用開(kāi)發(fā)者會(huì)發(fā)現(xiàn)動(dòng)態(tài)的可伸縮性是難以實(shí)現(xiàn)的,這時(shí)就應(yīng)該考慮切換到NoSQL數(shù)據(jù)庫(kù)上。對(duì)于云應(yīng)用來(lái)說(shuō),關(guān)系型數(shù)據(jù)庫(kù)一開(kāi)始是普遍的選擇。然而,在使用過(guò)程中卻遇到了越來(lái)越多的問(wèn)題,原因就在于他們是中心化的,向上擴(kuò)展而非水平擴(kuò)展的。這使得他們不適合于那些需要簡(jiǎn)單且動(dòng)態(tài)可伸縮性的應(yīng)用。NoSQL數(shù)據(jù)庫(kù)從一開(kāi)始就是分布式、水平擴(kuò)展的,因此非常適合于互聯(lián)網(wǎng)應(yīng)用分布式的特性。

在三層互聯(lián)網(wǎng)架構(gòu)的Web/應(yīng)用層上,多年來(lái)向上擴(kuò)展已經(jīng)成為默認(rèn)的擴(kuò)展方式了。隨著應(yīng)用使用人數(shù)的激增,我們需要添加更多的服務(wù)器,性能則是通過(guò)負(fù)載均衡來(lái)實(shí)現(xiàn)的,這時(shí)的代價(jià)與用戶數(shù)量成線性比例關(guān)系。在NoSQL數(shù)據(jù)庫(kù)之前,數(shù)據(jù)庫(kù)層的默認(rèn)擴(kuò)展方式就是向上擴(kuò)展。為了支持更多的并發(fā)用戶以及存儲(chǔ)更多的數(shù)據(jù),你需要越來(lái)越好的服務(wù)器,更好的CPU、更多的內(nèi)存、更大的磁盤(pán)來(lái)維護(hù)所有表。然而,好的服務(wù)器意味著更加復(fù)雜、私有、并且也更加昂貴。這與Web/應(yīng)用層所使用的便宜的硬件形成了鮮明的對(duì)比。

3.動(dòng)態(tài)模式

關(guān)系型數(shù)據(jù)庫(kù)需要在添加數(shù)據(jù)前先定義好模式。比如說(shuō),你需要存儲(chǔ)客戶的電話號(hào)碼、姓名、地址、城市與州等信息,SQL數(shù)據(jù)庫(kù)需要提前知曉你要存的是什么。這對(duì)于敏捷開(kāi)發(fā)模式來(lái)說(shuō)是場(chǎng)災(zāi)難,因?yàn)槊看瓮瓿尚绿匦詴r(shí),數(shù)據(jù)庫(kù)的模式通常都需要改變。因此,如果在開(kāi)發(fā)過(guò)程中想將客戶喜歡的條目加到數(shù)據(jù)庫(kù)中,那就得向表中添加這一列才行,然后要做的就是將整個(gè)數(shù)據(jù)庫(kù)遷移到新的模式上。

4.自動(dòng)分片

由于是結(jié)構(gòu)化的,關(guān)系型數(shù)據(jù)庫(kù)通常會(huì)垂直擴(kuò)展,單臺(tái)服務(wù)器要持有整個(gè)數(shù)據(jù)庫(kù)來(lái)確??煽啃耘c數(shù)據(jù)的持續(xù)可用性。這樣做的代價(jià)就是非常昂貴、擴(kuò)展受到限制,并且數(shù)據(jù)庫(kù)基礎(chǔ)設(shè)施會(huì)成為失敗點(diǎn)。這個(gè)問(wèn)題的解決方案就是水平擴(kuò)展,添加服務(wù)器而不是為單臺(tái)服務(wù)器增加更多的能力。NoSQL數(shù)據(jù)庫(kù)通常都支持自動(dòng)分片,這意味著他們本質(zhì)上就會(huì)自動(dòng)在多臺(tái)服務(wù)器上分發(fā)數(shù)據(jù),應(yīng)用甚至都不知道這些事情。數(shù)據(jù)與查詢負(fù)載會(huì)自動(dòng)在多臺(tái)服務(wù)器上做到平衡,當(dāng)某臺(tái)服務(wù)器當(dāng)機(jī)時(shí),它能快速且透明地被替換掉。

5.復(fù)制

大多數(shù)NoSQL數(shù)據(jù)庫(kù)也支持自動(dòng)復(fù)制,這意味著你可以獲得高可用性與災(zāi)備恢復(fù)功能。從開(kāi)發(fā)者的角度來(lái)看,存儲(chǔ)環(huán)境本質(zhì)上是虛擬化的。

NoSQL數(shù)據(jù)庫(kù)面臨的挑戰(zhàn)

1.成熟度

RDBMS系統(tǒng)由來(lái)已久。NoSQL擁護(hù)者們會(huì)說(shuō)RDBMS的高齡是其衰退的標(biāo)志,不過(guò)對(duì)于大多數(shù)CIO來(lái)說(shuō),RDBMS的成熟讓人放心。對(duì)于大多數(shù)情況來(lái)說(shuō),RDBMS系統(tǒng)是穩(wěn)定且功能豐富的。相比較而言,大多數(shù)NoSQL數(shù)據(jù)庫(kù)則還有很多特性有待實(shí)現(xiàn)。

2.支持

企業(yè)需要的是安心,如果關(guān)鍵系統(tǒng)出現(xiàn)了故障,他們可以獲得即時(shí)的支持。所有RDBMS廠商都在不遺余力地提供良好的企業(yè)支持。與之相反,大多數(shù)NoSQL系統(tǒng)都是開(kāi)源項(xiàng)目,雖然每種數(shù)據(jù)庫(kù)都有那么幾家公司提供支持,不過(guò)這些公司大多都是小的初創(chuàng)公司,沒(méi)有全球支持資源,也沒(méi)有Oracle、微軟或是IBM那種令人放心的公信力。

3.分析與商業(yè)智能

NoSQL數(shù)據(jù)庫(kù)在Web 2.0應(yīng)用時(shí)代開(kāi)始出現(xiàn)。因此,大多數(shù)特性都是面向這些應(yīng)用的需要的。然而,應(yīng)用中的數(shù)據(jù)對(duì)于業(yè)務(wù)來(lái)說(shuō)是有價(jià)值的,這種價(jià)值遠(yuǎn)遠(yuǎn)超出了Web應(yīng)用那種CRUD。企業(yè)數(shù)據(jù)庫(kù)中的業(yè)務(wù)信息可以幫助改進(jìn)效率并提升競(jìng)爭(zhēng)力,商業(yè)智能對(duì)于大中型企業(yè)來(lái)說(shuō)是個(gè)非常關(guān)鍵的IT問(wèn)題。

4.管理

NoSQL的設(shè)計(jì)目標(biāo)是提供零管理的解決方案,不過(guò)當(dāng)今的現(xiàn)實(shí)卻離這個(gè)目標(biāo)還相去甚遠(yuǎn)?,F(xiàn)在的NoSQL需要很多技巧才能用好,并且需要不少人力、物力來(lái)維護(hù)。

5.專業(yè)

全球有很多開(kāi)發(fā)者,每個(gè)業(yè)務(wù)部門都會(huì)有熟悉RDBMS概念與編程的人。相反,幾乎每個(gè)NoSQL開(kāi)發(fā)者都處于學(xué)習(xí)模式。這種狀況會(huì)隨著時(shí)間的流逝而發(fā)生改觀。但現(xiàn)在,找到一個(gè)有經(jīng)驗(yàn)的RDBMS程序員或是管理員要比NoSQL專家容易多了。

結(jié)論

NoSQL數(shù)據(jù)庫(kù)正在成為數(shù)據(jù)庫(kù)領(lǐng)域的重要力量。如果使用恰當(dāng),那么它會(huì)帶來(lái)很多好處。然而,企業(yè)應(yīng)該非常小心并注意到這些數(shù)據(jù)庫(kù)的限制與問(wèn)題。

NoSQL這兩年越來(lái)越熱,尤其是大型互聯(lián)網(wǎng)公司非常熱衷這門技術(shù)。根據(jù)筆者的經(jīng)驗(yàn),并不是任何場(chǎng)景,NoSQL都要優(yōu)于關(guān)系型數(shù)據(jù)庫(kù)。下面我們來(lái)具體聊聊,什么時(shí)候使用NoSQL比較給力:

1) 數(shù)據(jù)庫(kù)表schema經(jīng)常變化?比如在線商城,維護(hù)產(chǎn)品的屬性經(jīng)常要增加字段,這就意味著ORMapping層的代碼和配置要改,如果該表的數(shù)據(jù)量過(guò)百萬(wàn),新增字段會(huì)帶來(lái)額外開(kāi)銷(重建索引等)。NoSQL應(yīng)用在這種場(chǎng)景,可以極大提升DB的可伸縮性,開(kāi)發(fā)人員可以將更多的精力放在業(yè)務(wù)層。

2)數(shù)據(jù)庫(kù)表字段是復(fù)雜數(shù)據(jù)類型

對(duì)于復(fù)雜數(shù)據(jù)類型,比如SQL Sever提供了可擴(kuò)展性的支持,像xml類型的字段。很多用過(guò)的同學(xué)應(yīng)該知道,該字段不管是查詢還是更改,效率非常一般。主要原因是是DB層對(duì)xml字段很難建高效索引,應(yīng)用層又要做從字符流到dom的解析轉(zhuǎn)換。NoSQL以json方式存儲(chǔ),提供了原生態(tài)的支持,在效率方便遠(yuǎn)遠(yuǎn)高于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。

3)高并發(fā)數(shù)據(jù)庫(kù)請(qǐng)求

此類應(yīng)用常見(jiàn)于web2.0的網(wǎng)站,很多應(yīng)用對(duì)于數(shù)據(jù)一致性要求很低,而關(guān)系型數(shù)據(jù)庫(kù)的事務(wù)以及大表join反而成了”性能殺手”。在高并發(fā)情況下,sql與no-sql的性能對(duì)比由于環(huán)境和角度不同一直是存在爭(zhēng)議的,并不是說(shuō)在任何場(chǎng)景,no-sql總是會(huì)比sql快。有篇article和大家分享下,http://artur.ejsmont.org/blog/content/insert-performance-comparison-of-nosql-vs-sql-servers

4)海量數(shù)據(jù)的分布式存儲(chǔ)

海量數(shù)據(jù)的存儲(chǔ)如果選用大型商用數(shù)據(jù),如Oracle,那么整個(gè)解決方案的成本是非常高的,要花很多錢在軟硬件上。NoSQL分布式存儲(chǔ),可以部署在廉價(jià)的硬件上,是一個(gè)性價(jià)比非常高的解決方案。Mongo的auto-sharding已經(jīng)運(yùn)用到了生產(chǎn)環(huán)境。http://www.mongodb.org/display/DOCS/Sharding

并不是說(shuō)NoSQL可以解決一切問(wèn)題,像ERP系統(tǒng)、BI系統(tǒng),在大部分情況還是推薦使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。主要的原因是此類系統(tǒng)的業(yè)務(wù)模型復(fù)雜,使用NoSQL將導(dǎo)致系統(tǒng)的維護(hù)成本增加。

為什么要使用NoSQL

NoSQL概念?隨著web2.0的快速發(fā)展,非關(guān)系型、分布式數(shù)據(jù)存儲(chǔ)得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來(lái)。NoSQL最常見(jiàn)的解釋是“non-relational”,“Not Only SQL”也被很多人接受。(“NoSQL”一詞最早于1998年被用于一個(gè)輕量級(jí)的關(guān)系數(shù)據(jù)庫(kù)的名字。)

NoSQL被我們用得最多的當(dāng)數(shù)key-value存儲(chǔ),當(dāng)然還有其他的文檔型的、列存儲(chǔ)、圖型數(shù)據(jù)庫(kù)、xml數(shù)據(jù)庫(kù)等。在NoSQL概念提出之前,這些數(shù)據(jù)庫(kù)就被用于各種系統(tǒng)當(dāng)中,但是卻很少用于web互聯(lián)網(wǎng)應(yīng)用。比如cdb、qdbm、bdb數(shù)據(jù)庫(kù)。

傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的瓶頸?傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)具有不錯(cuò)的性能,高穩(wěn)定型,久經(jīng)歷史考驗(yàn),而且使用簡(jiǎn)單,功能強(qiáng)大,同時(shí)也積累了大量的成功案例。在互聯(lián)網(wǎng)領(lǐng)域,MySQL成為了絕對(duì)靠前的王者,毫不夸張的說(shuō),MySQL為互聯(lián)網(wǎng)的發(fā)展做出了卓越的貢獻(xiàn)。

在90年代,一個(gè)網(wǎng)站的訪問(wèn)量一般都不大,用單個(gè)數(shù)據(jù)庫(kù)完全可以輕松應(yīng)付。在那個(gè)時(shí)候,更多的都是靜態(tài)網(wǎng)頁(yè),動(dòng)態(tài)交互類型的網(wǎng)站不多。

到了最近10年,網(wǎng)站開(kāi)始快速發(fā)展。火爆的論壇、博客、sns、微博逐漸引領(lǐng)web領(lǐng)域的潮流。在初期,論壇的流量其實(shí)也不大,如果你接觸網(wǎng)絡(luò)比較早,你可能還記得那個(gè)時(shí)候還有文本型存儲(chǔ)的論壇程序,可以想象一般的論壇的流量有多大。

Memcached+MySQL?后來(lái),隨著訪問(wèn)量的上升,幾乎大部分使用MySQL架構(gòu)的網(wǎng)站在數(shù)據(jù)庫(kù)上都開(kāi)始出現(xiàn)了性能問(wèn)題,web程序不再僅僅專注在功能上,同時(shí)也在追求性能。程序員們開(kāi)始大量的使用緩存技術(shù)來(lái)緩解數(shù)據(jù)庫(kù)的壓力,優(yōu)化數(shù)據(jù)庫(kù)的結(jié)構(gòu)和索引。開(kāi)始比較流行的是通過(guò)文件緩存來(lái)緩解數(shù)據(jù)庫(kù)壓力,但是當(dāng)訪問(wèn)量繼續(xù)增大的時(shí)候,多臺(tái)web機(jī)器通過(guò)文件緩存不能共享,大量的小文件緩存也帶了了比較高的IO壓力。在這個(gè)時(shí)候,Memcached就自然的成為一個(gè)非常時(shí)尚的技術(shù)產(chǎn)品。

Memcached作為一個(gè)獨(dú)立的分布式的緩存服務(wù)器,為多個(gè)web服務(wù)器提供了一個(gè)共享的高性能緩存服務(wù),在Memcached服務(wù)器上,又發(fā)展了根據(jù)hash算法來(lái)進(jìn)行多臺(tái)Memcached緩存服務(wù)的擴(kuò)展,然后又出現(xiàn)了一致性hash來(lái)解決增加或減少緩存服務(wù)器導(dǎo)致重新hash帶來(lái)的大量緩存失效的弊端。當(dāng)時(shí),如果你去面試,你說(shuō)你有Memcached經(jīng)驗(yàn),肯定會(huì)加分的。

Mysql主從讀寫(xiě)分離?由于數(shù)據(jù)庫(kù)的寫(xiě)入壓力增加,Memcached只能緩解數(shù)據(jù)庫(kù)的讀取壓力。讀寫(xiě)集中在一個(gè)數(shù)據(jù)庫(kù)上讓數(shù)據(jù)庫(kù)不堪重負(fù),大部分網(wǎng)站開(kāi)始使用主從復(fù)制技術(shù)來(lái)達(dá)到讀寫(xiě)分離,以提高讀寫(xiě)性能和讀庫(kù)的可擴(kuò)展性。Mysql的master-slave模式成為這個(gè)時(shí)候的網(wǎng)站標(biāo)配了。

分表分庫(kù)?隨著web2.0的繼續(xù)高速發(fā)展,在Memcached的高速緩存,MySQL的主從復(fù)制,讀寫(xiě)分離的基礎(chǔ)之上,這時(shí)MySQL主庫(kù)的寫(xiě)壓力開(kāi)始出現(xiàn)瓶頸,而數(shù)據(jù)量的持續(xù)猛增,由于MyISAM使用表鎖,在高并發(fā)下會(huì)出現(xiàn)嚴(yán)重的鎖問(wèn)題,大量的高并發(fā)MySQL應(yīng)用開(kāi)始使用InnoDB引擎代替MyISAM。同時(shí),開(kāi)始流行使用分表分庫(kù)來(lái)緩解寫(xiě)壓力和數(shù)據(jù)增長(zhǎng)的擴(kuò)展問(wèn)題。這個(gè)時(shí)候,分表分庫(kù)成了一個(gè)熱門技術(shù),是面試的熱門問(wèn)題也是業(yè)界討論的熱門技術(shù)問(wèn)題。也就在這個(gè)時(shí)候,MySQL推出了還不太穩(wěn)定的表分區(qū),這也給技術(shù)實(shí)力一般的公司帶來(lái)了希望。雖然MySQL推出了MySQL Cluster集群,但是由于在互聯(lián)網(wǎng)幾乎沒(méi)有成功案例,性能也不能滿足互聯(lián)網(wǎng)的要求,只是在高可靠性上提供了非常大的保證。

MySQL的擴(kuò)展性瓶頸?在互聯(lián)網(wǎng),大部分的MySQL都應(yīng)該是IO密集型的,事實(shí)上,如果你的MySQL是個(gè)CPU密集型的話,那么很可能你的MySQL設(shè)計(jì)得有性能問(wèn)題,需要優(yōu)化了。大數(shù)據(jù)量高并發(fā)環(huán)境下的MySQL應(yīng)用開(kāi)發(fā)越來(lái)越復(fù)雜,也越來(lái)越具有技術(shù)挑戰(zhàn)性。分表分庫(kù)的規(guī)則把握都是需要經(jīng)驗(yàn)的。雖然有像淘寶這樣技術(shù)實(shí)力強(qiáng)大的公司開(kāi)發(fā)了透明的中間件層來(lái)屏蔽開(kāi)發(fā)者的復(fù)雜性,但是避免不了整個(gè)架構(gòu)的復(fù)雜性。分庫(kù)分表的子庫(kù)到一定階段又面臨擴(kuò)展問(wèn)題。還有就是需求的變更,可能又需要一種新的分庫(kù)方式。

MySQL數(shù)據(jù)庫(kù)也經(jīng)常存儲(chǔ)一些大文本字段,導(dǎo)致數(shù)據(jù)庫(kù)表非常的大,在做數(shù)據(jù)庫(kù)恢復(fù)的時(shí)候就導(dǎo)致非常的慢,不容易快速恢復(fù)數(shù)據(jù)庫(kù)。比如1000萬(wàn)4KB大小的文本就接近40GB的大小,如果能把這些數(shù)據(jù)從MySQL省去,MySQL將變得非常的小。

關(guān)系數(shù)據(jù)庫(kù)很強(qiáng)大,但是它并不能很好的應(yīng)付所有的應(yīng)用場(chǎng)景。MySQL的擴(kuò)展性差(需要復(fù)雜的技術(shù)來(lái)實(shí)現(xiàn)),大數(shù)據(jù)下IO壓力大,表結(jié)構(gòu)更改困難,正是當(dāng)前使用MySQL的開(kāi)發(fā)人員面臨的問(wèn)題。

NOSQL的優(yōu)勢(shì)

易擴(kuò)展?NoSQL數(shù)據(jù)庫(kù)種類繁多,但是一個(gè)共同的特點(diǎn)都是去掉關(guān)系數(shù)據(jù)庫(kù)的關(guān)系型特性。數(shù)據(jù)之間無(wú)關(guān)系,這樣就非常容易擴(kuò)展。也無(wú)形之間,在架構(gòu)的層面上帶來(lái)了可擴(kuò)展的能力。

大數(shù)據(jù)量,高性能?NoSQL數(shù)據(jù)庫(kù)都具有非常高的讀寫(xiě)性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無(wú)關(guān)系性,數(shù)據(jù)庫(kù)的結(jié)構(gòu)簡(jiǎn)單。一般MySQL使用Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對(duì)web2.0的交互頻繁的應(yīng)用,Cache性能不高。而NoSQL的Cache是記錄級(jí)的,是一種細(xì)粒度的Cache,所以NoSQL在這個(gè)層面上來(lái)說(shuō)就要性能高很多了。

靈活的數(shù)據(jù)模型?NoSQL無(wú)需事先為要存儲(chǔ)的數(shù)據(jù)建立字段,隨時(shí)可以存儲(chǔ)自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫(kù)里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表,增加字段簡(jiǎn)直就是一個(gè)噩夢(mèng)。這點(diǎn)在大數(shù)據(jù)量的web2.0時(shí)代尤其明顯。

高可用?NoSQL在不太影響性能的情況,就可以方便的實(shí)現(xiàn)高可用的架構(gòu)。比如Cassandra,HBase模型,通過(guò)復(fù)制模型也能實(shí)現(xiàn)高可用。

總結(jié)?NoSQL數(shù)據(jù)庫(kù)的出現(xiàn),彌補(bǔ)了關(guān)系數(shù)據(jù)(比如MySQL)在某些方面的不足,在某些方面能極大的節(jié)省開(kāi)發(fā)成本和維護(hù)成本。 MySQL和NoSQL都有各自的特點(diǎn)和使用的應(yīng)用場(chǎng)景,兩者的緊密結(jié)合將會(huì)給web2.0的數(shù)據(jù)庫(kù)發(fā)展帶來(lái)新的思路。讓關(guān)系數(shù)據(jù)庫(kù)關(guān)注在關(guān)系上,NoSQL關(guān)注在存儲(chǔ)上。

關(guān)系數(shù)據(jù)庫(kù)還是NoSQL數(shù)據(jù)庫(kù)

上一篇簡(jiǎn)單的說(shuō)明了為什么要使用NoSQL。接下來(lái)我們看下如何把NoSQL引入到我們的項(xiàng)目中,我們到底要不要把NoSQL引入到項(xiàng)目中。

在過(guò)去,我們只需要學(xué)習(xí)和使用一種數(shù)據(jù)庫(kù)技術(shù),就能做幾乎所有的數(shù)據(jù)庫(kù)應(yīng)用開(kāi)發(fā)。因?yàn)槌墒旆€(wěn)定的關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品并不是很多,而供你選擇的免費(fèi)版本就更加少了,所以互聯(lián)網(wǎng)領(lǐng)域基本上都選擇了免費(fèi)的MySQL數(shù)據(jù)庫(kù)。在高速發(fā)展的WEB2.0時(shí)代,我們發(fā)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)在性能、擴(kuò)展性、數(shù)據(jù)的快速備份和恢復(fù)、滿足需求的易用性上并不總是能很好的滿足我們的需要,我們?cè)絹?lái)越趨向于根據(jù)業(yè)務(wù)場(chǎng)景選擇合適的數(shù)據(jù)庫(kù),以及進(jìn)行多種數(shù)據(jù)庫(kù)的融合運(yùn)用。幾年前的一篇文章《One Size Fits All - An Idea Whose Time Has Come and Gone》就已經(jīng)闡述了這個(gè)觀點(diǎn)。

當(dāng)我們?cè)谟懻撌欠褚褂肗oSQL的時(shí)候,你還需要理解NoSQL也是分很多種類的,在NoSQL百花齊放的今天,NoSQL的正確選擇比選擇關(guān)系數(shù)據(jù)庫(kù)還具有挑戰(zhàn)性。雖然NoSQL的使用很簡(jiǎn)單,但是選擇卻是個(gè)麻煩事,這也正是很多人在觀望的一個(gè)原因。

NoSQL的分類

NoSQL僅僅是一個(gè)概念,NoSQL數(shù)據(jù)庫(kù)根據(jù)數(shù)據(jù)的存儲(chǔ)模型和特點(diǎn)分為很多種類。

以上NoSQL數(shù)據(jù)庫(kù)類型的劃分并不是絕對(duì),只是從存儲(chǔ)模型上來(lái)進(jìn)行的大體劃分。它們之間沒(méi)有絕對(duì)的分界,也有交差的情況,比如Tokyo Cabinet / Tyrant的Table類型存儲(chǔ),就可以理解為是文檔型存儲(chǔ),Berkeley DB XML數(shù)據(jù)庫(kù)是基于Berkeley DB之上開(kāi)發(fā)的。

NoSQL還是關(guān)系數(shù)據(jù)庫(kù)?雖然09年出現(xiàn)了比較激進(jìn)的文章《關(guān)系數(shù)據(jù)庫(kù)已死》,但是我們心里都清楚,關(guān)系數(shù)據(jù)庫(kù)其實(shí)還活得好好的,你還不能不用關(guān)系數(shù)據(jù)庫(kù)。但是也說(shuō)明了一個(gè)事實(shí),關(guān)系數(shù)據(jù)庫(kù)在處理WEB2.0數(shù)據(jù)的時(shí)候,的確已經(jīng)出現(xiàn)了瓶頸。

那么我們到底是用NoSQL還是關(guān)系數(shù)據(jù)庫(kù)呢?我想我們沒(méi)有必要來(lái)進(jìn)行一個(gè)絕對(duì)的回答。我們需要根據(jù)我們的應(yīng)用場(chǎng)景來(lái)決定我們到底用什么。

如果關(guān)系數(shù)據(jù)庫(kù)在你的應(yīng)用場(chǎng)景中,完全能夠很好的工作,而你又是非常善于使用和維護(hù)關(guān)系數(shù)據(jù)庫(kù)的,那么我覺(jué)得你完全沒(méi)有必要遷移到NoSQL上面,除非你是個(gè)喜歡折騰的人。如果你是在金融,電信等以數(shù)據(jù)為王的關(guān)鍵領(lǐng)域,目前使用的是Oracle數(shù)據(jù)庫(kù)來(lái)提供高可靠性的,除非遇到特別大的瓶頸,不然也別貿(mào)然嘗試NoSQL。

然而,在WEB2.0的網(wǎng)站中,關(guān)系數(shù)據(jù)庫(kù)大部分都出現(xiàn)了瓶頸。在磁盤(pán)IO、數(shù)據(jù)庫(kù)可擴(kuò)展上都花費(fèi)了開(kāi)發(fā)人員相當(dāng)多的精力來(lái)優(yōu)化,比如做分表分庫(kù)(database sharding)、主從復(fù)制、異構(gòu)復(fù)制等等,然而,這些工作需要的技術(shù)能力越來(lái)越高,也越來(lái)越具有挑戰(zhàn)性。如果你正在經(jīng)歷這些場(chǎng)合,那么我覺(jué)得你應(yīng)該嘗試一下NoSQL了。

選擇合適的NoSQL?如此多類型的NoSQL,而每種類型的NoSQL又有很多,到底選擇什么類型的NoSQL來(lái)作為我們的存儲(chǔ)呢?這并不是一個(gè)很好回答的問(wèn)題,影響我們選擇的因素有很多,而選擇也可能有多種,隨著業(yè)務(wù)場(chǎng)景,需求的變更可能選擇又會(huì)變化。我們常常需要根據(jù)如下情況考慮:

1.數(shù)據(jù)結(jié)構(gòu)特點(diǎn)。包括結(jié)構(gòu)化、半結(jié)構(gòu)化、字段是否可能變更、是否有大文本字段、數(shù)據(jù)字段是否可能變化。

2.寫(xiě)入特點(diǎn)。包括insert比例、update比例、是否經(jīng)常更新數(shù)據(jù)的某一個(gè)小字段、原子更新需求。

3.查詢特點(diǎn)。包括查詢的條件、查詢熱點(diǎn)的范圍。比如用戶信息的查詢,可能就是隨機(jī)的,而新聞的查詢就是按照時(shí)間,越新的越頻繁。

NoSQL和關(guān)系數(shù)據(jù)庫(kù)結(jié)合?其實(shí)NoSQL數(shù)據(jù)庫(kù)僅僅是關(guān)系數(shù)據(jù)庫(kù)在某些方面(性能,擴(kuò)展)的一個(gè)彌補(bǔ),單從功能上講,NoSQL的幾乎所有的功能,在關(guān)系數(shù)據(jù)庫(kù)上都能夠滿足,所以選擇NoSQL的原因并不在功能上。

所以,我們一般會(huì)把NoSQL和關(guān)系數(shù)據(jù)庫(kù)進(jìn)行結(jié)合使用,各取所長(zhǎng),需要使用關(guān)系特性的時(shí)候我們使用關(guān)系數(shù)據(jù)庫(kù),需要使用NoSQL特性的時(shí)候我們使用NoSQL數(shù)據(jù)庫(kù),各得其所。

舉個(gè)簡(jiǎn)單的例子吧,比如用戶評(píng)論的存儲(chǔ),評(píng)論大概有主鍵id、評(píng)論的對(duì)象aid、評(píng)論內(nèi)容content、用戶uid等字段。我們能確定的是評(píng)論內(nèi)容content肯定不會(huì)在數(shù)據(jù)庫(kù)中用where content=’’查詢,評(píng)論內(nèi)容也是一個(gè)大文本字段。那么我們可以把 主鍵id、評(píng)論對(duì)象aid、用戶id存儲(chǔ)在數(shù)據(jù)庫(kù),評(píng)論內(nèi)容存儲(chǔ)在NoSQL,這樣數(shù)據(jù)庫(kù)就節(jié)省了存儲(chǔ)content占用的磁盤(pán)空間,從而節(jié)省大量IO,對(duì)content也更容易做Cache。

//從MySQL中查詢出評(píng)論主鍵id列表 commentIds=DB.query(“SELECT id FROM comments where aid=’評(píng)論對(duì)象id’ LIMIT 0,20”); //根據(jù)主鍵id列表,從NoSQL取回評(píng)論實(shí)體數(shù)據(jù) CommentsList=NoSQL.get(commentIds);NoSQL代替MySQL 在某些應(yīng)用場(chǎng)合,比如一些配置的關(guān)系鍵值映射存儲(chǔ)、用戶名和密碼的存儲(chǔ)、Session會(huì)話存儲(chǔ)等等,用NoSQL完全可以替代MySQL存儲(chǔ)。不但具有更高的性能,而且開(kāi)發(fā)也更加方便。

NoSQL作為緩存服務(wù)器?MySQL+Memcached的架構(gòu)中,我們處處都要精心設(shè)計(jì)我們的緩存,包括過(guò)期時(shí)間的設(shè)計(jì)、緩存的實(shí)時(shí)性設(shè)計(jì)、緩存內(nèi)存大小評(píng)估、緩存命中率等等。

NoSQL數(shù)據(jù)庫(kù)一般都具有非常高的性能,在大多數(shù)場(chǎng)景下面,你不必再考慮在代碼層為NoSQL構(gòu)建一層Memcached緩存。NoSQL數(shù)據(jù)本身在Cache上已經(jīng)做了相當(dāng)多的優(yōu)化工作。

Memcached這類內(nèi)存緩存服務(wù)器緩存的數(shù)據(jù)大小受限于內(nèi)存大小,如果用NoSQL來(lái)代替Memcached來(lái)緩存數(shù)據(jù)庫(kù)的話,就可以不再受限于內(nèi)存大小。雖然可能有少量的磁盤(pán)IO讀寫(xiě),可能比Memcached慢一點(diǎn),但是完全可以用來(lái)緩存數(shù)據(jù)庫(kù)的查詢操作。

規(guī)避風(fēng)險(xiǎn)?由于NoSQL是一個(gè)比較新的東西,特別是我們選擇的NoSQL數(shù)據(jù)庫(kù)還不是非常成熟的產(chǎn)品,所以我們可能會(huì)遇到未知的風(fēng)險(xiǎn)。為了得到NoSQL的好處,又要考慮規(guī)避風(fēng)險(xiǎn),魚(yú)與熊掌如何兼得?

現(xiàn)在業(yè)內(nèi)很多公司的做法就是數(shù)據(jù)的備份。在往NoSQL里面存儲(chǔ)數(shù)據(jù)的時(shí)候還會(huì)往MySQL里面存儲(chǔ)一份。NoSQL數(shù)據(jù)庫(kù)本身也需要進(jìn)行備份(冷備和熱備)。或者可以考慮使用兩種NoSQL數(shù)據(jù)庫(kù),出現(xiàn)問(wèn)題后可以進(jìn)行切換(避免出現(xiàn)digg使用Cassandra的悲?。?。

總結(jié)?本文只是簡(jiǎn)單的從MySQL和NoSQL的角度分析如何選擇,以及進(jìn)行融合使用。其實(shí)在選擇NoSQL的時(shí)候,你可能還會(huì)碰到關(guān)于CAP原則,最終一致性,BASE思想的考慮。因?yàn)槭褂肕ySQL架構(gòu)的時(shí)候,你也會(huì)碰到上面的問(wèn)題,所以這里沒(méi)有闡述。

大數(shù)據(jù)學(xué)習(xí)資料分享群 232840209 不管你是小白還是大牛,小編我都挺歡迎,今天的源碼已經(jīng)上傳到群文件,不定期分享干貨,包括我自己整理的一份最新的適合2018年學(xué)習(xí)的大數(shù)據(jù)開(kāi)發(fā)和零基礎(chǔ)入門教程,歡迎初學(xué)和進(jìn)階中的小伙伴。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容