本文力求以簡單易懂的語言描述出數(shù)據(jù)庫發(fā)展史,盡量避免出現(xiàn)復雜的概念介紹。數(shù)據(jù)庫演進史如圖1所示:

一、穿孔紙帶和文件系統(tǒng)
在現(xiàn)代意義的數(shù)據(jù)庫出現(xiàn)之前(20世紀60年代),人們通過人工和文件系統(tǒng)的方式來存儲、管理數(shù)據(jù)。在人工管理時期,人們常使用穿孔紙帶來管理數(shù)據(jù)(圖2),雖然穿孔紙帶因不具備電子化特征、不能被稱為數(shù)據(jù)庫,但其代表著人們在數(shù)據(jù)存儲結構上思考和實踐的結果,有必要單獨提及。

隨著數(shù)據(jù)量的增多以及計算機技術、存儲技術的快速發(fā)展,穿孔紙帶這一紙質存儲媒介很快就被磁盤、磁鼓(圖3)等磁性存儲設備所取代。在軟件方面,操作系統(tǒng)中也出現(xiàn)了專門管理數(shù)據(jù)的軟件,被稱為文件系統(tǒng)(例如我們電腦里的C,D,E盤)。
文件系統(tǒng)可以說是最早的數(shù)據(jù)庫了,操作系統(tǒng)提供的文件管理方法使得程序可以通過文件名來訪問文件中的數(shù)據(jù),不必再尋找數(shù)據(jù)的物理位置。相比較手工處理的方式,文件系統(tǒng)使得管理數(shù)據(jù)變得簡單一些,使用者不需要再翻來覆去地查找文件的位置,但是文件內的數(shù)據(jù)仍然沒有組織起來,程序員需要在腦海中嘗試構造出數(shù)據(jù)與數(shù)據(jù)的關系,再編寫代碼才能從文件中提取關鍵數(shù)據(jù)。除過數(shù)據(jù)結構和數(shù)據(jù)關系不完整的問題外,此時的數(shù)據(jù)只面向某個應用或者某個程序,數(shù)據(jù)的共享性也有著一定的問題。

隨著數(shù)據(jù)量的增長以及企業(yè)對數(shù)據(jù)共享的要求越來越高,人們開始提出數(shù)據(jù)庫管理系統(tǒng)(Database Management System, DBMS)的概念,對數(shù)據(jù)模型展開了更深層次的思考。
二、數(shù)據(jù)模型
通俗地講數(shù)據(jù)模型就是對現(xiàn)實世界的模擬,是對現(xiàn)實世界數(shù)據(jù)特征的抽象。這個抽象的過程并不是一蹴而就的,事物的抽象存在多個層次,需要用到不同的模型來進行描述。在前輩們的不斷探索中,數(shù)據(jù)模型被劃分為三個層次,第一個層次為概念模型(又稱信息模型);第二層次為邏輯模型;第三層次為物理模型。
概念模型中就是從現(xiàn)實世界中抽取出事物、事物特征、事物間的聯(lián)系等信息,并通過概念精確地加以描述。在這個層次進行數(shù)據(jù)建模時,有一些概念必須要知道,分別是實體、屬性和聯(lián)系。在現(xiàn)實世界中客觀存在的事物或事件被稱為實體,例如一只羊,一名學生,一張單據(jù),甚至一份“用餐記錄”等。實體具有的某方面特性叫做屬性,例如學生的屬性有姓名、年齡等。現(xiàn)實世界中事物彼此的聯(lián)系在概念模型中反映為實體之間的聯(lián)系。聯(lián)系有以下幾種(圖4)

????????邏輯模型是按照計算機系統(tǒng)的觀點對數(shù)據(jù)進行建模,用于DBMS的實現(xiàn)。而物理模型則用于描述數(shù)據(jù)在磁盤或系統(tǒng)中的表示方式和存取方法。
三、層次模型與網(wǎng)絡模型
通用電氣的工程師CharlesW.Bachman領導開發(fā)了全球第一個數(shù)據(jù)庫管理系統(tǒng)-網(wǎng)狀數(shù)據(jù)庫管理系統(tǒng)(IDS),并于1964年正式推出。IDS采用網(wǎng)狀結構,很好地模擬了現(xiàn)實世界中事物間的多種聯(lián)系。
網(wǎng)狀結構有多種表現(xiàn)形式(圖5)

為便于讀者理解,舉一個例子加以說明

同時期為解決“阿波羅登月”計劃處理龐大數(shù)據(jù)量的需求,北美航空公司(NAA)開發(fā)出 GUAM(Generalized Update Access Method)軟件。其設計思想是將多個小組件構成較大組件,最終組成完整產(chǎn)品。這是一種倒置樹的結構,也被稱之為層次結構,層次結構僅能表示一對多的關系。隨后IBM加入NAA,將 GUAM 發(fā)展成為 IMS(Information Management System)系統(tǒng)并發(fā)布于1968年。
為便于讀者理解,舉一個例子加以說明(圖7、8)。


相比較于文件系統(tǒng)來說,層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)和程序的分離,但是缺乏理論基礎,而且也不方便使用。原因在于使用者在查找一個數(shù)據(jù)時,總要先在腦海中構建出當前的層次結構或網(wǎng)絡結構,接著才能按照從屬關系編碼再查找。若在一個系統(tǒng)中有上千個實體的話,這就是人力所不能及的了。
四、關系模型的發(fā)展及完善
1970年, IBM 實驗室的Edgar Frank Codd 發(fā)表了一篇題為《大型共享數(shù)據(jù)庫數(shù)據(jù)的關系模型》論文,提出基于集合論和謂詞邏輯的關系模型,為關系型數(shù)據(jù)庫技術奠定了理論基礎。關系模型最大的創(chuàng)新點是拆掉了表與表之間的聯(lián)系,將這種關系只存儲在表中的一個字段中,從而實現(xiàn)了表與表之間的獨立(圖9)。

若采用關系結構對上述的“系-教研室/學生-教職工”進行建模,建成的模型將會成為這樣。例如在提取教研室的數(shù)據(jù)時,碰到系編號這個字段,就會自然而然地連接到系的具體數(shù)據(jù)中。
當時Codd提出這個模型后,受限于當時的硬件條件,這個模型遭到了很多批評,人們認為這種模型是難以實現(xiàn)的。正如上述這個例子,當在檢索教研室這個表的數(shù)據(jù)時,碰到系編號這個字段時就需要再去遍歷一遍這張表的數(shù)據(jù),這種提取數(shù)據(jù)的方式讓當時的機器難以承受。但是在摩爾定律的加持下,這些問題迎刃而解,這種建立在嚴格數(shù)學概念上的關系模型很快就得到了學術界和工業(yè)界的青睞。
從數(shù)據(jù)關系理論到架構一個真實的關系數(shù)據(jù)庫系統(tǒng)之間還有很長的一段路要走,在這個過程中,有很多公司、學者都貢獻出了自己的成果,共同推動著數(shù)據(jù)庫領域的發(fā)展。1973年,IBM啟動了驗證關系型數(shù)據(jù)庫系統(tǒng)的項目System R,同年伯克利大學的Michael Stonebraker等人啟動了關系數(shù)據(jù)的研究項目 Ingres(interactive graphics andretrieval system)。
????????1974 年,Ingres 誕生,為后續(xù)大量基于其源碼開發(fā)的PostgreSQL、Sybase、Informix 、Tandem和Sql Server等著名產(chǎn)品打下堅實基礎。1976年,P.P.Chen提出了實體-聯(lián)系模型(簡稱E-R模型),這種模型常被用來描述、抽象概念數(shù)據(jù)模型(詳細解釋可閱讀這篇文章https://zhuanlan.zhihu.com/p/356216273)。
????????1979年,Oracle誕生,從誕生之日起,Oracle就一直是數(shù)據(jù)庫領域處于領先的產(chǎn)品。1983年,經(jīng)過長達十年的開發(fā)與測試,IBM發(fā)布了Database2,這標志著DB2的正式誕生。
1985年,為存儲、表達更為復雜的數(shù)據(jù)結構(例如嵌套表、非結構化數(shù)據(jù)等),人們提出了面向對象的數(shù)據(jù)模型,這種模型吸收了層次、網(wǎng)狀和關系數(shù)據(jù)庫等各類數(shù)據(jù)模型的特點,并借鑒了面向對象的設計方法。面向對象的數(shù)據(jù)模型將所有事物都看作是一個對象,每個對象的定義包括狀態(tài)和行為兩個方面,其中狀態(tài)由一組屬性組成,行為由一組方法組成,具有相同屬性和方法的對象構成一個對象類。(詳細解釋可閱讀這篇文章https://blog.51cto.com/nu1l/2834178)
雖然面向對象的數(shù)據(jù)模型很早就被提出來了,但是真正結果還得等到20多年之后,在當時來說,仍然還是關系型數(shù)據(jù)庫的天下。1986 年,美國國家標準局(ANSI)數(shù)據(jù)庫委員會批準SQL作為數(shù)據(jù)庫語言的美國標準并公布標準 SQL 文本。1987 年,國際標準化組織(ISO)也做出了同樣決定,對 SQL 進行標準化規(guī)范并不斷更新,使得 SQL 成為關系型數(shù)據(jù)庫的主流語言。此后相當長的一段時間內,不論是微機、小型機還是大型機,不論是哪種數(shù)據(jù)庫系統(tǒng),都采用SQL 作為數(shù)據(jù)存取語言,各個公司紛紛推出各自支持SQL的軟件或接口。
1988年SQL Server誕生。微軟、Sybase等公司合作,在Sybase的基礎上生產(chǎn)出了在OS/2操作系統(tǒng)上使用的SQL Server 1.0。各大公司在關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的實現(xiàn)和產(chǎn)品開發(fā)中,都遇到了一系列技術問題,主要是在數(shù)據(jù)庫的規(guī)模愈來愈大,數(shù)據(jù)庫的結構愈來愈復雜,又有愈來愈多的用戶共享數(shù)據(jù)庫的情況下,如何保障數(shù)據(jù)的完整性(Integrity)、安全性(Security)、并行性(Concurrency),以及一旦出現(xiàn)故障后,數(shù)據(jù)庫如何實現(xiàn)從故障中恢復(Recovery)。這些問題如果不能圓滿解決,無論哪個公司的數(shù)據(jù)庫產(chǎn)品都無法進入實用階段,最終不能被用戶所接受。
在當時爭論紛繁的數(shù)據(jù)庫學術大戰(zhàn)中,Jim Gray將數(shù)據(jù)庫研究轉向底層,同時思考各種數(shù)據(jù)庫都面臨的并發(fā)和故障恢復等基本問題。最終,Jim Gray理清了事務的基本概念以及開創(chuàng)性的提出了目前數(shù)據(jù)庫事務處理機制的基礎ACID屬性,并且給出來許多具體的實現(xiàn)機制,他的研究成果反映在他發(fā)表的一系列論文和研究報告之中,最后結晶為一部厚厚的專著《Transaction Processing:Concepts andTechniques》。這不僅為數(shù)據(jù)庫事務處理的發(fā)展奠定了夯實的基礎,而且確保了現(xiàn)今電子化的商業(yè)和金融系統(tǒng)的可靠運行。

五、數(shù)據(jù)庫能力的拓展
隨著關系型數(shù)據(jù)庫的發(fā)展以及不同業(yè)務場景的數(shù)字化,人們逐漸產(chǎn)生通過數(shù)據(jù)監(jiān)控業(yè)務發(fā)展,并通過數(shù)據(jù)分析來輔助業(yè)務發(fā)展的想法。在此想法之上,1988年,數(shù)據(jù)倉庫的概念被正式提出。數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、隨時間變化的用來支持管理人員決策的數(shù)據(jù)集合。
單從概念來說,很難理解數(shù)據(jù)倉庫究竟是一個什么東西。舉個例子,一個企業(yè)不同業(yè)務的數(shù)據(jù)存放在不同的數(shù)據(jù)庫中,若沒有數(shù)據(jù)倉庫這個產(chǎn)品,數(shù)據(jù)分析師或業(yè)務分析人員就必須從各個業(yè)務數(shù)據(jù)庫中拉取自己所需要的數(shù)據(jù),而各個數(shù)據(jù)庫的命名規(guī)則、存取規(guī)則、格式可能都各不相同,這就造成業(yè)務分析人員必須做大量工作來整理自己所需要的數(shù)據(jù),而且這一結果不能被復用,需要做大量重復的工作。數(shù)據(jù)倉庫就解決了這些問題。
盡管當時的人們已經(jīng)有了數(shù)據(jù)倉庫的概念,但是對于數(shù)據(jù)倉庫的實現(xiàn)方式,一直爭論不休。直到1991年Bill Inmon出版了《Buildingthe Data Warehouse》(建立數(shù)據(jù)倉庫)這本書,數(shù)據(jù)倉庫實現(xiàn)方法的爭論才告一段落。在這本書中,Inmon不僅對數(shù)據(jù)倉庫提出了更精確的定義- 數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關的、不可修改的數(shù)據(jù)集合,而且提出了范式建模的數(shù)據(jù)倉庫建設方法。盡管后來范式建模受到了維度建模的挑戰(zhàn)(可以詳見這篇文章:https://segmentfault.com/a/1190000006255954),但因Inmon的巨大影響力,他被尊稱為“數(shù)據(jù)倉庫之父”。

在有了數(shù)據(jù)倉庫概念和具體實現(xiàn)方法后,人們嘗試在此基礎上做數(shù)據(jù)分析,但在分析過程中,人們發(fā)現(xiàn)使用關系數(shù)據(jù)庫對多維數(shù)據(jù)進行分析時效率非常低。原因在于關系數(shù)據(jù)庫并不是專為數(shù)據(jù)分析而打造的,要想提升分析效率,人們還需要一個支持多維數(shù)據(jù)的處理引擎。1993年,關系型數(shù)據(jù)庫創(chuàng)始人Edgar F. Codd提出聯(lián)機分析處理(OLAP)的概念,目標是為了滿足決策支持、報表展示以及多維數(shù)據(jù)查詢的需求。
六、開源成果涌現(xiàn)
到目前為止,數(shù)據(jù)庫只覆蓋了少數(shù)業(yè)務領域,數(shù)據(jù)庫使用者局限在大型商超、金融機構、學術研究機構等業(yè)務機構中。且當時的數(shù)據(jù)庫也被IBM、Oracle等公司壟斷著,數(shù)據(jù)庫仍然是一個比較小眾的軟件。但在同一時期互聯(lián)網(wǎng)開始進入了尋常百姓家,互聯(lián)網(wǎng)行業(yè)迎來了快速發(fā)展,涌現(xiàn)出了大量的網(wǎng)頁、網(wǎng)站和互聯(lián)網(wǎng)公司。人們需要數(shù)據(jù)庫來存儲網(wǎng)頁的相關數(shù)據(jù),但當時的商業(yè)數(shù)據(jù)庫又太貴或者因查詢性能不足而無法滿足人們的需求,Stonebraker等人的努力在此時開枝散葉,由于他將Ingres的源碼公布在網(wǎng)上,教會了很多人如何架構數(shù)據(jù)庫,從而在一定程度上促進了當時數(shù)據(jù)庫開源運動的興起,其中最著名的兩個成果就是1996年發(fā)布的MySQL和PostgreSQL。

七、NoSQL(Not Only SQL)時代
而隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的蓬勃發(fā)展,接入互聯(lián)網(wǎng)的用戶逐漸增多,用戶的需求越來越多以及數(shù)據(jù)的不斷提升,傳統(tǒng)單機關系型數(shù)據(jù)庫已經(jīng)無法滿足人們的需求了。人們在數(shù)據(jù)庫領域開始尋求新的出路,其中有兩個值得提起的分支,一個分支是探索多種數(shù)據(jù)模型和存儲介質的數(shù)據(jù)庫,早期比較有影響力的項目是Memcached,這個項目采用了鍵值模型來建立數(shù)據(jù)模型;另外一個分支就是分布式數(shù)據(jù)庫,人們希望用多臺機器形成集群來存儲、處理數(shù)據(jù),其中最具影響力和代表性的事件是Google于2003年至2006年發(fā)布的三篇論文,分別是Google File System、Google Big table和Google MapReduce,奠定了分布式數(shù)據(jù)系統(tǒng)基礎。

由于傳統(tǒng)基于集中式數(shù)據(jù)庫在應對海量數(shù)據(jù)及復雜分析處理時,存在數(shù)據(jù)庫的橫向擴展能力受限、數(shù)據(jù)存儲和計算能力受限、不能滿足業(yè)務瞬時高峰的性能等根本性的架構問題。利用分布式計算和內存計算等新技術設計的分布式數(shù)據(jù)庫能夠解決上述遇到的性能不足等問題。分布式數(shù)據(jù)庫的數(shù)據(jù)分散在網(wǎng)絡上多個互聯(lián)的節(jié)點上,數(shù)據(jù)量、寫入讀取的負載均衡分散到多個單機中,集群中某個節(jié)點故障時整個集群仍然能繼續(xù)工作,數(shù)據(jù)通過分片、復制、分區(qū)等方式實現(xiàn)分布存儲。
2007年,Hbase誕生,其理論基礎正是Google在2006年所提出的Big table。它是以分布式存儲作為基礎的數(shù)據(jù)庫,底層存儲基于分布式文件系統(tǒng)具備了分片或者分區(qū)存儲的能力,擴大了普通存儲設備的存儲系統(tǒng)的上限。同年Amazon發(fā)表了Dynamo論文,這篇論文第一次在非關系型數(shù)據(jù)庫領域引入了數(shù)據(jù)庫的底層特性,奠定了后續(xù)NoSQL數(shù)據(jù)庫領域的部分基礎特性。
2008年9 月,美國《自然》(Nature)雜志??猅he next google,第一次正式提出“大數(shù)據(jù)”概念。這個概念的真正意義在于,數(shù)據(jù)被認為是人類認知世界的一種新型方法,人們可以通過數(shù)據(jù)來了解、探索、觀察、研究世界。
關系型數(shù)據(jù)庫不能較好地處理高并發(fā)讀寫、多結構化數(shù)據(jù)存儲等情景。為應對這一問題,數(shù)據(jù)庫供應商和開源社區(qū)都提出了各種解決方案,例如通過分庫、分表、加緩存等方式來提升性能,但底層的關系設計仍然是性能天花板的根本原因。此時NoSQL數(shù)據(jù)庫應運而生,它擴展了諸多數(shù)據(jù)模型,在不同場景下使用不同的數(shù)據(jù)模型來進行處理。其代表成果是2009推出的文檔數(shù)據(jù)庫Mongdb、2010年推出的鍵值數(shù)據(jù)庫Redis和2010年推出的圖數(shù)據(jù)庫Neo4j。這類NoSQL數(shù)據(jù)庫極大地擴展了人們存儲、使用數(shù)據(jù)的方式。
八、NewSQL時代
這種NoSQL數(shù)據(jù)庫雖然解決了高并發(fā)讀寫、多結構化數(shù)據(jù)存儲等問題,但其設計思路是犧牲事務處理、一致性以及犧牲SQL換來的。而SQL、事務的重要性讓人們開始反思怎么樣才能在解決前述問題的基礎上保留SQL和事務的能力。Google 于2012年發(fā)布了Spanner的論文,這篇文章創(chuàng)新性地提出了TrueTime的概念,它在第一代 NoSQL 系統(tǒng)的基礎之上引入了 SQL 和分布式事務,保證了強一致性。(也正是這篇論文,宣布了NoSQL時代的結束,數(shù)據(jù)庫發(fā)展來到了NewSQL的階段)
這篇文章在工業(yè)界和學術界都有著巨大的反響,截止2022年4月,對其開源實現(xiàn)最好的產(chǎn)品是于2015年誕生的CockroachDB和TiDB(可閱讀https://www.zhihu.com/question/60686555/answer/1531192635)。和Spanner及它的追隨者不同的是,Amazon在面對這一問題時,選擇了完全不同的路徑,Amazon 發(fā)布的Aurora 是一個存儲計算分離的系統(tǒng),運行在公有云之上,它的設計思想很巧妙,它把存儲與計算分離使得可以非常簡單得實現(xiàn)存儲能力的可擴展。并于2017年在SIGMOD上發(fā)表了《Amazon Aurora: Design Considerations for High Throughput Cloud-NativeRelational Databases》這篇論文,披露了Aurora的一些技術實現(xiàn)細節(jié)。
九、未來展望
大數(shù)據(jù)時代,數(shù)據(jù)量不斷爆炸式增長,數(shù)據(jù)存儲結構也越來越靈活多樣,日益變革的新興業(yè)務需求催生數(shù)據(jù)庫及應用系統(tǒng)的存在形式愈發(fā)豐富,這些變化均對數(shù)據(jù)庫的各類能力不斷提出挑戰(zhàn),推動數(shù)據(jù)庫的不斷演進??偟膩碚f可能會有四個方向,第一個方向是垂直領域的數(shù)據(jù)庫,例如工業(yè)數(shù)據(jù)庫、財經(jīng)數(shù)據(jù)庫等。
截止目前為止,數(shù)據(jù)庫都是“通才“,企圖囊括所有領域,而并非深耕某一垂直領域。第二個方向是分布式數(shù)據(jù)庫,通過“分布式”解決水平擴展性與容災高可用兩個問題,并且有融合OLAP的潛力。第三個方向是云原生數(shù)據(jù)庫,云原生數(shù)據(jù)庫能夠隨時隨地從前端訪問,提供云服務的計算節(jié)點,并且能夠靈活及時調動資源進行擴容,助力企業(yè)降本增效。以亞馬遜AWS、阿里云、Snowflake等為代表的企業(yè),開創(chuàng)了云原生數(shù)據(jù)庫時代。第四個方向是數(shù)據(jù)安全領域,在如今這樣一個什么都可以量化的年代,數(shù)據(jù)是很多企業(yè)的生命線,而第三方服務商并非真正中立,誰愿意自己的命根被掌握在別人手里呢?在未來,隱私計算和區(qū)塊鏈技術可能會幫助數(shù)據(jù)庫發(fā)展得更好,共同解決數(shù)據(jù)安全的問題。
參考文獻:
[1]中國信息通信研究院,數(shù)據(jù)庫發(fā)展研究報告(2021 年)
[2]Spanner: Google’s Globally-DistributedDatabase
[3]Amazon Aurora: Design Considerations for High Throughput Cloud-NativeRelational Databases
[4]中國人民大學信息學院,數(shù)據(jù)庫系統(tǒng)概論
[5]Google File System、Google Bigtable 和 Google MapReduce
[6]吳鶴齡.關系數(shù)據(jù)庫的標準語言——SQL[J].計算機研究與發(fā)展,1989(06):7
注:
歡迎轉載,但請在文章末尾或文章開頭注明來源