《編程原理系列》02 - PHP數(shù)據(jù)結(jié)構(gòu)剖析

一、HashTable——核心數(shù)據(jù)結(jié)構(gòu)

HashTable是Zend的核心數(shù)據(jù)結(jié)構(gòu),在PHP里面幾乎并用來實(shí)現(xiàn)所有常見功能,我們知道的PHP數(shù)組即是其典型應(yīng)用,此外,在zend內(nèi)部,如函數(shù)符號(hào)表、全局變量等也都是基于hash table具有如下特點(diǎn):

  • 支持典型的key->value查詢
  • 可以當(dāng)做數(shù)組使用
  • 添加、刪除節(jié)點(diǎn)是O(1)復(fù)雜度
  • key支持混合類型:同時(shí)存在關(guān)聯(lián)數(shù)組合索引數(shù)組
  • Value支持混合類型:array("string",2332)
  • 支持線性遍歷:如foreach

Zend hash table實(shí)現(xiàn)了典型的hash表散列結(jié)構(gòu),同時(shí)通過附加一個(gè)雙向鏈表,提供了正向、反向遍歷數(shù)組的功能。其結(jié)構(gòu)如下圖:

可以看到,在hash table中既有key->value形式的散列結(jié)構(gòu),也有雙向鏈表模式,使得它能夠非常方便的支持快速查找和線性遍歷。

散列結(jié)構(gòu):Zend的散列結(jié)構(gòu)是典型的hash表模型,通過鏈表的方式來解決沖突。需要注意的是zend的hash table是一個(gè)自增長的數(shù)據(jù)結(jié)構(gòu),當(dāng)hash表數(shù)目滿了之后,其本身會(huì)動(dòng)態(tài)以2倍的方式擴(kuò)容并重新元素位置。初始大小均為8。另外,在進(jìn)行 key->value快速查找時(shí)候,zend本身還做了一些優(yōu)化,通過空間換時(shí)間的方式加快速度。比如在每個(gè)元素中都會(huì)用一個(gè)變量 nKeyLength標(biāo)識(shí)key的長度以作快速判定。

雙向鏈表:Zend hash table通過一個(gè)鏈表結(jié)構(gòu),實(shí)現(xiàn)了元素的線性遍歷。理論上,做遍歷使用單向鏈表就夠了,之所以使用雙向鏈表,主要目的是為了快速刪除,避免遍歷。 Zend hash table是一種復(fù)合型的結(jié)構(gòu),作為數(shù)組使用時(shí),即支持常見的關(guān)聯(lián)數(shù)組也能夠作為順序索引數(shù)字來使用,甚至允許2者的混合。

PHP關(guān)聯(lián)數(shù)組:關(guān)聯(lián)數(shù)組是典型的hash_table應(yīng)用。一次查詢過程經(jīng)過如下幾步(從代碼可以看出,這是一個(gè)常見的hash查詢過程并增加一些快速判定加速查找):

01  getKeyHashValue h;
02  index = n & nTableMask;
03  Bucket *p = arBucket[index];
04  while (p) {
05      if ((p->h == h) && (p->nKeyLength == nKeyLength)) {
06          RETURN p->data;   
07      }
08      p=p->next;
09  }
10  RETURN FALTURE;

PHP索引數(shù)組:索引數(shù)組就是我們常見的數(shù)組,通過下標(biāo)訪問。例如 arr[0],Zend HashTable內(nèi)部進(jìn)行了歸一化處理,對(duì)于index類型key同樣分配了hash值和nKeyLength(為0)。內(nèi)部成員變量 nNextFreeElement就是當(dāng)前分配到的最大id,每次push后自動(dòng)加一。

正是這種歸一化處理,PHP才能夠?qū)崿F(xiàn)關(guān)聯(lián)和非關(guān)聯(lián)的混合。由于 push操作的特殊性,索引key在PHP數(shù)組中先后順序并不是通過下標(biāo)大小來決定,而是由push的先后決定。例如 arr[1] = 2; arr[2] = 3;對(duì)于double類型的key,Zend HashTable會(huì)將他當(dāng)做索引key處理

二、PHP變量實(shí)現(xiàn)原理

PHP是一門弱類型語言,不嚴(yán)格區(qū)分變量的類型。PHP在變量申明的時(shí)候不需要指定類型。PHP在程序運(yùn)行期間可能進(jìn)行變量類型的隱示 轉(zhuǎn)換。 和其他強(qiáng)類型語言一樣,程序中也可以進(jìn)行顯示的類型轉(zhuǎn)換。PHP變量可以分為簡單類型(int、string、bool)、集合類型(array 、resource 、object)和常量(const)。以上所有的變量在底層都是同一種結(jié)構(gòu) zval。

Zval是zend中另一個(gè)非常重要的數(shù)據(jù)結(jié)構(gòu),用來標(biāo)識(shí)并實(shí)現(xiàn)PHP變量,其數(shù)據(jù)結(jié)構(gòu)如下:


Zval結(jié)構(gòu)體主要由三部分組成:

  • type:指定了變量所述的類型(整數(shù)、字符串、數(shù)組等)
  • refcount&is_ref:用來實(shí)現(xiàn)引用計(jì)數(shù)(后面具體介紹)
  • value:核心部分,存儲(chǔ)了變量的實(shí)際數(shù)據(jù)
  • Zvalue是用來保存一個(gè)變量的實(shí)際數(shù)據(jù)。因?yàn)橐鎯?chǔ)多種類型,所以zvalue是一個(gè)union,也由此實(shí)現(xiàn)了弱類型。

PHP變量類型和其實(shí)際存儲(chǔ)對(duì)應(yīng)關(guān)系如下:

1   IS_LONG   -> lvalue
2   IS_DOUBLE -> dvalue
3   IS_ARRAY  -> ht
4   IS_STRING -> str
5   IS_RESOURCE -> lvalue
  1. 整數(shù)、浮點(diǎn)數(shù)變量

整數(shù)、浮點(diǎn)數(shù)是PHP中的基礎(chǔ)類型之一,也是一個(gè)簡單型變量。對(duì)于整數(shù)和浮點(diǎn)數(shù),在zvalue中直接存儲(chǔ)對(duì)應(yīng)的值。其類型分別是long和double。
從zvalue結(jié)構(gòu)中可以看出,對(duì)于整數(shù)類型,和c等強(qiáng)類型語言不同,PHP是不區(qū)分int、unsigned int、long、long long等類型的,對(duì)它來說,整數(shù)只有一種類型也就是long。由此,可以看出,在PHP里面,整數(shù)的取值范圍是由編譯器位數(shù)來決定而不是固定不變的。
對(duì)于浮點(diǎn)數(shù),類似整數(shù),它也不區(qū)分float和double而是統(tǒng)一只有double一種類型。

在PHP中,如果整數(shù)范圍越界了怎么辦?這種情況下會(huì)自動(dòng)轉(zhuǎn)換為double類型,這個(gè)一定要小心,很多trick都是由此產(chǎn)生。

  1. 字符變量

和整數(shù)一樣,字符變量也是PHP中的基礎(chǔ)類型和簡單型變量。通過zvalue結(jié)構(gòu)可以看出,在PHP中,字符串是由由指向?qū)嶋H數(shù)據(jù)的指針和長度結(jié) 構(gòu)體組成,這點(diǎn)和c++中的string比較類似。由于通過一個(gè)實(shí)際變量表示長度,和c不同,它的字符串可以是2進(jìn)制數(shù)據(jù)(包含\0),同時(shí)在PHP中, 求字符串長度strlen是O(1)操作。

在新增、修改、追加字符串操作時(shí),PHP都會(huì)重新分配內(nèi)存生成新的字符串。最后,出于安全考慮,PHP在生成一個(gè)字符串時(shí)末尾仍然會(huì)添加\0

常見的字符串拼接方式及速度比較:

假設(shè)有如下4個(gè)變量:strA=‘123’; strB = ‘456’; intA=123; intB=456;
現(xiàn)在對(duì)如下的幾種字符串拼接方式做一個(gè)比較和說明:

1 res = strA.strB和res = “strAstrB”
這種情況下,zend會(huì)重新malloc一塊內(nèi)存并進(jìn)行相應(yīng)處理,其速度一般。
2 strA = strA.strB
這種是速度最快的,zend會(huì)在當(dāng)前strA基礎(chǔ)上直接relloc,避免重復(fù)拷貝
3 res = intA.intB
這種速度較慢,因?yàn)樾枰鲭[式的格式轉(zhuǎn)換,實(shí)際編寫程序中也應(yīng)該注意盡量避免
4 strA = sprintf (“%s%s”,strA,strB);
這會(huì)是最慢的一種方式,因?yàn)閟printf在PHP中并不是一個(gè)語言結(jié)構(gòu),本身對(duì)于格式識(shí)別和處理就需要耗費(fèi)比較多時(shí)間,另外本身機(jī)制也是malloc。不過sprintf的方式最具可讀性,實(shí)際中可以根據(jù)具體情況靈活選擇。

  1. 數(shù)組變量

PHP的數(shù)組通過Zend HashTable來天然實(shí)現(xiàn)。

foreach操作如何實(shí)現(xiàn)?對(duì)一個(gè)數(shù)組的foreach就是通過遍歷hashtable中的雙向鏈表完成。對(duì)于索引數(shù)組,通過foreach遍 歷效率比for高很多,省去了key->value的查找。count操作直接調(diào)用 HashTable->NumOfElements,O(1)操作。對(duì)于’123’這樣的字符串,zend會(huì)轉(zhuǎn)換為其整數(shù)形 式。arr[‘123’]和arr[123]是等價(jià)的

  1. 資源變量

資源類型變量是PHP中最復(fù)雜的一種變量,也是一種復(fù)合型結(jié)構(gòu)。

PHP的zval可以表示廣泛的數(shù)據(jù)類型,但是對(duì)于自定義的數(shù)據(jù)類型卻很難充分描述。由于沒有有效的方式描繪這些復(fù)合結(jié)構(gòu),因此也沒有辦法對(duì)它們使用傳統(tǒng)的操作符。要解決這個(gè)問題,只需要通過一個(gè)本質(zhì)上任意的標(biāo)識(shí)符(label)引用指針,這種方式被稱為資源。

在zval中,對(duì)于resource,lval作為指針來使用,直接指向資源所在的地址。Resource可以是任意的復(fù)合結(jié)構(gòu),我們熟悉的mysqli、fsock、memcached等都是資源。

如何使用資源:

1 注冊:對(duì)于一個(gè)自定義的數(shù)據(jù)類型,要想將它作為資源。首先需要進(jìn)行注冊,zend會(huì)為它分配全局唯一標(biāo)示。
2 獲取一個(gè)資源變量:對(duì)于資源,zend維護(hù)了一個(gè)id->實(shí)際數(shù)據(jù)的hash_tale。對(duì)于一個(gè)resource,在zval中只記錄了它的id。fetch的時(shí)候通過id在hash_table中找到具體的值返回。
3 資源銷毀:資源的數(shù)據(jù)類型是多種多樣的。Zend本身沒有辦法銷毀它。因此需要用戶在注冊資源的時(shí)候提供銷毀函數(shù)。當(dāng)unset資源時(shí),zend調(diào)用相應(yīng)的函數(shù)完成析構(gòu)。同時(shí)從全局資源表中刪除它。
資源可以長期駐留,不只是在所有引用它的變量超出作用域之后,甚至是在一個(gè)請求結(jié)束并且新的請求產(chǎn)生之后。這些資源稱為持久資源,因?yàn)樗鼈冐炌?SAPI的整個(gè)生命周期持續(xù)存在,除非特意銷毀。很多情況下,持久化資源可以在一定程度上提高性能。比如我們常見的mysql_pconnect ,持久化資源通過pemalloc分配內(nèi)存,這樣在請求結(jié)束的時(shí)候不會(huì)釋放。 對(duì)zend來說,對(duì)兩者本身并不區(qū)分。

  1. PHP變量管理——引用計(jì)數(shù)和寫時(shí)拷貝:

引用計(jì)數(shù)在內(nèi)存回收、字符串操作等地方使用非常廣泛。Zval的引用計(jì)數(shù)通過成員變量is_ref和ref_count實(shí)現(xiàn),通過引用計(jì)數(shù),多個(gè)變量可以共享同一份數(shù)據(jù)。避免頻繁拷貝帶來的大量消耗。在進(jìn)行賦值操作時(shí),zend將變量指向相同的zval同時(shí)ref_count++,在unset操作時(shí),對(duì)應(yīng)的ref_count-1。只有ref_count減為0時(shí)才會(huì)真正執(zhí)行銷毀操作。如果是引用賦值,則zend會(huì)修改is_ref為1。

PHP變量通過引用計(jì)數(shù)實(shí)現(xiàn)變量共享數(shù)據(jù),那如果改變其中一個(gè)變量值呢?當(dāng)試圖寫入一個(gè)變量時(shí),Zend若發(fā)現(xiàn)該變量指向的zval被多個(gè)變量共享,則為其復(fù)制一份ref_count為1的zval,并遞減原zval的refcount,這個(gè)過程稱為“zval分離”??梢姡挥性谟袑懖僮靼l(fā)生時(shí) zend才進(jìn)行拷貝操作,因此也叫copy-on-write(寫時(shí)拷貝)

對(duì)于引用型變量,其要求和非引用型相反,引用賦值的變量間必須是捆綁的,修改一個(gè)變量就修改了所有捆綁變量。

  1. PHP局部變量和全局變量的實(shí)現(xiàn):

PHP中的局部變量和全局變量是如何實(shí)現(xiàn)的?對(duì)于一個(gè)請求,任意時(shí)刻PHP都可以看到兩個(gè)符號(hào)表(symbol_table和 active_symbol_table),其中前者用來維護(hù)全局變量。后者是一個(gè)指針,指向當(dāng)前活動(dòng)的變量符號(hào)表,當(dāng)程序進(jìn)入到某個(gè)函數(shù)中時(shí),zend 就會(huì)為它分配一個(gè)符號(hào)表x同時(shí)將active_symbol_table指向a。通過這樣的方式實(shí)現(xiàn)全局、局部變量的區(qū)分。

獲取變量值:PHP的符號(hào)表是通過hash_table實(shí)現(xiàn)的,對(duì)于每個(gè)變量都分配唯一標(biāo)識(shí),獲取的時(shí)候根據(jù)標(biāo)識(shí)從表中找到相應(yīng)zval返回。

函數(shù)中使用全局變量:在函數(shù)中,我們可以通過顯式申明global來使用全局變量。在active_symbol_table中創(chuàng)建symbol_table中同名變量的引用(引用變量的值要更新大家會(huì)一起更新),如果symbol_table中沒有同名變量則會(huì)先創(chuàng)建。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容