??Java虛擬機(jī),即Java Virtual Machine, 簡稱JVM。JVM提供商包括Sum、BEA、IBM等。1999年,Sun公司發(fā)布了由C/C++實現(xiàn)的HotSpot Java 虛擬機(jī)。2006年,在JavaOne大會上開源了其先關(guān)核心技術(shù),啟動OpenJDK項目,逐步形成了活躍的OpenJDK社區(qū)。2010年,Sun公司被Oracle公司收購。Oracle的HotSpot JVM實現(xiàn),是目前OpenJDK使用的主流JVM ,它采用解釋和編譯混合執(zhí)行的模式,其JIT技術(shù)采用分層編譯,極大的提高了Java的執(zhí)行速度。BEA的JRockit在2008年被并入HotSpot;IBM的J9也在2017年開源,形成了現(xiàn)在的OpenJ9社區(qū)。
?? 隨著互聯(lián)網(wǎng)的蓬勃發(fā)展及AI時代的到來,Java在這些計算領(lǐng)域占據(jù)著越來越重要的地位。目前主流的高科技公司都有獨(dú)立的JVM團(tuán)隊基于OpenJDK開發(fā)自己定制版本。如阿里(AlibabaJDK 簡稱AJDK)、谷歌、亞馬遜(Corretto)等等。
字節(jié)碼
?? 0和1是計算機(jī)僅能識別的信號,經(jīng)過0和1不同的組合產(chǎn)生了數(shù)字之上的操作。另外,通過不同的組合亦產(chǎn)生了各種字符。同樣可以不同的組合產(chǎn)生不同的機(jī)器指令。在不同的時代,不同的廠商,機(jī)器指令組成的結(jié)合是不同的。但畢竟CPU是底層基礎(chǔ)硬件,指令集通常以擴(kuò)展兼容的方式向前不斷演進(jìn)。而機(jī)器碼是離CPU指令最近的編碼,是CPU可以直接解讀的指令,因此機(jī)器碼肯定是與底層硬件系統(tǒng)耦合的。
??如果某個程序因為不同的硬件平臺需要編寫多套代碼,這是十分讓人崩潰的。Java的使命就是一次編譯,到處執(zhí)行。在不同的操作系統(tǒng),不同的硬件平臺上,均可以不用修改代碼即可順暢的執(zhí)行,如何實現(xiàn)跨平臺? 計算機(jī)工程領(lǐng)域的任何問題都可以增加一個中間層來解決。因此中間碼應(yīng)用而生,即字節(jié)碼(Bytecode).Java所有的指令有200個左右,一個字節(jié)(8位)可以存儲256種不同的指令信息,一個這樣的字節(jié)碼就稱為字節(jié)碼(Bytecode)。在代碼的執(zhí)行過程中,JVM將字節(jié)碼解釋執(zhí)行,屏蔽對底層操作系統(tǒng)的依賴;JVM也可以將字節(jié)碼編譯執(zhí)行,如果是熱點代碼,會通過JIT動態(tài)的編譯為機(jī)器碼,提高執(zhí)行效率。如下圖所示,十六進(jìn)制表示的的二進(jìn)制流通常是一個操作指令。起始的4個字節(jié)非常特殊,及綠色框的cafe babe(十六進(jìn)制)是Gosling定義的一個魔法數(shù),意思的Cafe Baby, 其十進(jìn)制為3405691582。 它的作用:標(biāo)志該文件是一個Java類文件,如果沒有識別到該標(biāo)志,說明該文件不是Java類文件或者文件已經(jīng)損壞,無法進(jìn)行加載。而紅色框代碼著版本號,0x37 十進(jìn)制為55,是JDK11的內(nèi)部版本號。

??純數(shù)字的字節(jié)碼閱讀起來向天書一樣難,當(dāng)初匯編語言為了改進(jìn)機(jī)器語言,使用助記符來代碼數(shù)字指令。JVM在字節(jié)碼上也設(shè)計了一套操作碼助記符,使用特殊單詞來標(biāo)記這些數(shù)字。如ICONST_0代表00000001,即十六進(jìn)制數(shù)為0x03;ALOAD_0代表00101010,即 0x2a; POP 代 表 01010111,即0x57。ICONST和ALOAD 的首字母表示具體的數(shù)據(jù)類型,如A代表引用類型變量,I代表int類型相關(guān)操作,其他類型均是其類型的首字母,例如 FLOAD_0、LLOAD_0 FCONST_0等。字節(jié)碼主要指令如下。
1. 加載或存儲指令
在某個棧幀中,通過指令操作數(shù)據(jù)在虛擬機(jī)棧的局部變量表與操作棧之間來回傳輸,常見指令如下:
- 將局部變量加載到操作棧中。如 LOAD(將 int 型的局部變量壓入棧和ALOAD ( 將對象引用的局部變量壓入棧)等。
- 從操作棧頂存儲到局部變量表。如 ISTORE、ASTORE等。
- 將常加載到操作棧頂,這是極為高頻使用的指令。如ICONST、BIPUSH、SIPUSH、LDC 等。
- ICONST加載的是-1~5的數(shù)(ICONST與 BIPUSH 的加載界限)。
- BIPUSH,即 Byte Immediate PUSH,加載 -128 ~ 127 之間的數(shù)。
- SIPUSH,即 Short Immediate PUSH,加載 -32768 ~ 32767 之間的數(shù)。
- LDC,即 Load Constant,在-2147483648 ~ 2147483647 或者是字符串時JVM 采用LDC 指令壓入棧中。
//BIPUSH-2,在-1至5之外的數(shù)字使用BIPUSH指令加載
int a = -2;
//ICONST_M1 // -1,直接使用 ICONST 加的最小值
int b = -1;
//ICONST_0
int c = 0;
//SIPUSH 20000
int e = 20000;
//LDC 40000
int f = 40000;
2. 運(yùn)算指令
對兩個操作棧幀上的值進(jìn)行運(yùn)算,并把結(jié)果寫入操作棧頂,如IADD、IMUL等
3. 類型轉(zhuǎn)換指令
顯式轉(zhuǎn)換兩種不同的數(shù)值類型。如I2L、D2F 等。
4. 對象創(chuàng)建與訪問指令
根據(jù)類進(jìn)行對象的創(chuàng)建、初始化、方法調(diào)用相關(guān)指令,常見指令如下
- 創(chuàng)建對象指令。如NEW、NEWARRAY等。
- 訪問屬性指令。如GETFIELD、PUTFIELD、GETSTATIC 等
- 檢查實例類型指令。如INSTANCEOF、CHECKCAST 等。
5. 操作棧管理指令
JVM 提供了直接控制操作棧的指令,常見指令如下
- 出棧操作。如POP 即一個元素,POP2 即兩個元素
- 復(fù)制棧頂元素并壓入棧。如 DUP。
6. 方法調(diào)用與返回指令
常見指令如下:
- INVOKEVIRTUAL 指令:調(diào)用對象的實例方法。
- INVOKESPECIAL 指令:調(diào)用實例初始化方法、私有方法、父類方法等
- INVOKESTATIC 指令:調(diào)用類靜態(tài)方法。
- RETURN 指令: 返回VOID 類型
7. 方法調(diào)用與返回指令
JVM使用方法結(jié)構(gòu)中的ACC_SYNCHRONIZED標(biāo)志同步方法,指令集中有MONITORENTER和MONITOREXIT支持 synchronized 語義。
除字節(jié)碼指令外,還包含一些額外信息。例如,LINENUMBER存儲了字節(jié)碼與源碼行號的對應(yīng)關(guān)系,方便調(diào)試的時候正確地定位到代碼的所在行;LOCALVARIABLE存儲當(dāng)前方法中使用到的局部變量表。
我們編寫好的.java 文件是源代碼文件,并不能交給機(jī)器直接執(zhí)行,需要將其編譯成為字節(jié)碼甚至是機(jī)器碼文件。那么靜態(tài)編譯器如何把源碼轉(zhuǎn)化成字節(jié)碼呢?如下圖

詞法解析是通過空格分隔出單詞、操作符、控制符等信息,將其形成token信息流,傳遞給語法解析器:在語法解析時,把詞法解析得到的token信息流按照J(rèn)ava語法規(guī)則組裝成一棵語法樹,如上圖虛線框所示,在語義分析階段,需要檢查關(guān)鍵字的使用是否合理、類型是否匹配、作用域是否正確等;當(dāng)語義分析完成之后,即可生成字節(jié)碼字節(jié)碼必須通過類加載過程加載到JVM環(huán)境后,才可以執(zhí)行。執(zhí)行有三種模第一,解釋執(zhí)行;第二,JIT 編譯執(zhí)行,第三,JIT 編譯與解釋混合執(zhí)行(主流J默認(rèn)執(zhí)行模式)?;旌蠄?zhí)行模式的優(yōu)勢在于解釋器在啟動時先解釋執(zhí)行,省去編譯時間隨著時間推進(jìn),JVM 通過熱點代碼統(tǒng)計分析,識別高頻的方法調(diào)用、循環(huán)體、公共模塊等,基于強(qiáng)大的JIT 動態(tài)編譯技術(shù),將熱點代碼轉(zhuǎn)換成機(jī)器碼,直接交給 CPU執(zhí)行。JIT的作用是將Java 字節(jié)碼動態(tài)地編譯成可以直接發(fā)送給處理器指令執(zhí)行的機(jī)器碼。簡要流程如下圖所示。
