計算機組成原理筆記
ch01 馮·諾依曼體系結(jié)構(gòu)
計算機基本硬件組成:
- CPU
- Memory
- Mother Board
- Chipset
- SouthBridge 控制 CPU 和外部 I/O 設(shè)備的通信
- NorthBridge 控制 CPU 和內(nèi)存、顯卡的通信,但實際已不存在了,在 CPU 內(nèi)部實現(xiàn)
- Bus
- Chipset
- I/O 設(shè)備:顯示器,鼠標(biāo)、鍵盤
- Graphic Card
- GPU
- 硬盤
馮·諾依曼體系結(jié)構(gòu):
計算機的抽象概念,也叫存儲程序計算機。
- 可編程。計算器是不可編程的,因為在硬件層面寫死了邏輯。
- 存儲
First Draft 描述的計算機結(jié)構(gòu):
- Processing Unit 處理器單元
- ALC(Arithmetic Logic Unit) 算數(shù)邏輯單元
- Processor Register 處理器寄存器
- Control Unit 控制器單元
- Instruction Register 指令寄存器
- Program Counter 程序計數(shù)器
- 內(nèi)存
- 外部存儲
- 輸入輸出設(shè)備 網(wǎng)卡既是輸入設(shè)備又是輸出設(shè)備
任何一臺計算機的任何一個部件都可以歸到運算器、控制器、存儲器、輸入設(shè)備和輸出設(shè)備中,而所有的現(xiàn)代計算機也都是基于這個基礎(chǔ)架構(gòu)來設(shè)計開發(fā)的。
所有的計算機程序,也都可以抽象為從輸入設(shè)備讀取輸入信息,通過運算器和控制器來執(zhí)行存儲在存儲器里的程序,最終把結(jié)果輸出到輸出設(shè)備中。而我們所有撰寫的無論高級還是低級語言的程序,也都是基于這樣一個抽象框架來進(jìn)行運作的
馮·諾依曼體系結(jié)構(gòu)確立了計算機硬件的基礎(chǔ)架構(gòu)。
ch03 性能是什么
- Response time
- Throughput/Bandwidth
Linux 下有一個叫 time 的命令,它會返回三個值,第一個是 real time,也就是我們說的 Wall Clock Time,也就是運行程序整個過程中流逝掉的時間;第二個是 user time,也就是 CPU 在運行你的程序,在用戶態(tài)運行指令的時間;第三個是 sys time,是 CPU 在運行你的程序,在操作系統(tǒng)內(nèi)核里運行指令的時間。而程序?qū)嶋H花費的 CPU 執(zhí)行時間(CPU Time),就是 user time 加上 sys time。程序?qū)嶋H占用的 CPU 時間一般比 Elapsed Time 要少不少。
即使我們已經(jīng)拿到了 CPU 時間,我們也不一定可以直接“比較”出兩個程序的性能差異。即使在同一臺計算機上,CPU 可能滿載運行也可能降頻運行,降頻運行的時候自然花的時間會多一些。除了 CPU 之外,時間這個性能指標(biāo)還會受到主板、內(nèi)存這些其他相關(guān)硬件的影響。
程序的 CPU 執(zhí)行時間 = 指令數(shù)×CPI×Clock Cycle Time
想要解決性能問題,其實就是要優(yōu)化這三者。
- 時鐘周期時間,就是計算機主頻,這個取決于計算機硬件。我們所熟知的摩爾定律就一直在不停地提高我們計算機的主頻。比如說,我最早使用的 80386 主頻只有 33MHz,現(xiàn)在手頭的筆記本電腦就有 2.8GHz,在主頻層面,就提升了將近 100 倍。
- 每條指令的平均時鐘周期數(shù) CPI,就是一條指令到底需要多少 CPU Cycle。在后面講解 CPU 結(jié)構(gòu)的時候,我們會看到,現(xiàn)代的 CPU 通過流水線技術(shù)(Pipeline),讓一條指令需要的 CPU Cycle 盡可能地少。因此,對于 CPI 的優(yōu)化,也是計算機組成和體系結(jié)構(gòu)中的重要一環(huán)。
- 指令數(shù),代表執(zhí)行我們的程序到底需要多少條指令、用哪些指令。這個很多時候就把挑戰(zhàn)交給了編譯器。同樣的代碼,編譯成計算機指令時候,就有各種不同的表示方式
ch04 功耗
想要計算得快,一方面,我們要在 CPU 里,同樣的面積里面,多放一些晶體管,也就是增加密度;另一方面,我們要讓晶體管“打開”和“關(guān)閉”得更快一點,也就是提升主頻。而這兩者,都會增加功耗,帶來耗電和散熱的問題。
一個 CPU 的功率,可以用這樣一個公式來表示:功耗 ~= 1/2 ×負(fù)載電容×電壓的平方×開關(guān)頻率×晶體管數(shù)量
從奔騰 4 開始,Intel 意識到通過提升主頻比較“難”去實現(xiàn)性能提升,邊開始推出 Core Duo 這樣的多核 CPU,通過提升“吞吐率”而不是“響應(yīng)時間”,來達(dá)到目的。
阿姆達(dá)爾定律:優(yōu)化后的執(zhí)行時間 = 受優(yōu)化影響的執(zhí)行時間 / 加速倍數(shù) + 不受影響的執(zhí)行時間
在“摩爾定律”和“并行計算”之外,在整個計算機組成層面,還有這樣幾個原則性的性能提升方法。
- 加速大概率事件。最典型的就是,過去幾年流行的深度學(xué)習(xí),整個計算過程中,99% 都是向量和矩陣計算,于是,工程師們通過用 GPU 替代 CPU,大幅度提升了深度學(xué)習(xí)的模型訓(xùn)練過程。本來一個 CPU 需要跑幾小時甚至幾天的程序,GPU 只需要幾分鐘就好了。Google 更是不滿足于 GPU 的性能,進(jìn)一步地推出了 TPU。
- 通過流水線提高性能。現(xiàn)代的工廠里的生產(chǎn)線叫“流水線”。我們可以把裝配 iPhone 這樣的任務(wù)拆分成一個個細(xì)分的任務(wù),讓每個人都只需要處理一道工序,最大化整個工廠的生產(chǎn)效率。類似的,我們的 CPU 其實就是一個“運算工廠”。我們把 CPU 指令執(zhí)行的過程進(jìn)行拆分,細(xì)化運行,也是現(xiàn)代 CPU 在主頻沒有辦法提升那么多的情況下,性能仍然可以得到提升的重要原因之一。
- 通過預(yù)測提高性能。通過預(yù)先猜測下一步該干什么,而不是等上一步運行的結(jié)果,提前進(jìn)行運算,也是讓程序跑得更快一點的辦法。典型的例子就是在一個循環(huán)訪問數(shù)組的時候,憑經(jīng)驗,你也會猜到下一步我們會訪問數(shù)組的下一項。后面要講的“分支和冒險”、“局部性原理”這些 CPU 和存儲系統(tǒng)設(shè)計方法,其實都是在利用我們對于未來的“預(yù)測”,提前進(jìn)行相應(yīng)的操作,來提升我們的程序性能。
ch05 指令
計算機指令集 Instruction Set
// test.c
int main()
{
int a = 1;
int b = 2;
a = a + b;
}
gcc -g -c test.c
objdump -disassemble -source test.o
gcc -g 表示創(chuàng)建符號表,關(guān)閉優(yōu)化,保留源碼信息,-c 表示生成中間文件。
objdump 用于反匯編