計算機組成原理筆記

計算機組成原理筆記

ch01 馮·諾依曼體系結(jié)構(gòu)

計算機基本硬件組成:

  • CPU
  • Memory
  • Mother Board
    • Chipset
      • SouthBridge 控制 CPU 和外部 I/O 設(shè)備的通信
      • NorthBridge 控制 CPU 和內(nèi)存、顯卡的通信,但實際已不存在了,在 CPU 內(nèi)部實現(xiàn)
    • Bus
  • I/O 設(shè)備:顯示器,鼠標(biāo)、鍵盤
  • Graphic Card
  • GPU
  • 硬盤

馮·諾依曼體系結(jié)構(gòu):

計算機的抽象概念,也叫存儲程序計算機。

  • 可編程。計算器是不可編程的,因為在硬件層面寫死了邏輯。
  • 存儲

First Draft 描述的計算機結(jié)構(gòu):

  • Processing Unit 處理器單元
    • ALC(Arithmetic Logic Unit) 算數(shù)邏輯單元
    • Processor Register 處理器寄存器
  • Control Unit 控制器單元
  • Instruction Register 指令寄存器
  • Program Counter 程序計數(shù)器
  • 內(nèi)存
  • 外部存儲
  • 輸入輸出設(shè)備 網(wǎng)卡既是輸入設(shè)備又是輸出設(shè)備

任何一臺計算機的任何一個部件都可以歸到運算器、控制器、存儲器、輸入設(shè)備和輸出設(shè)備中,而所有的現(xiàn)代計算機也都是基于這個基礎(chǔ)架構(gòu)來設(shè)計開發(fā)的。

所有的計算機程序,也都可以抽象為從輸入設(shè)備讀取輸入信息,通過運算器和控制器來執(zhí)行存儲在存儲器里的程序,最終把結(jié)果輸出到輸出設(shè)備中。而我們所有撰寫的無論高級還是低級語言的程序,也都是基于這樣一個抽象框架來進(jìn)行運作的

馮·諾依曼體系結(jié)構(gòu)確立了計算機硬件的基礎(chǔ)架構(gòu)。

ch03 性能是什么

  • Response time
  • Throughput/Bandwidth

Linux 下有一個叫 time 的命令,它會返回三個值,第一個是 real time,也就是我們說的 Wall Clock Time,也就是運行程序整個過程中流逝掉的時間;第二個是 user time,也就是 CPU 在運行你的程序,在用戶態(tài)運行指令的時間;第三個是 sys time,是 CPU 在運行你的程序,在操作系統(tǒng)內(nèi)核里運行指令的時間。而程序?qū)嶋H花費的 CPU 執(zhí)行時間(CPU Time),就是 user time 加上 sys time。程序?qū)嶋H占用的 CPU 時間一般比 Elapsed Time 要少不少。

即使我們已經(jīng)拿到了 CPU 時間,我們也不一定可以直接“比較”出兩個程序的性能差異。即使在同一臺計算機上,CPU 可能滿載運行也可能降頻運行,降頻運行的時候自然花的時間會多一些。除了 CPU 之外,時間這個性能指標(biāo)還會受到主板、內(nèi)存這些其他相關(guān)硬件的影響。

程序的 CPU 執(zhí)行時間 = 指令數(shù)×CPI×Clock Cycle Time

想要解決性能問題,其實就是要優(yōu)化這三者。

  • 時鐘周期時間,就是計算機主頻,這個取決于計算機硬件。我們所熟知的摩爾定律就一直在不停地提高我們計算機的主頻。比如說,我最早使用的 80386 主頻只有 33MHz,現(xiàn)在手頭的筆記本電腦就有 2.8GHz,在主頻層面,就提升了將近 100 倍。
  • 每條指令的平均時鐘周期數(shù) CPI,就是一條指令到底需要多少 CPU Cycle。在后面講解 CPU 結(jié)構(gòu)的時候,我們會看到,現(xiàn)代的 CPU 通過流水線技術(shù)(Pipeline),讓一條指令需要的 CPU Cycle 盡可能地少。因此,對于 CPI 的優(yōu)化,也是計算機組成和體系結(jié)構(gòu)中的重要一環(huán)。
  • 指令數(shù),代表執(zhí)行我們的程序到底需要多少條指令、用哪些指令。這個很多時候就把挑戰(zhàn)交給了編譯器。同樣的代碼,編譯成計算機指令時候,就有各種不同的表示方式

ch04 功耗

想要計算得快,一方面,我們要在 CPU 里,同樣的面積里面,多放一些晶體管,也就是增加密度;另一方面,我們要讓晶體管“打開”和“關(guān)閉”得更快一點,也就是提升主頻。而這兩者,都會增加功耗,帶來耗電和散熱的問題。

一個 CPU 的功率,可以用這樣一個公式來表示:功耗 ~= 1/2 ×負(fù)載電容×電壓的平方×開關(guān)頻率×晶體管數(shù)量

從奔騰 4 開始,Intel 意識到通過提升主頻比較“難”去實現(xiàn)性能提升,邊開始推出 Core Duo 這樣的多核 CPU,通過提升“吞吐率”而不是“響應(yīng)時間”,來達(dá)到目的。

阿姆達(dá)爾定律:優(yōu)化后的執(zhí)行時間 = 受優(yōu)化影響的執(zhí)行時間 / 加速倍數(shù) + 不受影響的執(zhí)行時間

在“摩爾定律”和“并行計算”之外,在整個計算機組成層面,還有這樣幾個原則性的性能提升方法。

  • 加速大概率事件。最典型的就是,過去幾年流行的深度學(xué)習(xí),整個計算過程中,99% 都是向量和矩陣計算,于是,工程師們通過用 GPU 替代 CPU,大幅度提升了深度學(xué)習(xí)的模型訓(xùn)練過程。本來一個 CPU 需要跑幾小時甚至幾天的程序,GPU 只需要幾分鐘就好了。Google 更是不滿足于 GPU 的性能,進(jìn)一步地推出了 TPU。
  • 通過流水線提高性能。現(xiàn)代的工廠里的生產(chǎn)線叫“流水線”。我們可以把裝配 iPhone 這樣的任務(wù)拆分成一個個細(xì)分的任務(wù),讓每個人都只需要處理一道工序,最大化整個工廠的生產(chǎn)效率。類似的,我們的 CPU 其實就是一個“運算工廠”。我們把 CPU 指令執(zhí)行的過程進(jìn)行拆分,細(xì)化運行,也是現(xiàn)代 CPU 在主頻沒有辦法提升那么多的情況下,性能仍然可以得到提升的重要原因之一。
  • 通過預(yù)測提高性能。通過預(yù)先猜測下一步該干什么,而不是等上一步運行的結(jié)果,提前進(jìn)行運算,也是讓程序跑得更快一點的辦法。典型的例子就是在一個循環(huán)訪問數(shù)組的時候,憑經(jīng)驗,你也會猜到下一步我們會訪問數(shù)組的下一項。后面要講的“分支和冒險”、“局部性原理”這些 CPU 和存儲系統(tǒng)設(shè)計方法,其實都是在利用我們對于未來的“預(yù)測”,提前進(jìn)行相應(yīng)的操作,來提升我們的程序性能。

ch05 指令

計算機指令集 Instruction Set

// test.c
int main()
{
  int a = 1; 
  int b = 2; 
  a = a + b;
}
gcc -g -c test.c
objdump -disassemble -source test.o

gcc -g 表示創(chuàng)建符號表,關(guān)閉優(yōu)化,保留源碼信息,-c 表示生成中間文件。
objdump 用于反匯編

ch06 指令跳轉(zhuǎn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容