在GPU編程中,我們常常會(huì)遇到一個(gè)令人困惑的現(xiàn)象:明明GPU擁有成百上千個(gè)計(jì)算核心,理論算力遠(yuǎn)超CPU,但實(shí)際運(yùn)行時(shí)卻常常跑不滿(mǎn),甚至比CPU還...
使用共享內(nèi)存和分塊矩陣優(yōu)化矩陣乘法 一、樸素矩陣乘法實(shí)現(xiàn) 線(xiàn)程分工 CUDA 矩陣乘法中,一個(gè)線(xiàn)程只負(fù)責(zé)計(jì)算并輸出結(jié)果矩陣 P 的一個(gè)元素。這條...
本文將從 GPU 最核心的 SIMT 執(zhí)行模型出發(fā),層層拆解 Grid/Block 配置、Warp 調(diào)度與 SM 占用率的深層關(guān)系,最終落地到內(nèi)...
在CUDA異構(gòu)并行編程的學(xué)習(xí)中,容易陷入「只關(guān)注代碼邏輯,忽略底層硬件執(zhí)行規(guī)則」的誤區(qū),導(dǎo)致寫(xiě)出的核函數(shù)要么結(jié)果錯(cuò)誤,要么性能遠(yuǎn)低于預(yù)期。本文將...
在CUDA異構(gòu)并行計(jì)算學(xué)習(xí)中,本文圍繞“單個(gè)CUDA核心能否執(zhí)行多個(gè)線(xiàn)程”的核心提問(wèn),延伸出線(xiàn)程束(warp)拆分、執(zhí)行模型、SM處理塊分組及硬...
本文基于CUDA異構(gòu)并行計(jì)算的核心底層邏輯,從程序員視角的GPU硬件架構(gòu)出發(fā),完整梳理「線(xiàn)程塊調(diào)度規(guī)則→屏障同步機(jī)制→架構(gòu)核心優(yōu)勢(shì)」的知識(shí)體系。...
CUDA并行計(jì)算實(shí)戰(zhàn):從圖像模糊到矩陣乘法 本文基于CUDA異構(gòu)并行計(jì)算的兩個(gè)經(jīng)典入門(mén)場(chǎng)景——圖像模糊與矩陣乘法,從底層原理、線(xiàn)程映射、核函數(shù)實(shí)...
圖像處理是CUDA并行計(jì)算最經(jīng)典的落地場(chǎng)景之一,數(shù)字圖像天然的「行-列二維結(jié)構(gòu)」,與CUDA的二維線(xiàn)程模型高度契合。本文將從實(shí)戰(zhàn)角度,完整拆解二...
適讀人群:有 C/C++ 基礎(chǔ)、初學(xué) CUDA 異構(gòu)并行編程的開(kāi)發(fā)者。目標(biāo):系統(tǒng)梳理 CUDA 線(xiàn)程模型的核心概念,包括主機(jī)/設(shè)備分工、線(xiàn)程層級(jí)...