UnifiedMemoryPerf-Unified and other CUDA Memories Performance

https://github.com/NVIDIA/cuda-samples/tree/master/Samples/UnifiedMemoryPerf
Unified and other CUDA Memories Performance
該示例演示了使用帶/不帶提示的統(tǒng)一內(nèi)存矩陣乘法內(nèi)核以及其他類(lèi)型的內(nèi)存(例如零拷貝緩沖區(qū),可分頁(yè),分頁(yè)鎖定的內(nèi)存,在單個(gè)GPU上執(zhí)行同步和異步傳輸)的性能比較:

UMhint UMhntAs UMeasy 0Copy MemCopy CpAsync CpHpglk CpPglAs

"UMhint", // Managed Memory With Hints
"UMhntAs", // Managed Memory With_Hints Async
"UMeasy", // Managed_Memory with No Hints
"0Copy", // Zero Copy
"MemCopy", // USE HOST PAGEABLE AND DEVICE_MEMORY
"CpAsync", // USE HOST PAGEABLE AND DEVICE_MEMORY ASYNC
"CpHpglk", // USE HOST PAGELOCKED AND DEVICE MEMORY
"CpPglAs" // USE HOST PAGELOCKED AND DEVICE MEMORY ASYNC

測(cè)試結(jié)果:

  • (Dell Precision 5520) Device 0: "Quadro M1200" (Maxwell cc5.0)


    Quadro M1200

-Jetson Xavier capability 7.2 (Volta)

  • (機(jī)械革命S1):mx150(Pascal)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容