色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<menuitem id="vibmd"><b id="vibmd"></b></menuitem>

登錄注冊寫文章

淺嘗ncnn優(yōu)化&&vulkan api的應用

淺嘗ncnn優(yōu)化&&vulkan api的應用

vulkan 的顯存管理

一個 VkBuffer 對象，多個 offset
- 使用同一塊 VkBuffer 存儲中間層的特征數據，不同的 blob 使用不同的offset進行區(qū)分。

VkDeviceMemory結構

可以在內存架構方面做到零拷貝
- 集成顯卡和手機上采用unified內存架構（統(tǒng)一內存架構），這種架構下，GPU可以直接訪問CPU上的主存。利用這種架構上的特性，在GPU計算的時候就不用把 內存上的數據 拷貝到顯存上，計算完成后也不需要將 顯存上的數據 拷貝到內存。

不同內存架構的對比

對GPU存儲布局的優(yōu)化

1.[c,h,w] 這種布局不太適合在GPU上做IO：[c, h, w] ---> [c/4, h, w, 4]

因為GPU訪問和讀寫顯存用的時候更多的是使用 vec4 的類型，ncnn 通過將布局改為[c/4,h,w,4]，使得GPU的IO效率得到大幅度提升

減少內存帶寬的需求
- ncnn 中的 Tensor float數據可以使用半精度
- 在一些不直接支持 fp16 存儲的情況下，ncnn 使用 packHalf2x16 和unpackHalf2x16 來模擬 fp16 和 fp32 的轉換(這兩個函數是 GLSL 內置的函數)
更加方便的維護代碼
- ncnn 中創(chuàng)建了一個 GLSL 的宏。
  
  所以寫代碼的時候可以不用管類型上的事，運行時會自動轉換為設備支持的 fp32和 fp16 的對應代碼

cpu-gpu 混合推理

模型中有些層，在沒有GPU實現(xiàn)的時候，我們需要自動切換到CPU上去做推理。這就涉及到存儲布局相互轉換

CPU和GPU轉換

ncnn 提供了一套pipline，使用一套pipline實現(xiàn)端到端的完成 最佳的布局轉換。在獨顯上也傾向使用 fp16 做上傳和下載，能用半精度，也會優(yōu)先使用。

并行推理

ncnn 在GPU上實現(xiàn)并行推理的方式。
- Vulkan的api中同一塊gpu會暴露多個隊列。
  
  例如：nvidia的gpu中有8個隊列，那么就可以使用多線程的方式同時在8個隊列上提交8個任務。
  
  好處：可以增加GPU的使用率 ，從而提高效率。

11個任務同時在三塊gpu上做推理

GLSL->SPIR-V 運行編譯

原因：有些驅動需要對 GLSL 或者 SPIR-V 的源代碼進行特殊的處理，所以只能采用運行時編譯
好處：不需要在離線時編譯多個 SPIR-V 的二進制文件，減少二進制文件的體積。

Swiftshader

swiftshader項目地址：google在cpu上實現(xiàn) vulkan驅動 的項目，可以實現(xiàn)在cpu上執(zhí)行vulkan的代碼，可以保證每次代碼運行結果都是一致的。

復用 VkPipeline 和相關的 vulkan object

模型加載的時候，特別是第一次加載模型的時候，由于沒有離線的cache和優(yōu)化的手段， pipeline的編譯是一個十分耗時的操作。
有些模型層的參數(kernal size, stride)是一樣的。ncnn 在運行時就將 層的參數 和 vulkan對象 的關系記錄下來，當遇到具有相同參數層的時候，就可以直接復用之前創(chuàng)建好的 vulkan對象，這樣可以顯著降低第一次加載模型的耗時。

降低第一次加載模型的耗時

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成，瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

相關閱讀更多精彩內容

PowerVR性能建議-黃金法則（轉）
PowerVR性能建議-黃金法則本文檔覆蓋了開發(fā)人員需要遵循的主要原則，以避免圖形應用程序產生嚴重的性能問題。這...
雄關漫道從頭越閱讀 938評論 0贊 1
vulkan preparation for deep learning
終于有時間來寫一寫vulkan的編程，先聲明，這一篇vulkan的編程跟網上大部分的教程都不一樣，這是一篇只針對于...
半筆閃閱讀 1,848評論 1贊 1

第 1 章次世代 3D 圖形 API 入門
Vulkan 是一套革命性的高性能 3D 圖形、計算 API，適用于現(xiàn)代 GPU 管線系統(tǒng)，用來滿足社區(qū)的苛刻要求...
雨中亭_聽雨中閱讀 2,901評論 0贊 8
Introduction to Turing Mesh Shaders
原文章直接翻譯，未能理解消化，納為己用，輸出的內容晦澀難懂，此處先做報廢處理，提供一些其他的參考文章鏈接用作后續(xù)工...
離原春草閱讀 1,688評論 0贊 1
移動平臺Unity3D 應用性能優(yōu)化(轉)
移動平臺Unity3D 應用性能優(yōu)化文章比較長，但是滿滿的是干貨。一、移動平臺硬件架構移動平臺無論是Andr...
雄關漫道從頭越閱讀 1,506評論 0贊 4

友情鏈接更多精彩內容

1贊2贊

贊賞

手機看全文

上蔡县| 招远市| 永清县| 凌源市| 枞阳县| 南宁市| 泰顺县| 石家庄市| 额尔古纳市| 道真| 济源市| 习水县| 若羌县| 铁力市| 施秉县| 泾阳县| 寿光市| 永修县| 临颍县| 永修县| 漳州市| 太和县| 桐庐县| 黄浦区| 竹溪县| 云霄县| 甘德县| 兴隆县| 乌什县| 尼勒克县| 乐至县| 肇源县| 尚志市| 类乌齐县| 光山县| 开鲁县| 临汾市| 凌海市| 苍南县| 新兴县| 庆云县|

<center id="115cl"><tr id="115cl"></tr></center>

<center id="115cl"><tr id="115cl"><track id="115cl"></track></tr></center>