一、PFC產(chǎn)生原因 負責集群運維的同學(xué)可能都遇到過PFC現(xiàn)象,那么PFC到底是啥?產(chǎn)生原因是什么?這篇文章提供了一些分析。 首先,參考官網(wǎng)文檔[...
最近,有很多小伙伴問我,如果他們想自己基于MindIE鏡像中的文件適配新模型,可以怎么做? 為了實現(xiàn)這個目標,首先需要了解MindIE-LLM模...
最近MindIE開始支持DeepSeek MTP(multi token prediction)特性了,用于推理加速。但是有些開發(fā)者打開MTP開...
最近做吞吐量調(diào)試涉及到輸入batch_size的設(shè)置,為了把算力和顯存用起來,同時不觸發(fā)out of memory,需要提前估計大模型推理過程中...
最近和開發(fā)者做了很多DeepSeek-R1模型相關(guān)的推理項目,這兩天抽時間把hugging face上面的源碼拉下來仔細看了一遍,在這里做一個分...
使用torch+mindspeed訓(xùn)練時,可能出現(xiàn)類似“wait socket establish timeout, role[0] rank[...
最近昇騰提供的大EP PD分離推理解決方案非?;?,很多開發(fā)者都開始使用了。正好這兩天也看了一篇PD分離的經(jīng)典論文,就是Kimi采用的PD分離架構(gòu)...
PD分離是一種近年來興起的推理加速部署方案,kimi、deepseek都進行了工程落地。昇騰MindIE組件也支持了PD分離部署能力,參考鏈接為...
最近,有粉絲問我,attention結(jié)構(gòu)中計算qkv的時候,為什么要做kvcache呢?他看了一些文章,沒看懂。 為什么要做kvcache? 假...