PD分離是一種近年來興起的推理加速部署方案,kimi、deepseek都進(jìn)行了工程落地。昇騰MindIE組件也支持了PD分離部署能力,參考鏈接為 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署過程中會(huì)出現(xiàn)一些問題,在這里記錄分享一下。
單機(jī)部署
Q:運(yùn)行deploy.sh 報(bào)錯(cuò) core dump
A:大概率是選擇了錯(cuò)誤了 鏡像,例如A2的機(jī)器使用了A3的鏡像。
Q:運(yùn)行deploy.sh 后,pods的狀態(tài)為UnexpectedAdmissionError
A:mindie_service_single_container.yaml配置文件中,resources/requests/huawei.com/Ascend910的值目前只能為8,小于8會(huì)觸發(fā)報(bào)錯(cuò)。
多機(jī)部署
Q:運(yùn)行deploy.sh 后,coordinator一直顯示not ready
A:可能是沒有配置正確的rank_table_file,導(dǎo)致P、D節(jié)點(diǎn)沒有拿到device信息,不能載入模型,解決方案參考 https://zhuanlan.zhihu.com/p/1900192566378497634 。
Q:拉起k8s失敗,輸出 kubectl get configmap rings-config-mindie-server-p0...
A:可能是之前的進(jìn)程沒有刪除干凈;deployment目錄下面的yaml文件的配置可能需要修改,如果是單機(jī)16卡,則npu的卡數(shù)需要改成16;可以查看 /var/log/mindx-dl/ascend-operator的日志,檢查是否有json文件的格式錯(cuò)誤。
參數(shù)配置建議
使用benchmark工具發(fā)送請(qǐng)求。
llama3-8B
| 卡數(shù) | 輸入輸出 | concurrency | 發(fā)送頻率 | prefill_bs | decode_bs | |
|---|---|---|---|---|---|---|
| PD混部 | 1 | 257-60 | 7 | 10 | 100 | |
| PD分離 | 2+3 | 257-60 | 1000 | 93 | 2 | 18 |
本文由博客一文多發(fā)平臺(tái) OpenWrite 發(fā)布!