4月01-02日北京,TsingtaoAI智算技術(shù)團(tuán)隊(duì)為某軟件上市公司交付NV智算集群技術(shù)實(shí)訓(xùn)。實(shí)訓(xùn)以英偉達(dá)A100服務(wù)器和InfiniBand網(wǎng)絡(luò)為核心,系統(tǒng)梳理硬件選型、網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)(Rail-optimized架構(gòu)與萬(wàn)卡集群收斂比優(yōu)化)、存儲(chǔ)加速(GPUDirect Storage直連NVMe、多級(jí)緩存體系)等關(guān)鍵環(huán)節(jié)。重點(diǎn)突破NCCL通信庫(kù)調(diào)優(yōu)(Ring+Tree混合算法、LL128協(xié)議參數(shù)優(yōu)化)、容器化部署(NVIDIA Container Toolkit深度集成)、及集群穩(wěn)定性驗(yàn)證(72小時(shí)負(fù)載測(cè)試+故障注入模擬)。針對(duì)行業(yè)高頻痛點(diǎn),深度解析“GPU利用率虛高”背后的內(nèi)存帶寬瓶頸、光模塊失效的帶內(nèi)監(jiān)控預(yù)測(cè),以及國(guó)產(chǎn)昇騰/海光與NVIDIA混合組網(wǎng)的生態(tài)適配難題。通過(guò)Blackwell架構(gòu)演進(jìn)、MFU量化分析等前沿實(shí)踐,將驗(yàn)收標(biāo)準(zhǔn)與實(shí)際運(yùn)維場(chǎng)景深度結(jié)合,助力一線工程師從交付執(zhí)行者向架構(gòu)決策者跨越。
實(shí)訓(xùn)時(shí)長(zhǎng):2天,每天7小時(shí)
01號(hào)上午
1.1 智算集群整體架構(gòu)認(rèn)知
計(jì)算集群的發(fā)展與挑戰(zhàn) (傳統(tǒng)數(shù)據(jù)中心 vs 智算中心的本質(zhì)差異 )
集群基礎(chǔ)建設(shè)介紹(AI 服務(wù)器節(jié)點(diǎn)、風(fēng)冷液冷,服務(wù)器機(jī)柜)
GPU 服務(wù)器topo 結(jié)構(gòu)
1.2 先進(jìn)算力資源的網(wǎng)絡(luò)關(guān)鍵技術(shù)
InfiniBand vs RoCE:性能對(duì)比與選型依據(jù)(帶寬、延遲、丟包容忍度)
RDMA技術(shù)原理:零拷貝、內(nèi)核旁路如何提升效率
先進(jìn)算力nvLink、PCIe拓?fù)?節(jié)點(diǎn)內(nèi)GPU互聯(lián)的帶寬瓶頸分析
PFC(優(yōu)先級(jí)流控)與ECN(顯式擁塞通知)配置要點(diǎn)
網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)
單軌網(wǎng)絡(luò),多軌網(wǎng)絡(luò)deepseek 經(jīng)典設(shè)計(jì)
Rail-optimized拓?fù)?vs 傳統(tǒng)Spine-Leaf的區(qū)別
萬(wàn)卡 AI 集群建設(shè)挑戰(zhàn)、交付與測(cè)試
先進(jìn)算力 Blackwell 與 先進(jìn)算力L72 超節(jié)點(diǎn)演進(jìn)(集群與互聯(lián))
集群性能分析與測(cè)試
環(huán)境準(zhǔn)備:配置IB網(wǎng)卡IP、驗(yàn)證RDMA功能
使用ib_write_bw/ib_read_bw測(cè)試雙向帶寬
使用perftest工具驗(yàn)證延遲指標(biāo)
對(duì)比TCP vs RDMA的性能差異
理解RDMA的性能優(yōu)勢(shì),掌握基礎(chǔ)測(cè)試工具
存儲(chǔ)架構(gòu)與GPUDirect技術(shù)
訓(xùn)練階段:數(shù)據(jù)集加載(TB級(jí)順序讀)、Checkpoint保存(周期性爆發(fā)寫)
推理階段:模型參數(shù)加載、KV Cache的內(nèi)存-存儲(chǔ)協(xié)同
存儲(chǔ)性能三要素:IOPS、帶寬、延遲的權(quán)衡
痛點(diǎn)分析:大模型 CKPT優(yōu)化手段
高性能存儲(chǔ)架構(gòu)設(shè)計(jì)
訓(xùn)練數(shù)據(jù)加載與存儲(chǔ)優(yōu)化與存算架構(gòu)的思考
GPUDirect Storage:繞過(guò)CPU直接訪問(wèn)存儲(chǔ)的原理
多級(jí)緩存體系:內(nèi)存-先進(jìn)算力Memory并行文件系統(tǒng)的數(shù)據(jù)流設(shè)計(jì)
使用GPUDirect Storage API加速數(shù)據(jù)加載(模擬場(chǎng)景)
01號(hào)下午
千卡集群交付流程
3.1 硬件選型與規(guī)劃
GPU選型:A100 vs H100 vs H20的算力/功耗/成本對(duì)比
網(wǎng)絡(luò)設(shè)備選型:IB交換機(jī)的端口密度、收斂比計(jì)算
服務(wù)器配置:CPU/內(nèi)存/先進(jìn)算力的配比原則
3.2 集群建設(shè)全流程
需求分析→方案設(shè)計(jì)→硬件到貨→上架布線→系統(tǒng)安裝→功能驗(yàn)證
硬集與軟集的區(qū)別:物理組裝 vs 軟件配置的職責(zé)劃分
痛點(diǎn):如何避免硬件批次差異導(dǎo)致的兼容性問(wèn)題?
案例:某千卡集群交付復(fù)盤
IB網(wǎng)絡(luò)自動(dòng)化配置
拓?fù)浒l(fā)現(xiàn):使用ibnetdiscover生成網(wǎng)絡(luò)拓?fù)鋱D
UFM架構(gòu)與功能
軟件架構(gòu):管理節(jié)點(diǎn)+Agent部署模式
核心功能:拓?fù)淇梢暬⑿阅鼙O(jiān)控、固件升級(jí)
對(duì)外接口:REST API、CLI、Prometheus集成
3.4 IB網(wǎng)絡(luò)配置與UFM監(jiān)控
手動(dòng)配置IB子網(wǎng)管理器(OpenSM)
使用ibdiagnet診斷鏈路狀態(tài)
演示UFM界面(視頻/截圖,受限于無(wú)交換機(jī))
掌握IB網(wǎng)絡(luò)的基礎(chǔ)運(yùn)維命令
NCCL通信原理
集合通信操作:AllReduce、AllGather、ReduceScatter的區(qū)別
NCCL的通信算法:Ring、Tree、Ring+Tree的適用場(chǎng)景
通信協(xié)議:Simple vs LL vs LL128的性能差異
原理圖解:單機(jī)8卡AllReduce的數(shù)據(jù)流向
NCCL環(huán)境變量詳解
核心變量:NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS、NCCL_MIN_NCHANNELS
網(wǎng)絡(luò)相關(guān):NCCL_IB_DISABLE、NCCL_SOCKET_IFNAME、NCCL_NET_GDR_LEVEL
調(diào)試變量:NCCL_DEBUG、NCCL_DEBUG_SUBSYS
單機(jī)多卡NCCL測(cè)試
使用nccl-tests測(cè)試單機(jī)8卡AllReduce帶寬
對(duì)比nvLink vs PCIe的通信性能
調(diào)整NCCL環(huán)境變量觀察性能變化
常見(jiàn)問(wèn)題:GPU看得到但NCCL初始化失敗的排查思路
疑難問(wèn)題研討
問(wèn)題1:網(wǎng)絡(luò)不丟包,但AllReduce帶寬達(dá)不到設(shè)計(jì)值
排查思路:檢查NCCL_ALGO、確認(rèn)IB鏈路狀態(tài)、驗(yàn)證GPU拓?fù)?/p>
問(wèn)題2:GPU利用率90%+但訓(xùn)練慢
02號(hào)上午
大模型訓(xùn)練任務(wù)和推理任務(wù)的混跑的碎片化解決方案
分層解決方案(技術(shù)棧)
第一層:硬件與系統(tǒng)級(jí)隔離
第二層:運(yùn)行時(shí)級(jí)調(diào)度與搶占
第三層:框架級(jí)優(yōu)化與自適應(yīng)
一個(gè)典型的混合部署策略示例
訓(xùn)練出錯(cuò),快速判斷算法問(wèn)題還是硬件問(wèn)題的一站式解決方案
硬件問(wèn)題的典型特征
算法/代碼問(wèn)題的典型特征
系統(tǒng)性排查步驟(實(shí)戰(zhàn)流程)
如何處理慢節(jié)點(diǎn)拖累整個(gè)集群的問(wèn)題?
短期應(yīng)急(止血) 重啟任務(wù)/節(jié)點(diǎn)
中期優(yōu)化(治標(biāo)) 資源隔離與保障
長(zhǎng)期預(yù)防(治本) 建立硬件健康度基線
重點(diǎn)闡述:
GPU 利用率“看起來(lái)很高”,但訓(xùn)練效率依然很低,先進(jìn)算力-smi 顯示 GPU Util 90%+,實(shí)際每 step 時(shí)間明顯偏慢
容器環(huán)境搭建
Docker vs Singularity/Enroot在HPC場(chǎng)景的選擇
Container Toolkit原理:如何讓容器訪問(wèn)GPU
鏡像構(gòu)建:基礎(chǔ)鏡像+CUDA+PyTorch+訓(xùn)練代碼的層次
網(wǎng)絡(luò)命名空間:容器內(nèi)如何使用宿主機(jī)IB網(wǎng)絡(luò)
容器化部署大模型
拉取NGC官方PyTorch鏡像(離線環(huán)境需提前準(zhǔn)備tar包)
編寫Dockerfile安裝依賴(transformers/flash-attention等)
使用docker run啟動(dòng)容器并掛載數(shù)據(jù)集
運(yùn)行某小尺寸模型測(cè)試訓(xùn)練流程
模型訓(xùn)練實(shí)戰(zhàn)
使用torchrun啟動(dòng)多卡訓(xùn)練(DistributedDataParallel)
監(jiān)控工具:先進(jìn)算力-smi、dcgm-exporter實(shí)時(shí)查看GPU狀態(tài)
訓(xùn)練日志分析:loss曲線、吞吐量(samples/s)、MFU計(jì)算
常見(jiàn)錯(cuò)誤:CUDA OOM、通信超時(shí)的快速定位
模型訓(xùn)練
運(yùn)行某小尺寸LLM預(yù)訓(xùn)練任務(wù)(尺寸視內(nèi)存而定)
調(diào)整batch size/gradient accumulation觀察顯存占用
使用tensorboard可視化訓(xùn)練曲線
性能對(duì)比:單卡 vs 多卡的加速比分析/嘗試開(kāi)啟混合精度訓(xùn)練(AMP)
02號(hào)下午
測(cè)試方案設(shè)計(jì)
測(cè)試維度:計(jì)算性能、通信帶寬、存儲(chǔ)IOPS
測(cè)試工具鏈:
GPU計(jì)算:CUDA Samples、cuBLAS benchmarks
網(wǎng)絡(luò):nccl-tests、ib_write_bw、SHARP測(cè)試
存儲(chǔ):FIO、IOR
驗(yàn)收標(biāo)準(zhǔn)制定:如何設(shè)定合理的性能基線?
GPU基線性能測(cè)試
運(yùn)行CUDA Samples中的bandwidthTest、deviceQuery
使用HPL/HPCG測(cè)試峰值算力
GPU Burn壓力測(cè)試:長(zhǎng)時(shí)間滿載運(yùn)行檢測(cè)穩(wěn)定性
靜默錯(cuò)誤檢測(cè):使用dcgm-diag的診斷功能
記錄:整理測(cè)試數(shù)據(jù)形成測(cè)試報(bào)告模板
穩(wěn)定性測(cè)試方法
長(zhǎng)時(shí)間負(fù)載測(cè)試:72小時(shí)連續(xù)訓(xùn)練任務(wù)
故障注入:模擬GPU掉卡、網(wǎng)絡(luò)抖動(dòng)場(chǎng)景
MFU(Model FLOPs Utilization)測(cè)試:計(jì)算有效算力利用率
運(yùn)維工具體系
UFM深度實(shí)踐:
部署架構(gòu):HA模式、數(shù)據(jù)庫(kù)選擇
監(jiān)控指標(biāo):鏈路流量、錯(cuò)誤計(jì)數(shù)、溫度/功耗
告警配置:如何設(shè)置閾值避免誤報(bào)
API集成:通過(guò)REST接口對(duì)接運(yùn)維平臺(tái)
DCGM(Data Center GPU Manager):
架構(gòu):Host Engine + Agent模式
健康檢查:周期性診斷GPU狀態(tài)
運(yùn)維工具部署與監(jiān)控
部署DCGM并配置Exporter
編寫Grafana Dashboard展示GPU指標(biāo)
模擬故障:拔掉光模塊觀察UFM告警(視頻演示)
使用dcgmi命令行工具查詢GPU健康狀態(tài)
智算中心光模塊故障率高,如何通過(guò)帶內(nèi)監(jiān)控提前預(yù)測(cè)光模塊失效
搭建一套可用的監(jiān)控系統(tǒng)
資源調(diào)度與隔離
Slurm vs Kubernetes在AI集群的適用性
GPU共享與MIG(Multi-Instance GPU)技術(shù)
訓(xùn)練任務(wù)(獨(dú)占) vs 推理任務(wù)(零散)的資源隔離策略
痛點(diǎn):碎片化問(wèn)題如何通過(guò)調(diào)度器解決?
國(guó)產(chǎn)芯片混合組網(wǎng)
華為昇騰、海光與英偉達(dá)的生態(tài)差異
混合算力中心架構(gòu)設(shè)計(jì):網(wǎng)絡(luò)隔離 vs 統(tǒng)一調(diào)度
挑戰(zhàn):驅(qū)動(dòng)版本管理、框架適配的復(fù)雜度
推理架構(gòu)設(shè)計(jì)
并行策略:Tensor Parallelism vs Pipeline Parallelism
Prefill-Decode分離架構(gòu)
推理框架:vLLM、TensorRT-LLM、FasterTransformer對(duì)比
案例:如何實(shí)現(xiàn)毫秒級(jí)推理延遲
部分實(shí)訓(xùn)課件




實(shí)訓(xùn)技術(shù)專家
熊工 AI智算技術(shù)專家
中國(guó)農(nóng)業(yè)大學(xué)計(jì)算機(jī)碩士,研究員高級(jí)工程師,華為云AI專家組成員,西安電子科技大學(xué)企業(yè)導(dǎo)師,浙江大學(xué)人工智能中心研究員,阿里云AI訓(xùn)練師認(rèn)證教材和題庫(kù)系統(tǒng)專家,主要研究方向?yàn)榇笳Z(yǔ)言模型、人工智能、云計(jì)算、GPU算力運(yùn)維與調(diào)優(yōu)、自然語(yǔ)言處理、CV視覺(jué)模型、汽車智能駕駛。從早期的智能搜索引擎,到華為盤古大模型云引擎研發(fā),到阿里云百煉智能平臺(tái)應(yīng)用開(kāi)發(fā),再到扣子平臺(tái)智能體應(yīng)用開(kāi)發(fā),一直深耕于自然語(yǔ)言處理處理、AI大模型領(lǐng)域。
華為培訓(xùn)中心資深I(lǐng)T認(rèn)證培訓(xùn)專家,國(guó)內(nèi)頂級(jí)架構(gòu)設(shè)計(jì)、軟件開(kāi)發(fā)專家。具有堅(jiān)實(shí)的學(xué)術(shù)背景和教學(xué)培訓(xùn)經(jīng)驗(yàn),多年研發(fā)和客戶項(xiàng)目高級(jí)管理咨詢能力。近20年系統(tǒng)開(kāi)發(fā)經(jīng)驗(yàn),5年以上授課經(jīng)驗(yàn)。
在技術(shù)平臺(tái)方面,主要是擅長(zhǎng)培訓(xùn)兩塊內(nèi)容:一是人工智能和大模型,精通整個(gè)體系的培訓(xùn)工作,包括Python語(yǔ)言,Python web,Numpy,Pandas,Matplotlib,爬蟲,機(jī)器學(xué)習(xí)的十大算法線性回歸,邏輯回歸,邏輯回歸,聚類,支持向量機(jī),關(guān)聯(lián)規(guī)則,協(xié)同過(guò)濾,深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò),長(zhǎng)短期記憶,對(duì)抗學(xué)習(xí),強(qiáng)化學(xué)習(xí),大模型LLAMA,LLVM等引擎構(gòu)建技術(shù),以及最后的大模型應(yīng)用案例實(shí)現(xiàn)。二是知識(shí)庫(kù)、智能體和MCP應(yīng)用,精通整個(gè)體系架構(gòu),包括提示詞工程, LLM、LangChain等技術(shù)的開(kāi)發(fā)與應(yīng)用。深入理解智能體、工作流、語(yǔ)言助手等平臺(tái)應(yīng)用開(kāi)發(fā)技術(shù)。對(duì)于大模型體系有深刻認(rèn)識(shí),及獨(dú)到的見(jiàn)解。已經(jīng)參與了數(shù)十個(gè)AI大模型應(yīng)用項(xiàng)目研發(fā),并主導(dǎo)系統(tǒng)設(shè)計(jì)和優(yōu)化,有著豐富的大模型系統(tǒng)設(shè)計(jì)開(kāi)發(fā)工作經(jīng)驗(yàn)。
精研課程
人工智能機(jī)器學(xué)習(xí)算法
大模型訓(xùn)練
自然語(yǔ)言處理文本處理實(shí)踐—文本自動(dòng)摘要、文章自動(dòng)生成
基于深度學(xué)習(xí)的知識(shí)圖譜實(shí)戰(zhàn)
基于深度學(xué)習(xí)的個(gè)性化推薦系統(tǒng)實(shí)戰(zhàn)
DeepSeek提示詞工程
基于DeepSeek的大模型微調(diào)技術(shù)
DeepSeek的RAG技術(shù)--知識(shí)庫(kù)開(kāi)發(fā)
阿里云人工智能訓(xùn)練師認(rèn)證培訓(xùn)
基于Dify平臺(tái)的智能體開(kāi)發(fā)
Ollama+DeepSeek+Dify平臺(tái)開(kāi)發(fā)最佳實(shí)踐
近期主要培訓(xùn)和咨詢內(nèi)容:
杭州阿里巴巴:2024年11月,12月,2025年2月,3月,4月,在阿里總部西溪園區(qū)進(jìn)行。每期培訓(xùn)都通過(guò)5天的的AI訓(xùn)練師認(rèn)證培訓(xùn)工作,培養(yǎng)阿里云生態(tài)內(nèi)外的AI訓(xùn)練師以及師資,以實(shí)現(xiàn)阿里云百煉平臺(tái),QuickBI,QuickService 等多個(gè)AI平臺(tái)應(yīng)用的推廣,提升學(xué)員的智能體開(kāi)發(fā)能力。
四川移動(dòng):2024年11月,大模型知識(shí)庫(kù)調(diào)優(yōu)(九天大模型,ChaGPT,ChatDB),通過(guò)一周的技術(shù)實(shí)戰(zhàn)培訓(xùn),提升移動(dòng)在線團(tuán)隊(duì)(10086)的語(yǔ)言助手智能水平,并將相關(guān)技術(shù)應(yīng)用到了四川移動(dòng)在線的內(nèi)部平臺(tái)。
寶馬汽車:2024年12月,基于github copilot的AI編程開(kāi)發(fā)技術(shù)應(yīng)用,通過(guò)3天的技術(shù)實(shí)戰(zhàn)培訓(xùn),提升汽車軟件開(kāi)發(fā)團(tuán)隊(duì)的智能編程能力,并將微軟云的智能編程工具接入研發(fā)團(tuán)隊(duì)的內(nèi)部平臺(tái)。
博世蘇州:2025年1月,基于微軟云AI編程開(kāi)發(fā)工具技術(shù),包括github copilot以及相關(guān)組件的應(yīng)用,提升團(tuán)隊(duì)編程開(kāi)發(fā)和軟件測(cè)試的智能化水平。同時(shí)幫助團(tuán)隊(duì)將Azure接入團(tuán)隊(duì)開(kāi)發(fā)的內(nèi)部平臺(tái)。
中國(guó)移動(dòng)設(shè)計(jì)研究院:(2024年1月,3月,7月,12月,2025年4月等)大模型底層設(shè)計(jì)和優(yōu)化。經(jīng)過(guò)多輪培訓(xùn)和持續(xù)的咨詢工作,采用基于GPU集群的算力,優(yōu)化LLVM,LLAMA2在內(nèi)的大模型引擎技術(shù),提高了大模型引擎的穩(wěn)定性和拓展能力。引入了去中心化集群技術(shù)和跨域資源調(diào)度技術(shù),提高了大模型底層引擎的可靠性和可維護(hù)性。
除此以外,對(duì)上層的基于自然語(yǔ)言處理的大模型應(yīng)用進(jìn)行指導(dǎo)和應(yīng)用。包括提示詞的編寫,文字和圖片的生成,視頻的生成等應(yīng)用,優(yōu)化生成資源的精準(zhǔn)度,提升生成資源的速度,并開(kāi)發(fā)與外部系統(tǒng)之間的接口,目前已有超過(guò)百種外部應(yīng)用接入了大模型,顯著提升了生產(chǎn)能力,大大超過(guò)客戶了之前對(duì)此次培訓(xùn)和咨詢的預(yù)期。
福州信產(chǎn)億力公司:2025年4月25-26日,基于DeepSeek和Dify的智能體應(yīng)用開(kāi)發(fā)實(shí)踐。包括平臺(tái)搭建,智能體構(gòu)建,提示詞工程以及基于RAG的知識(shí)庫(kù)構(gòu)建應(yīng)用。并將相關(guān)技術(shù)應(yīng)用到智能辦公和智能問(wèn)答等方面。
北京中國(guó)民航開(kāi)發(fā)中心(CAST):2025年4月,基于DeepSeek等大模型的AI編程技術(shù)開(kāi)發(fā)。經(jīng)過(guò)一個(gè)多星期的培訓(xùn)和咨詢工作,提升了相關(guān)AI編程工具的使用能力,幫助客戶構(gòu)建了基于私有云的AI編程內(nèi)部平臺(tái),從源頭提升了研發(fā)生產(chǎn)力。
內(nèi)蒙電力數(shù)字化和智能體應(yīng)用:2025年5月下旬,經(jīng)過(guò)10天的培訓(xùn),幫助客戶構(gòu)建了基于office和WPS的私有大模型辦公平臺(tái)。除此以外,構(gòu)建了基于一體機(jī)的Dify+DeepSeek+Ollama的智能體和直屬庫(kù)開(kāi)發(fā)應(yīng)用平臺(tái),提升企業(yè)內(nèi)部數(shù)字化能力和自動(dòng)化流程能力
王工 AI Infra技術(shù)專家
【教育背景】
2009/09 – 2013/07 華南理工大學(xué)(985)
2013/09 – 2014/07 華南理工大學(xué)(985)
【專業(yè)技能】
熟悉CUDA開(kāi)發(fā),包括算子優(yōu)化、GPU虛擬化、容器/MIG、直通VM等關(guān)鍵技術(shù);掌握ROCE交換機(jī)的性能調(diào)優(yōu)、故障定位,以及網(wǎng)卡虛擬化等關(guān)鍵技術(shù)。
具備端到端完成智算平臺(tái)建設(shè)的能力,從物理機(jī)裸金屬IaaS到K8s的PaaS平臺(tái),以及相關(guān)SaaS能力,掌握整個(gè)智算平臺(tái)生命周期建設(shè)能力。
熟悉高性能并行文件系統(tǒng)Lustre的基本原理和集群建設(shè),掌握故障排查和優(yōu)化方法。
精通LLM大語(yǔ)言模型訓(xùn)練框架,熟練運(yùn)用PyTorch+FSDP/DeepSpeed/Megatron3D并行,及其LoRA微調(diào)、有監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)。
熟悉Transformer大模型的優(yōu)化技術(shù),包括KV-cache、Paged-Attention、Prefix-Cache,以及PD分離性能調(diào)優(yōu)。
熟悉Diffusion擴(kuò)散模型及其常用Cache/DiT加速,以及FastVideo蒸餾優(yōu)化。
精通大語(yǔ)言模型、多模態(tài)模型推理加速,基于vLLM/sglang推理框架實(shí)現(xiàn)DP并行、PD分離(xPyD推理加速)、EP并行加速,以及LM-cache推理加速、HiCache多層級(jí)offload推理加速。
熟悉LLM原理、文生圖、圖生圖、文生視頻推理加速,涵蓋SD模型、Qwen模型和Hunyuan模型。
【工作經(jīng)驗(yàn)】
2015 – 至今 | HW公司
職位:研發(fā)專家(負(fù)責(zé)AI訓(xùn)練推理平臺(tái)建設(shè))
項(xiàng)目職責(zé)與核心成果:
負(fù)責(zé)GPU集群建設(shè)
基于K8s/Docker完成了GPU調(diào)度和Topo調(diào)優(yōu)。
完成GPU虛擬化,包括硬件虛擬化和軟件虛擬化,以及IB的虛擬化和多租戶能力。
完成GPU的監(jiān)控、故障預(yù)警及可視化,解決軟硬件故障及其各種疑難雜癥。
訓(xùn)練推理AI-Infra平臺(tái)建設(shè)
規(guī)劃訓(xùn)練推理平臺(tái)的核心能力:訓(xùn)練平臺(tái)、推理平臺(tái)、數(shù)據(jù)管理平臺(tái)。
規(guī)劃大模型訓(xùn)練、微調(diào)、推理、測(cè)評(píng)、服務(wù)化的一站式能力。
規(guī)劃Volcano+Trainer+PyTorch+LWS應(yīng)用層核心能力。
華為昇騰(CANN)系列研發(fā)
具備在Atlas 800I A2數(shù)據(jù)中心推理服務(wù)器的訓(xùn)練、微調(diào)能力。
具備在910B的適配、部署、調(diào)優(yōu)、故障定位及Ascend-C算子開(kāi)發(fā)能力。
成功在910B上完成Qwen-3、DeepSeek-R1/V3系列的適配和調(diào)優(yōu)。
英偉達(dá)GPU系列研發(fā)
熟悉各類GPU設(shè)備(5090、A100、L40s、H20、H100等),具備深厚的開(kāi)發(fā)功底。
基于A100+IB+PyTorch+Megatron完成了千卡大模型訓(xùn)練,MFU達(dá)45%+。
基于A800+PyTorch+DeepSeek完成了百卡規(guī)模的大模型訓(xùn)練,MFU達(dá)42%+。
基于4機(jī)32卡H20完成了sglang的DP并行優(yōu)化(3x)。
基于16機(jī)108卡H20完成了sglang的PD分離優(yōu)化(5x)。
基于16機(jī)108卡H20完成了基于LM-Cache的sglang優(yōu)化(5x)。
基于16機(jī)108卡H20完成了基于3FS的sglang優(yōu)化(10x)。
基于Qwen-Image(Qwen-Image-Edit)實(shí)現(xiàn)文生圖、圖生圖10x的優(yōu)化。
基于2機(jī)16卡H20實(shí)現(xiàn)了文生視頻20x的優(yōu)化加速。
在Thor低功耗設(shè)備上完成了sglang的推理加速。
關(guān)于TsingtaoAI
TsingtaoAI是一家專注工業(yè)具身智能領(lǐng)域的國(guó)家高新技術(shù)企業(yè),旗下北京、寧波等地設(shè)有研發(fā)及運(yùn)營(yíng)團(tuán)隊(duì)。核心團(tuán)隊(duì)主要來(lái)自韓國(guó)首爾大學(xué)、中國(guó)農(nóng)業(yè)大學(xué)、北京科技大學(xué)、蔚來(lái)汽車、美團(tuán)、京東、硅基流動(dòng)等產(chǎn)研組織,擁有深厚的AI Infra與機(jī)器人算法積淀。公司通過(guò)自研的通用PoC實(shí)驗(yàn)底座與多模態(tài)Agent編排引擎,為工業(yè)制造、高校實(shí)訓(xùn)等場(chǎng)景提供從數(shù)據(jù)生成、算法訓(xùn)練到即時(shí)部署的全棧解決方案。
TsingtaoAI解決具身智能落地最后一公里工程難題。構(gòu)建一個(gè)高效、低成本、可復(fù)制的具身智能技能任務(wù)開(kāi)發(fā)平臺(tái),將平臺(tái)與具身大模型和異構(gòu)端側(cè)計(jì)算單元組成面向工業(yè)企業(yè)的物理AI軟硬一體化解決方案。獲24項(xiàng)AI領(lǐng)域知識(shí)產(chǎn)權(quán),包括多模態(tài)大模型具身智能實(shí)驗(yàn)實(shí)訓(xùn)系統(tǒng)等。關(guān)鍵算法基于RISC-V芯片和昇騰NPU優(yōu)化適配,實(shí)現(xiàn)突出性能。項(xiàng)目獲長(zhǎng)三角算力算法創(chuàng)新大賽冠軍,山東省人社廳數(shù)字工程師大賽二等獎(jiǎng),寧波AI大賽二等獎(jiǎng)、北京東城AI科創(chuàng)大賽技術(shù)創(chuàng)新組前三名,WAIC CICC大賽具身智能賽道前三名,入選河北垂直大模型應(yīng)用場(chǎng)景名單。通過(guò)華為昇騰兼容性認(rèn)證,在一汽集團(tuán)、保時(shí)捷和福建奔馳等企業(yè)落地。