1月27-30日鄭州,TsingtaoAI專家技術(shù)團(tuán)隊(duì)為某算力基礎(chǔ)設(shè)施服務(wù)商交付NV智算集群技術(shù)實(shí)訓(xùn)。實(shí)訓(xùn)以英偉達(dá)H20服務(wù)器(8卡/臺(tái))和InfiniBand網(wǎng)絡(luò)為核心,系統(tǒng)梳理硬件選型(H100 vs H20算力成本對(duì)比)、網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)(Rail-optimized架構(gòu)與萬卡集群收斂比優(yōu)化)、存儲(chǔ)加速(GPUDirect Storage直連NVMe、多級(jí)緩存體系)等關(guān)鍵環(huán)節(jié)。重點(diǎn)突破NCCL通信庫調(diào)優(yōu)(Ring+Tree混合算法、LL128協(xié)議參數(shù)優(yōu)化)、容器化部署(NVIDIA Container Toolkit深度集成)、及集群穩(wěn)定性驗(yàn)證(72小時(shí)負(fù)載測試+故障注入模擬)。
針對(duì)行業(yè)高頻痛點(diǎn),深度解析“GPU利用率虛高”背后的內(nèi)存帶寬瓶頸、光模塊失效的帶內(nèi)監(jiān)控預(yù)測,以及國產(chǎn)昇騰/海光與NVIDIA混合組網(wǎng)的生態(tài)適配難題。通過Blackwell架構(gòu)演進(jìn)、MFU量化分析等前沿實(shí)踐,將驗(yàn)收標(biāo)準(zhǔn)與實(shí)際運(yùn)維場景深度結(jié)合,助力一線工程師從交付執(zhí)行者向架構(gòu)決策者跨越。
實(shí)訓(xùn)時(shí)長:4天,每天7小時(shí)





Day 1上午:智算集群架構(gòu)基礎(chǔ)與網(wǎng)絡(luò)關(guān)鍵技術(shù)
模塊一:網(wǎng)絡(luò)架構(gòu)與技術(shù)棧
智算集群整體架構(gòu)認(rèn)知
計(jì)算集群的發(fā)展與挑戰(zhàn) (傳統(tǒng)數(shù)據(jù)中心 vs 智算中心的本質(zhì)差異 )
基于 NV 的L0集群基礎(chǔ)建設(shè)介紹(AI 服務(wù)器節(jié)點(diǎn)、風(fēng)冷液冷,服務(wù)器機(jī)柜)
大模型訓(xùn)練對(duì)基礎(chǔ)設(shè)施的特殊要求(周期性爆發(fā)寫入、低延遲通信)
1.2 NV算力資源的網(wǎng)絡(luò)關(guān)鍵技術(shù)
InfiniBand vs RoCE:性能對(duì)比與選型依據(jù)(帶寬、延遲、丟包容忍度)
RDMA技術(shù)原理:零拷貝、內(nèi)核旁路如何提升效率
NVLink、PCIe拓?fù)?節(jié)點(diǎn)內(nèi)GPU互聯(lián)的帶寬瓶頸分析
PFC(優(yōu)先級(jí)流控)與ECN(顯式擁塞通知)配置要點(diǎn)
模塊二:組網(wǎng)設(shè)計(jì)與實(shí)戰(zhàn)
1.3 網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)
Rail-optimized拓?fù)?vs 傳統(tǒng)Spine-Leaf的區(qū)別
萬卡 AI 集群建設(shè)挑戰(zhàn)、交付與測試
NV Blackwell 與 NVL72 超節(jié)點(diǎn)演進(jìn)(集群與互聯(lián))
案例: xAl十萬卡集群的組網(wǎng)方案
1.4 實(shí)驗(yàn)1:集群性能分析與測試
環(huán)境準(zhǔn)備:配置IB網(wǎng)卡IP、驗(yàn)證RDMA功能
使用ib_write_bw/ib_read_bw測試雙向帶寬
使用perftest工具驗(yàn)證延遲指標(biāo)
對(duì)比TCP vs RDMA的性能差異
動(dòng)手目標(biāo):理解RDMA的性能優(yōu)勢,掌握基礎(chǔ)測試工具
Day 1下午:存儲(chǔ)架構(gòu)與GPUDirect技術(shù)
模塊三:存儲(chǔ)需求與架構(gòu)設(shè)計(jì)
2.1 大模型全流程的存儲(chǔ)需求
訓(xùn)練階段:數(shù)據(jù)集加載(TB級(jí)順序讀)、Checkpoint保存(周期性爆發(fā)寫)
推理階段:模型參數(shù)加載、KV Cache的內(nèi)存-存儲(chǔ)協(xié)同
存儲(chǔ)性能三要素:IOPS、帶寬、延遲的權(quán)衡
痛點(diǎn)分析:大模型 CKPT優(yōu)化手段
2.2 高性能存儲(chǔ)架構(gòu)設(shè)計(jì)
訓(xùn)練存儲(chǔ)優(yōu)化方案與訓(xùn)練流程的存儲(chǔ)分析(數(shù)據(jù)湖與存儲(chǔ)加速)
訓(xùn)練數(shù)據(jù)加載與存儲(chǔ)優(yōu)化與存算架構(gòu)的思考
GPUDirect Storage:繞過CPU直接訪問存儲(chǔ)的原理
多級(jí)緩存體系:內(nèi)存-NVMe-并行文件系統(tǒng)的數(shù)據(jù)流設(shè)計(jì)
模塊四:存儲(chǔ)性能測試
2.3 實(shí)驗(yàn)2:本地存儲(chǔ)與緩存優(yōu)化
NVMe性能測試:FIO工具模擬順序讀寫、隨機(jī)IOPS
配置tmpfs作為訓(xùn)練數(shù)據(jù)緩存層
使用GPUDirect Storage API加速數(shù)據(jù)加載(模擬場景)
監(jiān)控工具:iostat、nvme-cli的使用
2.4 案例研討:存儲(chǔ)瓶頸排查
實(shí)際案例1:訓(xùn)練啟動(dòng)慢,如何定位是網(wǎng)絡(luò)還是存儲(chǔ)問題?
實(shí)際案例2:Checkpoint保存導(dǎo)致訓(xùn)練卡頓的優(yōu)化方案
小組討論:如何設(shè)計(jì)存儲(chǔ)架構(gòu)應(yīng)對(duì)碎片化讀寫?
Day 2上午:集群建設(shè)實(shí)戰(zhàn)與自動(dòng)化部署
模塊五:千卡集群交付流程
3.1 硬件選型與規(guī)劃
GPU選型:A100 vs H100 vs H20的算力/功耗/成本對(duì)比
網(wǎng)絡(luò)設(shè)備選型:IB交換機(jī)的端口密度、收斂比計(jì)算
服務(wù)器配置:CPU/內(nèi)存/NVMe的配比原則
3.2 集群建設(shè)全流程
需求分析→方案設(shè)計(jì)→硬件到貨→上架布線→系統(tǒng)安裝→功能驗(yàn)證
硬集與軟集的區(qū)別:物理組裝 vs 軟件配置的職責(zé)劃分
痛點(diǎn):如何避免硬件批次差異導(dǎo)致的兼容性問題?
案例:某千卡集群交付復(fù)盤
模塊六:自動(dòng)化部署
3.3 IB網(wǎng)絡(luò)自動(dòng)化配置
拓?fù)浒l(fā)現(xiàn):使用ibnetdiscover生成網(wǎng)絡(luò)拓?fù)鋱D
自動(dòng)化工具:Ansible Playbook批量配置IB參數(shù)
UFM架構(gòu)與功能
軟件架構(gòu):管理節(jié)點(diǎn)+Agent部署模式
核心功能:拓?fù)淇梢暬⑿阅鼙O(jiān)控、固件升級(jí)
對(duì)外接口:REST API、CLI、Prometheus集成
3.4 實(shí)驗(yàn)3:IB網(wǎng)絡(luò)配置與UFM監(jiān)控
手動(dòng)配置IB子網(wǎng)管理器(OpenSM)
使用ibdiagnet診斷鏈路狀態(tài)
演示UFM界面(視頻/截圖,受限于無交換機(jī))
編寫Ansible腳本批量修改MTU、速率等參數(shù)
動(dòng)手目標(biāo):掌握IB網(wǎng)絡(luò)的基礎(chǔ)運(yùn)維命令
Day 2下午: NCCL通信庫與性能優(yōu)化
模塊七:NCCL原理與調(diào)優(yōu)
4.1 NCCL通信原理
集合通信操作:AllReduce、AllGather、ReduceScatter的區(qū)別
NCCL的通信算法:Ring、Tree、Ring+Tree的適用場景
通信協(xié)議:Simple vs LL vs LL128的性能差異
原理圖解:單機(jī)8卡AllReduce的數(shù)據(jù)流向
4.2 NCCL環(huán)境變量詳解
核心變量:NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS、NCCL_MIN_NCHANNELS
網(wǎng)絡(luò)相關(guān):NCCL_IB_DISABLE、NCCL_SOCKET_IFNAME、NCCL_NET_GDR_LEVEL
調(diào)試變量:NCCL_DEBUG、NCCL_DEBUG_SUBSYS
模塊八:NCCL性能測試與優(yōu)化
4.3 實(shí)驗(yàn)4:單機(jī)多卡NCCL測試
使用nccl-tests測試單機(jī)8卡AllReduce帶寬
對(duì)比NVLink vs PCIe的通信性能
調(diào)整NCCL環(huán)境變量觀察性能變化
使用nsys/Nsight Systems分析通信瓶頸
常見問題:GPU看得到但NCCL初始化失敗的排查思路
4.4 疑難問題研討
問題1:網(wǎng)絡(luò)不丟包,但AllReduce帶寬達(dá)不到設(shè)計(jì)值
排查思路:檢查NCCL_ALGO、確認(rèn)IB鏈路狀態(tài)、驗(yàn)證GPU拓?fù)?/p>
問題2:GPU利用率90%+但訓(xùn)練慢
分析方法:區(qū)分計(jì)算bound vs 通信bound vs IO bound
Day 3上午:模型部署與訓(xùn)練實(shí)戰(zhàn)
5.1 大模型訓(xùn)練任務(wù)和推理任務(wù)的混跑的碎片化解決方案
分層解決方案(技術(shù)棧)
第一層:硬件與系統(tǒng)級(jí)隔離
第二層:運(yùn)行時(shí)級(jí)調(diào)度與搶占
第三層:框架級(jí)優(yōu)化與自適應(yīng)
一個(gè)典型的混合部署策略示例
5.2 訓(xùn)練出錯(cuò),快速判斷算法問題還是硬件問題的一站式解決方案
硬件問題的典型特征
算法/代碼問題的典型特征
系統(tǒng)性排查步驟(實(shí)戰(zhàn)流程)
5.3 如何處理慢節(jié)點(diǎn)拖累整個(gè)集群的問題?
短期應(yīng)急(止血) 重啟任務(wù)/節(jié)點(diǎn)
中期優(yōu)化(治標(biāo)) 資源隔離與保障
長期預(yù)防(治本) 建立硬件健康度基線
5.4 GPU 利用率“看起來很高”,但訓(xùn)練效率依然很低,nvidia-smi 顯示 GPU Util 90%+,實(shí)際每 step 時(shí)間明顯偏慢
內(nèi)存帶寬瓶頸(最常見)
現(xiàn)象:計(jì)算強(qiáng)度低,GPU大部分時(shí)間在訪存而非計(jì)算
低效內(nèi)核或過多小內(nèi)核
現(xiàn)象:大量微小操作,內(nèi)核啟動(dòng)開銷占主導(dǎo)
NVLink瓶頸(數(shù)據(jù)加載/通信)
現(xiàn)象:數(shù)據(jù)從CPU到GPU傳輸成為瓶頸
動(dòng)態(tài)/條件執(zhí)行(分支發(fā)散)
現(xiàn)象:存在大量if-else、不同長度的序列處理
顯存競爭/頻繁分配釋放
現(xiàn)象:大量臨時(shí)張量創(chuàng)建和銷毀
PyTorch/TensorFlow特定問題
常見陷阱:torch.no_grad()缺失導(dǎo)致保留計(jì)算圖
.item()、.cpu()等同步操作
非必要地頻繁調(diào)用.cuda()
自動(dòng)混合精度(AMP)配置不當(dāng)
系統(tǒng)化排查步驟
模塊九:容器化部署
5.5 容器環(huán)境搭建
Docker vs Singularity/Enroot在HPC場景的選擇
NVIDIA Container Toolkit原理:如何讓容器訪問GPU
鏡像構(gòu)建:基礎(chǔ)鏡像+CUDA+PyTorch+訓(xùn)練代碼的層次
網(wǎng)絡(luò)命名空間:容器內(nèi)如何使用宿主機(jī)IB網(wǎng)絡(luò)
5.6 實(shí)驗(yàn)5:容器化部署大模型
拉取NGC官方PyTorch鏡像(離線環(huán)境需提前準(zhǔn)備tar包)
編寫Dockerfile安裝依賴(transformers/flash-attention等)
使用docker run啟動(dòng)容器并掛載數(shù)據(jù)集
運(yùn)行某小尺寸模型測試訓(xùn)練流程
動(dòng)手目標(biāo):掌握生產(chǎn)級(jí)容器啟動(dòng)命令的編寫
模塊十:單機(jī)多卡訓(xùn)練
5.7模型訓(xùn)練實(shí)戰(zhàn)
使用torchrun啟動(dòng)多卡訓(xùn)練(DistributedDataParallel)
監(jiān)控工具:nvidia-smi、dcgm-exporter實(shí)時(shí)查看GPU狀態(tài)
訓(xùn)練日志分析:loss曲線、吞吐量(samples/s)、MFU計(jì)算
常見錯(cuò)誤:CUDA OOM、通信超時(shí)的快速定位
5.8實(shí)驗(yàn)6:單機(jī)8卡模型訓(xùn)練
運(yùn)行某小尺寸LLM預(yù)訓(xùn)練任務(wù)(尺寸視內(nèi)存而定)
調(diào)整batch size/gradient accumulation觀察顯存占用
使用tensorboard可視化訓(xùn)練曲線
性能對(duì)比:單卡 vs 8卡的加速比分析
挑戰(zhàn)任務(wù):嘗試開啟混合精度訓(xùn)練(AMP)
Day 3下午:集群測試與驗(yàn)收標(biāo)準(zhǔn)
模塊十一:基線性能測試
6.1 測試方案設(shè)計(jì)
測試維度:計(jì)算性能、通信帶寬、存儲(chǔ)IOPS
測試工具鏈:
GPU計(jì)算:CUDA Samples、cuBLAS benchmarks
網(wǎng)絡(luò):nccl-tests、ib_write_bw、SHARP測試
存儲(chǔ):FIO、IOR
驗(yàn)收標(biāo)準(zhǔn)制定:如何設(shè)定合理的性能基線?
6.2 實(shí)驗(yàn)7:GPU基線性能測試
運(yùn)行CUDA Samples中的bandwidthTest、deviceQuery
使用HPL/HPCG測試峰值算力
GPU Burn壓力測試:長時(shí)間滿載運(yùn)行檢測穩(wěn)定性
靜默錯(cuò)誤檢測:使用dcgm-diag的診斷功能
記錄:整理測試數(shù)據(jù)形成測試報(bào)告模板
模塊十二:穩(wěn)定性與故障注入
6.3 穩(wěn)定性測試方法
長時(shí)間負(fù)載測試:72小時(shí)連續(xù)訓(xùn)練任務(wù)
故障注入:模擬GPU掉卡、網(wǎng)絡(luò)抖動(dòng)場景
MFU(Model FLOPs Utilization)測試:計(jì)算有效算力利用率
6.4 案例研討:故障排查實(shí)戰(zhàn)
案例1:訓(xùn)練中途loss突然變NaN,如何判斷是算法還是硬件?
案例2:慢節(jié)點(diǎn)拖累全局,如何快速定位異常節(jié)點(diǎn)?
小組討論:制定自己的故障響應(yīng)SOP
Day 4上午:生產(chǎn)環(huán)境運(yùn)維與高級(jí)調(diào)優(yōu)
模塊十三:運(yùn)維工具與監(jiān)控
7.1 運(yùn)維工具體系
UFM深度實(shí)踐:
部署架構(gòu):HA模式、數(shù)據(jù)庫選擇
監(jiān)控指標(biāo):鏈路流量、錯(cuò)誤計(jì)數(shù)、溫度/功耗
告警配置:如何設(shè)置閾值避免誤報(bào)
API集成:通過REST接口對(duì)接運(yùn)維平臺(tái)
DCGM(Data Center GPU Manager):
架構(gòu):Host Engine + Agent模式
健康檢查:周期性診斷GPU狀態(tài)
與Prometheus/Grafana集成實(shí)現(xiàn)可觀測性
7.2 實(shí)驗(yàn)8:運(yùn)維工具部署與監(jiān)控
部署DCGM并配置Exporter
編寫Grafana Dashboard展示GPU指標(biāo)
模擬故障:拔掉光模塊觀察UFM告警(視頻演示)
使用dcgmi命令行工具查詢GPU健康狀態(tài)
智算中心光模塊故障率高,如何通過帶內(nèi)監(jiān)控提前預(yù)測光模塊失效
動(dòng)手目標(biāo):搭建一套可用的監(jiān)控系統(tǒng)
模塊十四:混合調(diào)度與高級(jí)話題
7.3 資源調(diào)度與隔離
Slurm vs Kubernetes在AI集群的適用性
GPU共享與MIG(Multi-Instance GPU)技術(shù)
訓(xùn)練任務(wù)(獨(dú)占) vs 推理任務(wù)(零散)的資源隔離策略
痛點(diǎn):碎片化問題如何通過調(diào)度器解決?
7.4 國產(chǎn)芯片混合組網(wǎng)
華為昇騰、海光與英偉達(dá)的生態(tài)差異
混合算力中心架構(gòu)設(shè)計(jì):網(wǎng)絡(luò)隔離 vs 統(tǒng)一調(diào)度
挑戰(zhàn):驅(qū)動(dòng)版本管理、框架適配的復(fù)雜度
7.5 推理架構(gòu)設(shè)計(jì)
并行策略:Tensor Parallelism vs Pipeline Parallelism
Prefill-Decode分離架構(gòu)
推理框架:vLLM、TensorRT-LLM、FasterTransformer對(duì)比
案例:如何實(shí)現(xiàn)毫秒級(jí)推理延遲
Day 4下午:交付驗(yàn)收與綜合實(shí)戰(zhàn)
模塊十五:驗(yàn)收標(biāo)準(zhǔn)與實(shí)操
8.1 交付驗(yàn)收流程
驗(yàn)收文檔模板:測試清單、性能報(bào)告、問題跟蹤表
功能驗(yàn)收:計(jì)算/網(wǎng)絡(luò)/存儲(chǔ)各模塊Checklist
性能驗(yàn)收:基線對(duì)標(biāo)、SLA達(dá)標(biāo)確認(rèn)
文檔交付:運(yùn)維手冊(cè)、故障處理手冊(cè)、培訓(xùn)材料
測試用例
建設(shè)完成后,如何驗(yàn)證網(wǎng)絡(luò)性能?
計(jì)算并驗(yàn)收模型算力利用率
8.2 實(shí)驗(yàn)9:模擬驗(yàn)收測試
按照標(biāo)準(zhǔn)流程執(zhí)行全套測試:
GPU計(jì)算性能
NCCL通信帶寬
存儲(chǔ)IOPS
模型訓(xùn)練端到端
填寫測試報(bào)告
角色扮演:分組模擬甲方-乙方驗(yàn)收?qǐng)鼍?/p>
模塊十六:綜合答疑與總結(jié)
8.3 疑難問題集中解答
重點(diǎn)解答學(xué)員提交的問題(結(jié)合前7天內(nèi)容)
重點(diǎn)問題深度剖析:
光模塊故障預(yù)測(帶內(nèi)監(jiān)控、DOM數(shù)據(jù)分析)
鏈路性能下降對(duì)訓(xùn)練的影響量化
版本管理最佳實(shí)踐(容器化+版本鎖定)
8.4 課程總結(jié)與展望
知識(shí)體系回顧:從硬件到軟件、從建設(shè)到運(yùn)維的完整鏈條
推薦學(xué)習(xí)資源:NVIDIA官方文檔、開源社區(qū)、行業(yè)白皮書
職業(yè)發(fā)展建議:從實(shí)施工程師到架構(gòu)師的成長路徑
8.5 結(jié)業(yè)考核
涵蓋關(guān)鍵知識(shí)點(diǎn)(20題選擇+5題簡答)
實(shí)驗(yàn)資源準(zhǔn)備清單
軟件環(huán)境(需提前準(zhǔn)備離線安裝包):
操作系統(tǒng):Ubuntu 22.04 LTS
CUDA Toolkit 12.2 + cuDNN 8.9
NVIDIA Driver 535+
Docker/Containerd + NVIDIA Container Toolkit
PyTorch 2.1 + transformers
NCCL 2.19+、nccl-tests、OpenMPI
監(jiān)控工具:DCGM、Grafana、Prometheus
測試工具:ib_write_bw、FIO、HPL
小模型:若干小尺寸模型及權(quán)重
部分實(shí)訓(xùn)課件




實(shí)訓(xùn)技術(shù)專家
張老師 AI Infra算法開發(fā)研發(fā)專家
北京郵電大學(xué),網(wǎng)絡(luò)與交換國家重點(diǎn)實(shí)驗(yàn)室,計(jì)算機(jī)科學(xué)與技術(shù)碩士。某互聯(lián)網(wǎng)大廠高級(jí)工程師,深度學(xué)習(xí)框架開發(fā)與性能調(diào)優(yōu)專家horovod,spark,iceberg,hudi 等系列源碼貢獻(xiàn)者,AI大模型+AI Infra公眾號(hào)“Tim在路上”主理人。
專業(yè)能力
熟悉深度學(xué)習(xí)框架,模型性能調(diào)優(yōu),有過深度學(xué)習(xí)框架開發(fā)調(diào)優(yōu)經(jīng)驗(yàn)。
熟悉 GPU, NPU, CUDA, CANN, Nccl, IB 等底層原理與工程實(shí)踐。
熟悉數(shù)據(jù)湖/數(shù)據(jù)引擎的開發(fā)優(yōu)化,例如針對(duì)SparkSQL 源碼級(jí)優(yōu)化開發(fā)。
熊老師 AI技術(shù)專家
中國農(nóng)業(yè)大學(xué)計(jì)算機(jī)碩士,研究員高級(jí)工程師,華為云AI專家組成員,西安電子科技大學(xué)企業(yè)導(dǎo)師,浙江大學(xué)人工智能中心研究員,阿里云AI訓(xùn)練師認(rèn)證教材和題庫系統(tǒng)專家,主要研究方向?yàn)榇笳Z言模型、人工智能、云計(jì)算、GPU算力運(yùn)維與調(diào)優(yōu)、自然語言處理、CV視覺模型、汽車智能駕駛。從早期的智能搜索引擎,到華為盤古大模型云引擎研發(fā),到阿里云百煉智能平臺(tái)應(yīng)用開發(fā),再到扣子平臺(tái)智能體應(yīng)用開發(fā),一直深耕于自然語言處理處理、AI大模型領(lǐng)域。
華為培訓(xùn)中心資深I(lǐng)T認(rèn)證培訓(xùn)專家,國內(nèi)頂級(jí)架構(gòu)設(shè)計(jì)、軟件開發(fā)專家。具有堅(jiān)實(shí)的學(xué)術(shù)背景和教學(xué)培訓(xùn)經(jīng)驗(yàn),多年研發(fā)和客戶項(xiàng)目高級(jí)管理咨詢能力。近20年系統(tǒng)開發(fā)經(jīng)驗(yàn),5年以上授課經(jīng)驗(yàn)。
在技術(shù)平臺(tái)方面,主要是擅長培訓(xùn)兩塊內(nèi)容:一是人工智能和大模型,精通整個(gè)體系的培訓(xùn)工作,包括Python語言,Python web,Numpy,Pandas,Matplotlib,爬蟲,機(jī)器學(xué)習(xí)的十大算法線性回歸,邏輯回歸,邏輯回歸,聚類,支持向量機(jī),關(guān)聯(lián)規(guī)則,協(xié)同過濾,深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò),長短期記憶,對(duì)抗學(xué)習(xí),強(qiáng)化學(xué)習(xí),大模型LLAMA,LLVM等引擎構(gòu)建技術(shù),以及最后的大模型應(yīng)用案例實(shí)現(xiàn)。二是知識(shí)庫、智能體和MCP應(yīng)用,精通整個(gè)體系架構(gòu),包括提示詞工程, LLM、LangChain等技術(shù)的開發(fā)與應(yīng)用。深入理解智能體、工作流、語言助手等平臺(tái)應(yīng)用開發(fā)技術(shù)。對(duì)于大模型體系有深刻認(rèn)識(shí),及獨(dú)到的見解。已經(jīng)參與了數(shù)十個(gè)AI大模型應(yīng)用項(xiàng)目研發(fā),并主導(dǎo)系統(tǒng)設(shè)計(jì)和優(yōu)化,有著豐富的大模型系統(tǒng)設(shè)計(jì)開發(fā)工作經(jīng)驗(yàn)。
精研課程
人工智能機(jī)器學(xué)習(xí)算法
大模型訓(xùn)練
自然語言處理文本處理實(shí)踐—文本自動(dòng)摘要、文章自動(dòng)生成
基于深度學(xué)習(xí)的知識(shí)圖譜實(shí)戰(zhàn)
基于深度學(xué)習(xí)的個(gè)性化推薦系統(tǒng)實(shí)戰(zhàn)
DeepSeek提示詞工程
基于DeepSeek的大模型微調(diào)技術(shù)
DeepSeek的RAG技術(shù)--知識(shí)庫開發(fā)
阿里云人工智能訓(xùn)練師認(rèn)證培訓(xùn)
基于Dify平臺(tái)的智能體開發(fā)
Ollama+DeepSeek+Dify平臺(tái)開發(fā)最佳實(shí)踐
近期主要培訓(xùn)和咨詢內(nèi)容:
杭州阿里巴巴:2024年11月,12月,2025年2月,3月,4月,在阿里總部西溪園區(qū)進(jìn)行。每期培訓(xùn)都通過5天的的AI訓(xùn)練師認(rèn)證培訓(xùn)工作,培養(yǎng)阿里云生態(tài)內(nèi)外的AI訓(xùn)練師以及師資,以實(shí)現(xiàn)阿里云百煉平臺(tái),QuickBI,QuickService 等多個(gè)AI平臺(tái)應(yīng)用的推廣,提升學(xué)員的智能體開發(fā)能力。
四川移動(dòng):2024年11月,大模型知識(shí)庫調(diào)優(yōu)(九天大模型,ChaGPT,ChatDB),通過一周的技術(shù)實(shí)戰(zhàn)培訓(xùn),提升移動(dòng)在線團(tuán)隊(duì)(10086)的語言助手智能水平,并將相關(guān)技術(shù)應(yīng)用到了四川移動(dòng)在線的內(nèi)部平臺(tái)。
寶馬汽車:2024年12月,基于github copilot的AI編程開發(fā)技術(shù)應(yīng)用,通過3天的技術(shù)實(shí)戰(zhàn)培訓(xùn),提升汽車軟件開發(fā)團(tuán)隊(duì)的智能編程能力,并將微軟云的智能編程工具接入研發(fā)團(tuán)隊(duì)的內(nèi)部平臺(tái)。
博世蘇州:2025年1月,基于微軟云AI編程開發(fā)工具技術(shù),包括github copilot以及相關(guān)組件的應(yīng)用,提升團(tuán)隊(duì)編程開發(fā)和軟件測試的智能化水平。同時(shí)幫助團(tuán)隊(duì)將Azure接入團(tuán)隊(duì)開發(fā)的內(nèi)部平臺(tái)。
中國移動(dòng)設(shè)計(jì)研究院:(2024年1月,3月,7月,12月,2025年4月等)大模型底層設(shè)計(jì)和優(yōu)化。經(jīng)過多輪培訓(xùn)和持續(xù)的咨詢工作,采用基于GPU集群的算力,優(yōu)化LLVM,LLAMA2在內(nèi)的大模型引擎技術(shù),提高了大模型引擎的穩(wěn)定性和拓展能力。引入了去中心化集群技術(shù)和跨域資源調(diào)度技術(shù),提高了大模型底層引擎的可靠性和可維護(hù)性。
除此以外,對(duì)上層的基于自然語言處理的大模型應(yīng)用進(jìn)行指導(dǎo)和應(yīng)用。包括提示詞的編寫,文字和圖片的生成,視頻的生成等應(yīng)用,優(yōu)化生成資源的精準(zhǔn)度,提升生成資源的速度,并開發(fā)與外部系統(tǒng)之間的接口,目前已有超過百種外部應(yīng)用接入了大模型,顯著提升了生產(chǎn)能力,大大超過客戶了之前對(duì)此次培訓(xùn)和咨詢的預(yù)期。
福州信產(chǎn)億力公司:2025年4月25-26日,基于DeepSeek和Dify的智能體應(yīng)用開發(fā)實(shí)踐。包括平臺(tái)搭建,智能體構(gòu)建,提示詞工程以及基于RAG的知識(shí)庫構(gòu)建應(yīng)用。并將相關(guān)技術(shù)應(yīng)用到智能辦公和智能問答等方面。
北京中國民航開發(fā)中心(CAST):2025年4月,基于DeepSeek等大模型的AI編程技術(shù)開發(fā)。經(jīng)過一個(gè)多星期的培訓(xùn)和咨詢工作,提升了相關(guān)AI編程工具的使用能力,幫助客戶構(gòu)建了基于私有云的AI編程內(nèi)部平臺(tái),從源頭提升了研發(fā)生產(chǎn)力。
內(nèi)蒙電力數(shù)字化和智能體應(yīng)用:2025年5月下旬,經(jīng)過10天的培訓(xùn),幫助客戶構(gòu)建了基于office和WPS的私有大模型辦公平臺(tái)。除此以外,構(gòu)建了基于一體機(jī)的Dify+DeepSeek+Ollama的智能體和直屬庫開發(fā)應(yīng)用平臺(tái),提升企業(yè)內(nèi)部數(shù)字化能力和自動(dòng)化流程能力
關(guān)于TsingtaoAI
TsingtaoAI(北京霆濤商業(yè)智能技術(shù)有限公司)企業(yè)內(nèi)訓(xùn)業(yè)務(wù)線專注于提供LLM、智算、具身智能、AIGC和數(shù)據(jù)科學(xué)領(lǐng)域的企業(yè)內(nèi)訓(xùn)服務(wù),通過深入業(yè)務(wù)場景的案例實(shí)戰(zhàn)和項(xiàng)目式培訓(xùn),幫助企業(yè)應(yīng)對(duì)AI轉(zhuǎn)型中的技術(shù)挑戰(zhàn)。其培訓(xùn)內(nèi)容涵蓋AI大模型開發(fā)、Prompt工程、數(shù)據(jù)分析與模型優(yōu)化等最新前沿技術(shù),并結(jié)合實(shí)際應(yīng)用場景,如智算中心、智能制造、醫(yī)藥健康、金融科技和智能駕駛等。通過案例式學(xué)習(xí)和PBL項(xiàng)目訓(xùn)練,TsingtaoAI能夠精準(zhǔn)滿足企業(yè)技術(shù)團(tuán)隊(duì)的學(xué)習(xí)需求,提升員工的業(yè)務(wù)能力和實(shí)戰(zhàn)水平,實(shí)現(xiàn)AI技術(shù)的高效落地,為企業(yè)創(chuàng)新和生產(chǎn)力提升提供強(qiáng)有力的支持。
同時(shí),TsingtaoAI公司并不是一家單純的培訓(xùn)機(jī)構(gòu),我們同樣是一家AI產(chǎn)品和AI Infra開發(fā)公司,公司核心團(tuán)隊(duì)主要也都是由技術(shù)和產(chǎn)品人才構(gòu)成,公司團(tuán)隊(duì)大部分成員在大模型時(shí)代之前就在從事AI相關(guān)的工作。公司在過去一年里,為10余家客戶開發(fā)了AI相關(guān)的產(chǎn)品,涵蓋醫(yī)療、教育、智能制造、人力資源等領(lǐng)域。相信我們?cè)贏I產(chǎn)品開發(fā)和客戶服務(wù)的過程所形成的認(rèn)知和方法論,能對(duì)貴司的需求有更深更細(xì)的洞察和理解,也能提供更深入業(yè)務(wù)肌理的“AI能力獲得”。