九九久久蜜臀,操干美女在线

4月01-02日北京，TsingtaoAI智算技術(shù)團(tuán)隊(duì)為某軟件上市公司交付NV智算集群技術(shù)實(shí)訓(xùn)。實(shí)訓(xùn)以英偉達(dá)A100服務(wù)器和InfiniBand網(wǎng)絡(luò)為核心，系統(tǒng)梳理硬件選型、網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)（Rail-optimized架構(gòu)與萬(wàn)卡集群收斂比優(yōu)化）、存儲(chǔ)加速（GPUDirect Storage直連NVMe、多級(jí)緩存體系）等關(guān)鍵環(huán)節(jié)。重點(diǎn)突破NCCL通信庫(kù)調(diào)優(yōu)（Ring+Tree混合算法、LL128協(xié)議參數(shù)優(yōu)化）、容器化部署（NVIDIA Container Toolkit深度集成）、及集群穩(wěn)定性驗(yàn)證（72小時(shí)負(fù)載測(cè)試+故障注入模擬）。針對(duì)行業(yè)高頻痛點(diǎn)，深度解析“GPU利用率虛高”背后的內(nèi)存帶寬瓶頸、光模塊失效的帶內(nèi)監(jiān)控預(yù)測(cè)，以及國(guó)產(chǎn)昇騰/海光與NVIDIA混合組網(wǎng)的生態(tài)適配難題。通過(guò)Blackwell架構(gòu)演進(jìn)、MFU量化分析等前沿實(shí)踐，將驗(yàn)收標(biāo)準(zhǔn)與實(shí)際運(yùn)維場(chǎng)景深度結(jié)合，助力一線工程師從交付執(zhí)行者向架構(gòu)決策者跨越。

實(shí)訓(xùn)時(shí)長(zhǎng):2天,每天7小時(shí)

01號(hào)上午

1.1 智算集群整體架構(gòu)認(rèn)知

計(jì)算集群的發(fā)展與挑戰(zhàn) (傳統(tǒng)數(shù)據(jù)中心 vs 智算中心的本質(zhì)差異 )

集群基礎(chǔ)建設(shè)介紹（AI 服務(wù)器節(jié)點(diǎn)、風(fēng)冷液冷，服務(wù)器機(jī)柜）

GPU 服務(wù)器topo 結(jié)構(gòu)

1.2 先進(jìn)算力資源的網(wǎng)絡(luò)關(guān)鍵技術(shù)

InfiniBand vs RoCE:性能對(duì)比與選型依據(jù)(帶寬、延遲、丟包容忍度)

RDMA技術(shù)原理:零拷貝、內(nèi)核旁路如何提升效率

先進(jìn)算力nvLink、PCIe拓?fù)?節(jié)點(diǎn)內(nèi)GPU互聯(lián)的帶寬瓶頸分析

PFC(優(yōu)先級(jí)流控)與ECN(顯式擁塞通知)配置要點(diǎn)

網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)

單軌網(wǎng)絡(luò)，多軌網(wǎng)絡(luò)deepseek 經(jīng)典設(shè)計(jì)

Rail-optimized拓?fù)?vs 傳統(tǒng)Spine-Leaf的區(qū)別

萬(wàn)卡 AI 集群建設(shè)挑戰(zhàn)、交付與測(cè)試

先進(jìn)算力 Blackwell 與先進(jìn)算力L72 超節(jié)點(diǎn)演進(jìn)（集群與互聯(lián)）

集群性能分析與測(cè)試

環(huán)境準(zhǔn)備:配置IB網(wǎng)卡IP、驗(yàn)證RDMA功能

使用ib_write_bw/ib_read_bw測(cè)試雙向帶寬

使用perftest工具驗(yàn)證延遲指標(biāo)

對(duì)比TCP vs RDMA的性能差異

理解RDMA的性能優(yōu)勢(shì),掌握基礎(chǔ)測(cè)試工具

存儲(chǔ)架構(gòu)與GPUDirect技術(shù)

訓(xùn)練階段:數(shù)據(jù)集加載(TB級(jí)順序讀)、Checkpoint保存(周期性爆發(fā)寫)

推理階段:模型參數(shù)加載、KV Cache的內(nèi)存-存儲(chǔ)協(xié)同

存儲(chǔ)性能三要素:IOPS、帶寬、延遲的權(quán)衡

痛點(diǎn)分析:大模型 CKPT優(yōu)化手段

高性能存儲(chǔ)架構(gòu)設(shè)計(jì)

訓(xùn)練數(shù)據(jù)加載與存儲(chǔ)優(yōu)化與存算架構(gòu)的思考

GPUDirect Storage:繞過(guò)CPU直接訪問(wèn)存儲(chǔ)的原理

多級(jí)緩存體系:內(nèi)存-先進(jìn)算力Memory并行文件系統(tǒng)的數(shù)據(jù)流設(shè)計(jì)

使用GPUDirect Storage API加速數(shù)據(jù)加載(模擬場(chǎng)景)

01號(hào)下午

千卡集群交付流程

3.1 硬件選型與規(guī)劃

GPU選型:A100 vs H100 vs H20的算力/功耗/成本對(duì)比

網(wǎng)絡(luò)設(shè)備選型:IB交換機(jī)的端口密度、收斂比計(jì)算

服務(wù)器配置:CPU/內(nèi)存/先進(jìn)算力的配比原則

3.2 集群建設(shè)全流程

需求分析→方案設(shè)計(jì)→硬件到貨→上架布線→系統(tǒng)安裝→功能驗(yàn)證

硬集與軟集的區(qū)別:物理組裝 vs 軟件配置的職責(zé)劃分

痛點(diǎn):如何避免硬件批次差異導(dǎo)致的兼容性問(wèn)題?

案例:某千卡集群交付復(fù)盤

IB網(wǎng)絡(luò)自動(dòng)化配置

拓?fù)浒l(fā)現(xiàn):使用ibnetdiscover生成網(wǎng)絡(luò)拓?fù)鋱D

UFM架構(gòu)與功能

軟件架構(gòu):管理節(jié)點(diǎn)+Agent部署模式

核心功能:拓?fù)淇梢暬⑿阅鼙O(jiān)控、固件升級(jí)

對(duì)外接口:REST API、CLI、Prometheus集成

3.4 IB網(wǎng)絡(luò)配置與UFM監(jiān)控

手動(dòng)配置IB子網(wǎng)管理器(OpenSM)

使用ibdiagnet診斷鏈路狀態(tài)

演示UFM界面(視頻/截圖,受限于無(wú)交換機(jī))

掌握IB網(wǎng)絡(luò)的基礎(chǔ)運(yùn)維命令

NCCL通信原理

集合通信操作:AllReduce、AllGather、ReduceScatter的區(qū)別

NCCL的通信算法:Ring、Tree、Ring+Tree的適用場(chǎng)景

通信協(xié)議:Simple vs LL vs LL128的性能差異

原理圖解:單機(jī)8卡AllReduce的數(shù)據(jù)流向

NCCL環(huán)境變量詳解

核心變量:NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS、NCCL_MIN_NCHANNELS

網(wǎng)絡(luò)相關(guān):NCCL_IB_DISABLE、NCCL_SOCKET_IFNAME、NCCL_NET_GDR_LEVEL

調(diào)試變量:NCCL_DEBUG、NCCL_DEBUG_SUBSYS

單機(jī)多卡NCCL測(cè)試

使用nccl-tests測(cè)試單機(jī)8卡AllReduce帶寬

對(duì)比nvLink vs PCIe的通信性能

調(diào)整NCCL環(huán)境變量觀察性能變化

常見(jiàn)問(wèn)題:GPU看得到但NCCL初始化失敗的排查思路

疑難問(wèn)題研討

問(wèn)題1:網(wǎng)絡(luò)不丟包,但AllReduce帶寬達(dá)不到設(shè)計(jì)值

排查思路:檢查NCCL_ALGO、確認(rèn)IB鏈路狀態(tài)、驗(yàn)證GPU拓?fù)?/p>

問(wèn)題2:GPU利用率90%+但訓(xùn)練慢

02號(hào)上午

大模型訓(xùn)練任務(wù)和推理任務(wù)的混跑的碎片化解決方案

分層解決方案（技術(shù)棧）

第一層：硬件與系統(tǒng)級(jí)隔離

第二層：運(yùn)行時(shí)級(jí)調(diào)度與搶占

第三層：框架級(jí)優(yōu)化與自適應(yīng)

一個(gè)典型的混合部署策略示例

訓(xùn)練出錯(cuò)，快速判斷算法問(wèn)題還是硬件問(wèn)題的一站式解決方案

硬件問(wèn)題的典型特征

算法/代碼問(wèn)題的典型特征

系統(tǒng)性排查步驟（實(shí)戰(zhàn)流程）

如何處理慢節(jié)點(diǎn)拖累整個(gè)集群的問(wèn)題？

短期應(yīng)急（止血）重啟任務(wù)/節(jié)點(diǎn)

中期優(yōu)化（治標(biāo)）資源隔離與保障

長(zhǎng)期預(yù)防（治本）建立硬件健康度基線

重點(diǎn)闡述：

GPU 利用率“看起來(lái)很高”，但訓(xùn)練效率依然很低，先進(jìn)算力-smi 顯示 GPU Util 90%+，實(shí)際每 step 時(shí)間明顯偏慢

容器環(huán)境搭建

Docker vs Singularity/Enroot在HPC場(chǎng)景的選擇

Container Toolkit原理:如何讓容器訪問(wèn)GPU

鏡像構(gòu)建:基礎(chǔ)鏡像+CUDA+PyTorch+訓(xùn)練代碼的層次

網(wǎng)絡(luò)命名空間:容器內(nèi)如何使用宿主機(jī)IB網(wǎng)絡(luò)

容器化部署大模型

拉取NGC官方PyTorch鏡像(離線環(huán)境需提前準(zhǔn)備tar包)

編寫Dockerfile安裝依賴(transformers/flash-attention等)

使用docker run啟動(dòng)容器并掛載數(shù)據(jù)集

運(yùn)行某小尺寸模型測(cè)試訓(xùn)練流程

模型訓(xùn)練實(shí)戰(zhàn)

使用torchrun啟動(dòng)多卡訓(xùn)練(DistributedDataParallel)

監(jiān)控工具:先進(jìn)算力-smi、dcgm-exporter實(shí)時(shí)查看GPU狀態(tài)

訓(xùn)練日志分析:loss曲線、吞吐量(samples/s)、MFU計(jì)算

常見(jiàn)錯(cuò)誤:CUDA OOM、通信超時(shí)的快速定位

模型訓(xùn)練

運(yùn)行某小尺寸LLM預(yù)訓(xùn)練任務(wù)(尺寸視內(nèi)存而定)

調(diào)整batch size/gradient accumulation觀察顯存占用

使用tensorboard可視化訓(xùn)練曲線

性能對(duì)比:單卡 vs 多卡的加速比分析/嘗試開(kāi)啟混合精度訓(xùn)練(AMP)

02號(hào)下午

測(cè)試方案設(shè)計(jì)

測(cè)試維度:計(jì)算性能、通信帶寬、存儲(chǔ)IOPS

測(cè)試工具鏈:

GPU計(jì)算:CUDA Samples、cuBLAS benchmarks

網(wǎng)絡(luò):nccl-tests、ib_write_bw、SHARP測(cè)試

存儲(chǔ):FIO、IOR

驗(yàn)收標(biāo)準(zhǔn)制定:如何設(shè)定合理的性能基線?

GPU基線性能測(cè)試

運(yùn)行CUDA Samples中的bandwidthTest、deviceQuery

使用HPL/HPCG測(cè)試峰值算力

GPU Burn壓力測(cè)試:長(zhǎng)時(shí)間滿載運(yùn)行檢測(cè)穩(wěn)定性

靜默錯(cuò)誤檢測(cè):使用dcgm-diag的診斷功能

記錄:整理測(cè)試數(shù)據(jù)形成測(cè)試報(bào)告模板

穩(wěn)定性測(cè)試方法

長(zhǎng)時(shí)間負(fù)載測(cè)試:72小時(shí)連續(xù)訓(xùn)練任務(wù)

故障注入:模擬GPU掉卡、網(wǎng)絡(luò)抖動(dòng)場(chǎng)景

MFU(Model FLOPs Utilization)測(cè)試:計(jì)算有效算力利用率

運(yùn)維工具體系

UFM深度實(shí)踐:

部署架構(gòu):HA模式、數(shù)據(jù)庫(kù)選擇

監(jiān)控指標(biāo):鏈路流量、錯(cuò)誤計(jì)數(shù)、溫度/功耗

告警配置:如何設(shè)置閾值避免誤報(bào)

API集成:通過(guò)REST接口對(duì)接運(yùn)維平臺(tái)

DCGM(Data Center GPU Manager):

架構(gòu):Host Engine + Agent模式

健康檢查:周期性診斷GPU狀態(tài)

運(yùn)維工具部署與監(jiān)控

部署DCGM并配置Exporter

編寫Grafana Dashboard展示GPU指標(biāo)

模擬故障:拔掉光模塊觀察UFM告警(視頻演示)

使用dcgmi命令行工具查詢GPU健康狀態(tài)

智算中心光模塊故障率高，如何通過(guò)帶內(nèi)監(jiān)控提前預(yù)測(cè)光模塊失效

搭建一套可用的監(jiān)控系統(tǒng)

資源調(diào)度與隔離

Slurm vs Kubernetes在AI集群的適用性

GPU共享與MIG(Multi-Instance GPU)技術(shù)

訓(xùn)練任務(wù)(獨(dú)占) vs 推理任務(wù)(零散)的資源隔離策略

痛點(diǎn):碎片化問(wèn)題如何通過(guò)調(diào)度器解決?

國(guó)產(chǎn)芯片混合組網(wǎng)

華為昇騰、海光與英偉達(dá)的生態(tài)差異

混合算力中心架構(gòu)設(shè)計(jì):網(wǎng)絡(luò)隔離 vs 統(tǒng)一調(diào)度

挑戰(zhàn):驅(qū)動(dòng)版本管理、框架適配的復(fù)雜度

推理架構(gòu)設(shè)計(jì)

并行策略:Tensor Parallelism vs Pipeline Parallelism

Prefill-Decode分離架構(gòu)

推理框架:vLLM、TensorRT-LLM、FasterTransformer對(duì)比

案例:如何實(shí)現(xiàn)毫秒級(jí)推理延遲

部分實(shí)訓(xùn)課件

實(shí)訓(xùn)技術(shù)專家

熊工 AI智算技術(shù)專家

中國(guó)農(nóng)業(yè)大學(xué)計(jì)算機(jī)碩士，研究員高級(jí)工程師，華為云AI專家組成員，西安電子科技大學(xué)企業(yè)導(dǎo)師，浙江大學(xué)人工智能中心研究員，阿里云AI訓(xùn)練師認(rèn)證教材和題庫(kù)系統(tǒng)專家，主要研究方向?yàn)榇笳Z(yǔ)言模型、人工智能、云計(jì)算、GPU算力運(yùn)維與調(diào)優(yōu)、自然語(yǔ)言處理、CV視覺(jué)模型、汽車智能駕駛。從早期的智能搜索引擎，到華為盤古大模型云引擎研發(fā)，到阿里云百煉智能平臺(tái)應(yīng)用開(kāi)發(fā)，再到扣子平臺(tái)智能體應(yīng)用開(kāi)發(fā)，一直深耕于自然語(yǔ)言處理處理、AI大模型領(lǐng)域。

華為培訓(xùn)中心資深I(lǐng)T認(rèn)證培訓(xùn)專家，國(guó)內(nèi)頂級(jí)架構(gòu)設(shè)計(jì)、軟件開(kāi)發(fā)專家。具有堅(jiān)實(shí)的學(xué)術(shù)背景和教學(xué)培訓(xùn)經(jīng)驗(yàn)，多年研發(fā)和客戶項(xiàng)目高級(jí)管理咨詢能力。近20年系統(tǒng)開(kāi)發(fā)經(jīng)驗(yàn)，5年以上授課經(jīng)驗(yàn)。

在技術(shù)平臺(tái)方面，主要是擅長(zhǎng)培訓(xùn)兩塊內(nèi)容：一是人工智能和大模型，精通整個(gè)體系的培訓(xùn)工作，包括Python語(yǔ)言，Python web，Numpy，Pandas，Matplotlib，爬蟲，機(jī)器學(xué)習(xí)的十大算法線性回歸，邏輯回歸，邏輯回歸，聚類，支持向量機(jī)，關(guān)聯(lián)規(guī)則，協(xié)同過(guò)濾，深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)，循環(huán)神經(jīng)網(wǎng)絡(luò)，長(zhǎng)短期記憶，對(duì)抗學(xué)習(xí)，強(qiáng)化學(xué)習(xí)，大模型LLAMA，LLVM等引擎構(gòu)建技術(shù)，以及最后的大模型應(yīng)用案例實(shí)現(xiàn)。二是知識(shí)庫(kù)、智能體和MCP應(yīng)用，精通整個(gè)體系架構(gòu)，包括提示詞工程， LLM、LangChain等技術(shù)的開(kāi)發(fā)與應(yīng)用。深入理解智能體、工作流、語(yǔ)言助手等平臺(tái)應(yīng)用開(kāi)發(fā)技術(shù)。對(duì)于大模型體系有深刻認(rèn)識(shí)，及獨(dú)到的見(jiàn)解。已經(jīng)參與了數(shù)十個(gè)AI大模型應(yīng)用項(xiàng)目研發(fā)，并主導(dǎo)系統(tǒng)設(shè)計(jì)和優(yōu)化，有著豐富的大模型系統(tǒng)設(shè)計(jì)開(kāi)發(fā)工作經(jīng)驗(yàn)。

精研課程

人工智能機(jī)器學(xué)習(xí)算法

大模型訓(xùn)練

自然語(yǔ)言處理文本處理實(shí)踐—文本自動(dòng)摘要、文章自動(dòng)生成

基于深度學(xué)習(xí)的知識(shí)圖譜實(shí)戰(zhàn)

基于深度學(xué)習(xí)的個(gè)性化推薦系統(tǒng)實(shí)戰(zhàn)

DeepSeek提示詞工程

基于DeepSeek的大模型微調(diào)技術(shù)

DeepSeek的RAG技術(shù)--知識(shí)庫(kù)開(kāi)發(fā)

阿里云人工智能訓(xùn)練師認(rèn)證培訓(xùn)

基于Dify平臺(tái)的智能體開(kāi)發(fā)

Ollama+DeepSeek+Dify平臺(tái)開(kāi)發(fā)最佳實(shí)踐

近期主要培訓(xùn)和咨詢內(nèi)容：

杭州阿里巴巴：2024年11月，12月，2025年2月，3月，4月，在阿里總部西溪園區(qū)進(jìn)行。每期培訓(xùn)都通過(guò)5天的的AI訓(xùn)練師認(rèn)證培訓(xùn)工作，培養(yǎng)阿里云生態(tài)內(nèi)外的AI訓(xùn)練師以及師資，以實(shí)現(xiàn)阿里云百煉平臺(tái)，QuickBI，QuickService 等多個(gè)AI平臺(tái)應(yīng)用的推廣，提升學(xué)員的智能體開(kāi)發(fā)能力。

四川移動(dòng)：2024年11月，大模型知識(shí)庫(kù)調(diào)優(yōu)（九天大模型，ChaGPT，ChatDB），通過(guò)一周的技術(shù)實(shí)戰(zhàn)培訓(xùn)，提升移動(dòng)在線團(tuán)隊(duì)(10086)的語(yǔ)言助手智能水平，并將相關(guān)技術(shù)應(yīng)用到了四川移動(dòng)在線的內(nèi)部平臺(tái)。

寶馬汽車：2024年12月，基于github copilot的AI編程開(kāi)發(fā)技術(shù)應(yīng)用，通過(guò)3天的技術(shù)實(shí)戰(zhàn)培訓(xùn)，提升汽車軟件開(kāi)發(fā)團(tuán)隊(duì)的智能編程能力，并將微軟云的智能編程工具接入研發(fā)團(tuán)隊(duì)的內(nèi)部平臺(tái)。

博世蘇州：2025年1月，基于微軟云AI編程開(kāi)發(fā)工具技術(shù)，包括github copilot以及相關(guān)組件的應(yīng)用，提升團(tuán)隊(duì)編程開(kāi)發(fā)和軟件測(cè)試的智能化水平。同時(shí)幫助團(tuán)隊(duì)將Azure接入團(tuán)隊(duì)開(kāi)發(fā)的內(nèi)部平臺(tái)。

中國(guó)移動(dòng)設(shè)計(jì)研究院：(2024年1月，3月，7月，12月，2025年4月等)大模型底層設(shè)計(jì)和優(yōu)化。經(jīng)過(guò)多輪培訓(xùn)和持續(xù)的咨詢工作，采用基于GPU集群的算力，優(yōu)化LLVM，LLAMA2在內(nèi)的大模型引擎技術(shù)，提高了大模型引擎的穩(wěn)定性和拓展能力。引入了去中心化集群技術(shù)和跨域資源調(diào)度技術(shù)，提高了大模型底層引擎的可靠性和可維護(hù)性。

除此以外，對(duì)上層的基于自然語(yǔ)言處理的大模型應(yīng)用進(jìn)行指導(dǎo)和應(yīng)用。包括提示詞的編寫，文字和圖片的生成，視頻的生成等應(yīng)用，優(yōu)化生成資源的精準(zhǔn)度，提升生成資源的速度，并開(kāi)發(fā)與外部系統(tǒng)之間的接口，目前已有超過(guò)百種外部應(yīng)用接入了大模型，顯著提升了生產(chǎn)能力，大大超過(guò)客戶了之前對(duì)此次培訓(xùn)和咨詢的預(yù)期。

福州信產(chǎn)億力公司：2025年4月25-26日，基于DeepSeek和Dify的智能體應(yīng)用開(kāi)發(fā)實(shí)踐。包括平臺(tái)搭建，智能體構(gòu)建，提示詞工程以及基于RAG的知識(shí)庫(kù)構(gòu)建應(yīng)用。并將相關(guān)技術(shù)應(yīng)用到智能辦公和智能問(wèn)答等方面。

北京中國(guó)民航開(kāi)發(fā)中心(CAST)：2025年4月，基于DeepSeek等大模型的AI編程技術(shù)開(kāi)發(fā)。經(jīng)過(guò)一個(gè)多星期的培訓(xùn)和咨詢工作，提升了相關(guān)AI編程工具的使用能力，幫助客戶構(gòu)建了基于私有云的AI編程內(nèi)部平臺(tái)，從源頭提升了研發(fā)生產(chǎn)力。

內(nèi)蒙電力數(shù)字化和智能體應(yīng)用：2025年5月下旬，經(jīng)過(guò)10天的培訓(xùn)，幫助客戶構(gòu)建了基于office和WPS的私有大模型辦公平臺(tái)。除此以外，構(gòu)建了基于一體機(jī)的Dify+DeepSeek+Ollama的智能體和直屬庫(kù)開(kāi)發(fā)應(yīng)用平臺(tái)，提升企業(yè)內(nèi)部數(shù)字化能力和自動(dòng)化流程能力

王工 AI Infra技術(shù)專家

【教育背景】

2009/09 – 2013/07 華南理工大學(xué)（985）

2013/09 – 2014/07 華南理工大學(xué)（985）

【專業(yè)技能】

熟悉CUDA開(kāi)發(fā)，包括算子優(yōu)化、GPU虛擬化、容器/MIG、直通VM等關(guān)鍵技術(shù)；掌握ROCE交換機(jī)的性能調(diào)優(yōu)、故障定位，以及網(wǎng)卡虛擬化等關(guān)鍵技術(shù)。

具備端到端完成智算平臺(tái)建設(shè)的能力，從物理機(jī)裸金屬IaaS到K8s的PaaS平臺(tái)，以及相關(guān)SaaS能力，掌握整個(gè)智算平臺(tái)生命周期建設(shè)能力。

熟悉高性能并行文件系統(tǒng)Lustre的基本原理和集群建設(shè)，掌握故障排查和優(yōu)化方法。

精通LLM大語(yǔ)言模型訓(xùn)練框架，熟練運(yùn)用PyTorch+FSDP/DeepSpeed/Megatron3D并行，及其LoRA微調(diào)、有監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)。

熟悉Transformer大模型的優(yōu)化技術(shù)，包括KV-cache、Paged-Attention、Prefix-Cache，以及PD分離性能調(diào)優(yōu)。

熟悉Diffusion擴(kuò)散模型及其常用Cache/DiT加速，以及FastVideo蒸餾優(yōu)化。

精通大語(yǔ)言模型、多模態(tài)模型推理加速，基于vLLM/sglang推理框架實(shí)現(xiàn)DP并行、PD分離（xPyD推理加速）、EP并行加速，以及LM-cache推理加速、HiCache多層級(jí)offload推理加速。

熟悉LLM原理、文生圖、圖生圖、文生視頻推理加速，涵蓋SD模型、Qwen模型和Hunyuan模型。

【工作經(jīng)驗(yàn)】

2015 – 至今 | HW公司

職位：研發(fā)專家（負(fù)責(zé)AI訓(xùn)練推理平臺(tái)建設(shè)）

項(xiàng)目職責(zé)與核心成果：

負(fù)責(zé)GPU集群建設(shè)

基于K8s/Docker完成了GPU調(diào)度和Topo調(diào)優(yōu)。

完成GPU虛擬化，包括硬件虛擬化和軟件虛擬化，以及IB的虛擬化和多租戶能力。

完成GPU的監(jiān)控、故障預(yù)警及可視化，解決軟硬件故障及其各種疑難雜癥。

訓(xùn)練推理AI-Infra平臺(tái)建設(shè)

規(guī)劃訓(xùn)練推理平臺(tái)的核心能力：訓(xùn)練平臺(tái)、推理平臺(tái)、數(shù)據(jù)管理平臺(tái)。

規(guī)劃大模型訓(xùn)練、微調(diào)、推理、測(cè)評(píng)、服務(wù)化的一站式能力。

規(guī)劃Volcano+Trainer+PyTorch+LWS應(yīng)用層核心能力。

華為昇騰（CANN）系列研發(fā)

具備在Atlas 800I A2數(shù)據(jù)中心推理服務(wù)器的訓(xùn)練、微調(diào)能力。

具備在910B的適配、部署、調(diào)優(yōu)、故障定位及Ascend-C算子開(kāi)發(fā)能力。

成功在910B上完成Qwen-3、DeepSeek-R1/V3系列的適配和調(diào)優(yōu)。

英偉達(dá)GPU系列研發(fā)

熟悉各類GPU設(shè)備（5090、A100、L40s、H20、H100等），具備深厚的開(kāi)發(fā)功底。

基于A100+IB+PyTorch+Megatron完成了千卡大模型訓(xùn)練，MFU達(dá)45%+。

基于A800+PyTorch+DeepSeek完成了百卡規(guī)模的大模型訓(xùn)練，MFU達(dá)42%+。

基于4機(jī)32卡H20完成了sglang的DP并行優(yōu)化（3x）。

基于16機(jī)108卡H20完成了sglang的PD分離優(yōu)化（5x）。

基于16機(jī)108卡H20完成了基于LM-Cache的sglang優(yōu)化（5x）。

基于16機(jī)108卡H20完成了基于3FS的sglang優(yōu)化（10x）。

基于Qwen-Image（Qwen-Image-Edit）實(shí)現(xiàn)文生圖、圖生圖10x的優(yōu)化。

基于2機(jī)16卡H20實(shí)現(xiàn)了文生視頻20x的優(yōu)化加速。

在Thor低功耗設(shè)備上完成了sglang的推理加速。

關(guān)于TsingtaoAI

TsingtaoAI是一家專注工業(yè)具身智能領(lǐng)域的國(guó)家高新技術(shù)企業(yè)，旗下北京、寧波等地設(shè)有研發(fā)及運(yùn)營(yíng)團(tuán)隊(duì)。核心團(tuán)隊(duì)主要來(lái)自韓國(guó)首爾大學(xué)、中國(guó)農(nóng)業(yè)大學(xué)、北京科技大學(xué)、蔚來(lái)汽車、美團(tuán)、京東、硅基流動(dòng)等產(chǎn)研組織，擁有深厚的AI Infra與機(jī)器人算法積淀。公司通過(guò)自研的通用PoC實(shí)驗(yàn)底座與多模態(tài)Agent編排引擎，為工業(yè)制造、高校實(shí)訓(xùn)等場(chǎng)景提供從數(shù)據(jù)生成、算法訓(xùn)練到即時(shí)部署的全棧解決方案。

TsingtaoAI解決具身智能落地最后一公里工程難題。構(gòu)建一個(gè)高效、低成本、可復(fù)制的具身智能技能任務(wù)開(kāi)發(fā)平臺(tái)，將平臺(tái)與具身大模型和異構(gòu)端側(cè)計(jì)算單元組成面向工業(yè)企業(yè)的物理AI軟硬一體化解決方案。獲24項(xiàng)AI領(lǐng)域知識(shí)產(chǎn)權(quán)，包括多模態(tài)大模型具身智能實(shí)驗(yàn)實(shí)訓(xùn)系統(tǒng)等。關(guān)鍵算法基于RISC-V芯片和昇騰NPU優(yōu)化適配，實(shí)現(xiàn)突出性能。項(xiàng)目獲長(zhǎng)三角算力算法創(chuàng)新大賽冠軍，山東省人社廳數(shù)字工程師大賽二等獎(jiǎng)，寧波AI大賽二等獎(jiǎng)、北京東城AI科創(chuàng)大賽技術(shù)創(chuàng)新組前三名，WAIC CICC大賽具身智能賽道前三名，入選河北垂直大模型應(yīng)用場(chǎng)景名單。通過(guò)華為昇騰兼容性認(rèn)證，在一汽集團(tuán)、保時(shí)捷和福建奔馳等企業(yè)落地。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

企業(yè)實(shí)訓(xùn)｜NV智算集群技術(shù)實(shí)訓(xùn)-某軟件上市公司

企業(yè)實(shí)訓(xùn)｜NV智算集群技術(shù)實(shí)訓(xùn)-某軟件上市公司

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

企業(yè)實(shí)訓(xùn)｜NV智算集群技術(shù)實(shí)訓(xùn)-某軟件上市公司

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av