基于 Docker + llama.cpp 的本地化 AI 代理平臺完整部署指南
本方案已在單卡 22GB 顯存(如 RTX 2080Ti)環(huán)境下驗(yàn)證,達(dá)到性能與功能的較好平衡,適用于 長上下文、低并發(fā)、高精度 的私有化 AI 代理場景。
目錄
前言
為什么選擇本地部署而非調(diào)用云端 API?
| 優(yōu)勢 | 說明 |
|---|---|
| 數(shù)據(jù)安全 | 所有項(xiàng)目代碼、文件、交互記錄均在內(nèi)網(wǎng)處理,避免敏感信息外泄。 |
| 成本可控 | 無需支付高昂的 Token 費(fèi)用,尤其適用于 OpenClaw 這類高上下文、高頻交互場景。 |
| 能力自主 | 可自由選擇開源模型,自定義上下文長度、并發(fā)數(shù)、量化精度等參數(shù)。 |
為什么模型選擇:Qwen3.5 系列
Qwen3.5 采用了一種混合架構(gòu),解決超大參數(shù)模型在推理時的效率瓶頸。
- ? MoE 稀疏激活:Qwen3.5-397B-A17B 總參數(shù) 397B,僅激活 17B,激活率 <4.3%,推理成本媲美 20B 級模型。
- ? 線性注意力機(jī)制:Gated DeltaNet + Gated Attention 混合架構(gòu),將注意力復(fù)雜度從O(n2) 降至 O(n),原生支持 1M Token 上下文。
- ? 長上下文支持:1,048,576 Token 原生支持,無需滑動窗口,適用于全文檔分析、長代碼庫、多輪對話記憶。
模型規(guī)格(2026 年 3 月)
| 模型名稱 | 參數(shù)量 | 開源時間 | 架構(gòu)類型 | 典型使用場景 |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | 2026-03-02 | 稠密(Dense) | 智能手表、車載終端、毫秒級響應(yīng)邊緣設(shè)備,ARM功耗<1.5W |
| Qwen3.5-2B | 2B | 2026-03-02 | 稠密(Dense) | 輕量級本地AI助手、移動端實(shí)時交互,模型體積縮減40%以上 |
| Qwen3.5-4B | 4B | 2026-03-02 | 稠密(Dense) | 輕量化智能體基座,支持多模態(tài)輸入與工具調(diào)用,4GB顯存可部署 |
| Qwen3.5-9B | 9B | 2026-03-02 | 稠密(Dense) | 中小企業(yè)AI服務(wù)平臺,數(shù)學(xué)與代碼能力達(dá)GPT-oss-120B的92%,16GB顯存下32 token/s |
| Qwen3.5-27B | 27B | 2026-02-24 | 稠密(Dense) | 高性能稠密模型首選,代碼能力(HumanEval 89.1)居稠密模型之首,適合本地微調(diào) |
| Qwen3.5-35B-A3B | 397B總參 / 3B激活 | 2026-02-24 | 混合專家(MoE) | 企業(yè)級Agent核心,工具調(diào)用準(zhǔn)確率78.2%,性能超越Qwen3-235B |
| Qwen3.5-122B-A10B | 122B總參 / 10B激活 | 2026-02-24 | 混合專家(MoE) | 復(fù)雜多步推理與跨應(yīng)用操作,綜合能力90.8(MMLU),逼近旗艦級 |
| Qwen3.5-397B-A17B | 397B總參 / 17B激活 | 2026-02-16 | 混合專家(MoE) | 企業(yè)級基座模型,多模態(tài)原生推理,MMLU達(dá)91.5,對標(biāo)GPT-5.2 |
llama.cpp 本地模型服務(wù)部署
1. 下載模型
Qwen3.5-35B-A3B 性能已超越參數(shù)規(guī)模大數(shù)倍的 Qwen3-235B-A22B 與 Qwen3-VL-235B-A22B,這里使用的是GGUF 格式int4 模型。
從 Hugging Face 獲取量化后的 GGUF 模型:
# 創(chuàng)建模型目錄
mkdir -p ./models/unsloth/Qwen3.5-35B-A3B-GGUF
# 下載 Q4_K_M 量化模型(約 22GB)
wget -O ./models/unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_M.gguf \
https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-UD-Q4_K_M.gguf
2. 部署 llama.cpp 服務(wù)
docker run -d \
--gpus all \
--restart unless-stopped \
--name cpp-qwen3.5-35b-a3b-ud-q4_k_m \
--shm-size=16g \
-p 8001:8001 \
-v ./models:/models \
ghcr.io/ggml-org/llama.cpp:server-cuda \
--model /models/unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_M.gguf \
--alias Qwen3.5-35B-A3B-UD-Q4_K_M \
--ctx-size 128000 \
--n-gpu-layers 99 \
--host 0.0.0.0 \
--port 8001 \
--parallel 1 \
--threads 16
3. 驗(yàn)證服務(wù)
curl http://10.0.0.10:8001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3.5-35B-A3B-UD-Q4_K_M",
"messages": [{"role": "user", "content": "寫一個快速排序的Python函數(shù)"}],
"temperature": 0.7
}'
4. 顯存使用情況
| 組件 | 顯存占用 | 說明 |
|---|---|---|
| 模型權(quán)重(Model Weights) | 18,590.99 MiB ≈ 18.15 GB | 39 個重復(fù)層 + 輸出層已全部卸載到 GPU |
| KV Cache(鍵值緩存) | 2,500.00 MiB = 2.44 GB | 支持 128K 上下文,10 層,f16 精度(K: 1.22GB, V: 1.22GB) |
| Recurrent State (RS) 緩沖區(qū) | 62.81 MiB | MoE 架構(gòu)的專家狀態(tài)緩存(R + S) |
| 計(jì)算臨時緩沖區(qū)(Compute Buffer) | 493.00 MiB | 用于 Flash Attention 等算子的中間計(jì)算 |
| 總計(jì) GPU 顯存占用 | ≈ 21.25 GB | 接近 RTX 2080 Ti 的 22GB 上限 |

Snipaste_2026-03-05_17-48-00.png
OpenClaw 部署指南
項(xiàng)目文檔
- GitHub: https://github.com/openclaw/openclaw
- 文檔: https://docs.openclaw.ai/
- Skills 市場: https://clawhub.ai/skills
部署步驟
1. 克隆項(xiàng)目
git clone https://github.com/openclaw/openclaw
cd openclaw
2. 構(gòu)建鏡像
docker build -t openclaw:latest -f Dockerfile .
3. 配置 .env
OPENCLAW_IMAGE=openclaw:latest
OPENCLAW_CONFIG_DIR=./config
OPENCLAW_WORKSPACE_DIR=./workspace
OPENCLAW_GATEWAY_PORT=18789
OPENCLAW_BRIDGE_PORT=18790
OPENCLAW_GATEWAY_BIND=lan
4. 初始化服務(wù)
docker compose run --rm openclaw-cli onboard
5. 配置本地模型(config/openclaw.json)
{
"agents": {
"defaults": {
"model": {
"primary": "llama-cpp/Qwen3.5-35B-A3B-UD-Q4_K_M"
},
"maxConcurrent": 4,
"workspace": "/home/node/.openclaw/workspace"
}
},
"models": {
"providers": {
"llama-cpp": {
"baseUrl": "http://10.0.0.1:8001/v1",
"apiKey": "not-needed",
"api": "openai-completions",
"models": [{
"id": "Qwen3.5-35B-A3B-UD-Q4_K_M",
"name": "Qwen3.5-35B-A3B-UD-Q4_K_M",
"contextWindow": 128000,
"maxTokens": 65536,
"cost": { "input": 0, "output": 0 }
}]
}
}
},
"controlUi": {
"allowInsecureAuth": true
}
}
6. 啟動服務(wù)
docker compose up -d openclaw-gateway
打開WebUI 服務(wù)網(wǎng)站,如果不清楚,可通過下面代碼獲取連接和token
docker compose run --rm openclaw-cli dashboard --no-open

Snipaste_2026-03-05_17-51-44.png
7. 終端Telegram 集成
- 通過
@BotFather創(chuàng)建 Bot,獲取 Token。 - 在
openclaw.json中啟用:
"channels": {
"telegram": {
"enabled": true,
"botToken": "YOUR_TELEGRAM_BOT_TOKEN"
}
}
- 用戶首次交互會生成配對碼,管理員批準(zhǔn):
docker compose run --rm openclaw-cli pairing approve telegram <CODE>

Snipaste_2026-03-09_11-34-00.png
常見問題與注意事項(xiàng)
| 問題 | 解決方案 |
|---|---|
| GPU 內(nèi)存不足 | 嘗試更低量化(如 Q3_K_M),或減少 --ctx-size
|
| OpenClaw 配對失敗 | 確保 allowInsecureAuth: true,并檢查 Gateway 是否運(yùn)行 |
| 模型響應(yīng)慢 | 調(diào)整 --threads(建議 = CPU 核心數(shù)),確保 --n-gpu-layers=99
|
| 2080 Ti 兼容性問題 | 使用 server-cuda 鏡像(非 rocm 或 metal) |
總結(jié)與建議
最佳實(shí)踐建議
- 硬件配置:RTX 2080 Ti(22GB)可穩(wěn)定運(yùn)行 Q4_K_M 量化版 Qwen3.5-35B,若追求更高性能可考慮升級至 RTX 3090/4090。
- 模型選擇:單卡 22GB 條件下已達(dá)到性能與功能的較好平衡,適合 長上下文、低并發(fā)、高精度 的私有化 AI 代理場景。
-
安全策略:生產(chǎn)環(huán)境應(yīng)禁用
allowInsecureAuth,并配置 SSL/TLS 加密通信。