性能干翻235B,單卡私有化部署OpenClaw

基于 Docker + llama.cpp 的本地化 AI 代理平臺完整部署指南
本方案已在單卡 22GB 顯存(如 RTX 2080Ti)環(huán)境下驗(yàn)證,達(dá)到性能與功能的較好平衡,適用于 長上下文、低并發(fā)、高精度 的私有化 AI 代理場景。


目錄


前言

為什么選擇本地部署而非調(diào)用云端 API?

優(yōu)勢 說明
數(shù)據(jù)安全 所有項(xiàng)目代碼、文件、交互記錄均在內(nèi)網(wǎng)處理,避免敏感信息外泄。
成本可控 無需支付高昂的 Token 費(fèi)用,尤其適用于 OpenClaw 這類高上下文、高頻交互場景。
能力自主 可自由選擇開源模型,自定義上下文長度、并發(fā)數(shù)、量化精度等參數(shù)。

為什么模型選擇:Qwen3.5 系列

Qwen3.5 采用了一種混合架構(gòu),解決超大參數(shù)模型在推理時的效率瓶頸。

  • ? MoE 稀疏激活:Qwen3.5-397B-A17B 總參數(shù) 397B,僅激活 17B,激活率 <4.3%,推理成本媲美 20B 級模型。
  • ? 線性注意力機(jī)制:Gated DeltaNet + Gated Attention 混合架構(gòu),將注意力復(fù)雜度從O(n2) 降至 O(n),原生支持 1M Token 上下文。
  • ? 長上下文支持:1,048,576 Token 原生支持,無需滑動窗口,適用于全文檔分析、長代碼庫、多輪對話記憶。

模型規(guī)格(2026 年 3 月)

模型名稱 參數(shù)量 開源時間 架構(gòu)類型 典型使用場景
Qwen3.5-0.8B 0.8B 2026-03-02 稠密(Dense) 智能手表、車載終端、毫秒級響應(yīng)邊緣設(shè)備,ARM功耗<1.5W
Qwen3.5-2B 2B 2026-03-02 稠密(Dense) 輕量級本地AI助手、移動端實(shí)時交互,模型體積縮減40%以上
Qwen3.5-4B 4B 2026-03-02 稠密(Dense) 輕量化智能體基座,支持多模態(tài)輸入與工具調(diào)用,4GB顯存可部署
Qwen3.5-9B 9B 2026-03-02 稠密(Dense) 中小企業(yè)AI服務(wù)平臺,數(shù)學(xué)與代碼能力達(dá)GPT-oss-120B的92%,16GB顯存下32 token/s
Qwen3.5-27B 27B 2026-02-24 稠密(Dense) 高性能稠密模型首選,代碼能力(HumanEval 89.1)居稠密模型之首,適合本地微調(diào)
Qwen3.5-35B-A3B 397B總參 / 3B激活 2026-02-24 混合專家(MoE) 企業(yè)級Agent核心,工具調(diào)用準(zhǔn)確率78.2%,性能超越Qwen3-235B
Qwen3.5-122B-A10B 122B總參 / 10B激活 2026-02-24 混合專家(MoE) 復(fù)雜多步推理與跨應(yīng)用操作,綜合能力90.8(MMLU),逼近旗艦級
Qwen3.5-397B-A17B 397B總參 / 17B激活 2026-02-16 混合專家(MoE) 企業(yè)級基座模型,多模態(tài)原生推理,MMLU達(dá)91.5,對標(biāo)GPT-5.2

llama.cpp 本地模型服務(wù)部署

1. 下載模型

Qwen3.5-35B-A3B 性能已超越參數(shù)規(guī)模大數(shù)倍的 Qwen3-235B-A22B 與 Qwen3-VL-235B-A22B,這里使用的是GGUF 格式int4 模型。
從 Hugging Face 獲取量化后的 GGUF 模型:

模型地址:https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF

# 創(chuàng)建模型目錄
mkdir -p ./models/unsloth/Qwen3.5-35B-A3B-GGUF

# 下載 Q4_K_M 量化模型(約 22GB)
wget -O ./models/unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-UD-Q4_K_M.gguf

2. 部署 llama.cpp 服務(wù)

docker run -d \
  --gpus all \
  --restart unless-stopped \
  --name cpp-qwen3.5-35b-a3b-ud-q4_k_m \
  --shm-size=16g \
  -p 8001:8001 \
  -v ./models:/models \
  ghcr.io/ggml-org/llama.cpp:server-cuda \
  --model /models/unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_M.gguf \
  --alias Qwen3.5-35B-A3B-UD-Q4_K_M \
  --ctx-size 128000 \
  --n-gpu-layers 99 \
  --host 0.0.0.0 \
  --port 8001 \
  --parallel 1 \
  --threads 16

GitHub: https://github.com/ggml-org/llama.cpp

3. 驗(yàn)證服務(wù)

curl http://10.0.0.10:8001/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3.5-35B-A3B-UD-Q4_K_M",
    "messages": [{"role": "user", "content": "寫一個快速排序的Python函數(shù)"}],
    "temperature": 0.7
  }'

4. 顯存使用情況

組件 顯存占用 說明
模型權(quán)重(Model Weights) 18,590.99 MiB ≈ 18.15 GB 39 個重復(fù)層 + 輸出層已全部卸載到 GPU
KV Cache(鍵值緩存) 2,500.00 MiB = 2.44 GB 支持 128K 上下文,10 層,f16 精度(K: 1.22GB, V: 1.22GB)
Recurrent State (RS) 緩沖區(qū) 62.81 MiB MoE 架構(gòu)的專家狀態(tài)緩存(R + S)
計(jì)算臨時緩沖區(qū)(Compute Buffer) 493.00 MiB 用于 Flash Attention 等算子的中間計(jì)算
總計(jì) GPU 顯存占用 ≈ 21.25 GB 接近 RTX 2080 Ti 的 22GB 上限
Snipaste_2026-03-05_17-48-00.png

OpenClaw 部署指南

項(xiàng)目文檔

部署步驟

1. 克隆項(xiàng)目

git clone https://github.com/openclaw/openclaw
cd openclaw

2. 構(gòu)建鏡像

docker build -t openclaw:latest -f Dockerfile .

3. 配置 .env

OPENCLAW_IMAGE=openclaw:latest
OPENCLAW_CONFIG_DIR=./config
OPENCLAW_WORKSPACE_DIR=./workspace
OPENCLAW_GATEWAY_PORT=18789
OPENCLAW_BRIDGE_PORT=18790
OPENCLAW_GATEWAY_BIND=lan

4. 初始化服務(wù)

docker compose run --rm openclaw-cli onboard

5. 配置本地模型(config/openclaw.json

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "llama-cpp/Qwen3.5-35B-A3B-UD-Q4_K_M"
      },
      "maxConcurrent": 4,
      "workspace": "/home/node/.openclaw/workspace"
    }
  },
  "models": {
    "providers": {
      "llama-cpp": {
        "baseUrl": "http://10.0.0.1:8001/v1",
        "apiKey": "not-needed",
        "api": "openai-completions",
        "models": [{
          "id": "Qwen3.5-35B-A3B-UD-Q4_K_M",
          "name": "Qwen3.5-35B-A3B-UD-Q4_K_M",
          "contextWindow": 128000,
          "maxTokens": 65536,
          "cost": { "input": 0, "output": 0 }
        }]
      }
    }
  },
  "controlUi": {
    "allowInsecureAuth": true
  }
}

6. 啟動服務(wù)

docker compose up -d openclaw-gateway

打開WebUI 服務(wù)網(wǎng)站,如果不清楚,可通過下面代碼獲取連接和token

docker compose run --rm openclaw-cli dashboard --no-open
Snipaste_2026-03-05_17-51-44.png

7. 終端Telegram 集成

  1. 通過 @BotFather 創(chuàng)建 Bot,獲取 Token。
  2. openclaw.json 中啟用:
"channels": {
  "telegram": {
    "enabled": true,
    "botToken": "YOUR_TELEGRAM_BOT_TOKEN"
  }
}
  1. 用戶首次交互會生成配對碼,管理員批準(zhǔn):
docker compose run --rm openclaw-cli pairing approve telegram <CODE>
Snipaste_2026-03-09_11-34-00.png

常見問題與注意事項(xiàng)

問題 解決方案
GPU 內(nèi)存不足 嘗試更低量化(如 Q3_K_M),或減少 --ctx-size
OpenClaw 配對失敗 確保 allowInsecureAuth: true,并檢查 Gateway 是否運(yùn)行
模型響應(yīng)慢 調(diào)整 --threads(建議 = CPU 核心數(shù)),確保 --n-gpu-layers=99
2080 Ti 兼容性問題 使用 server-cuda 鏡像(非 rocmmetal

總結(jié)與建議

最佳實(shí)踐建議

  1. 硬件配置:RTX 2080 Ti(22GB)可穩(wěn)定運(yùn)行 Q4_K_M 量化版 Qwen3.5-35B,若追求更高性能可考慮升級至 RTX 3090/4090。
  2. 模型選擇:單卡 22GB 條件下已達(dá)到性能與功能的較好平衡,適合 長上下文、低并發(fā)、高精度 的私有化 AI 代理場景。
  3. 安全策略:生產(chǎn)環(huán)境應(yīng)禁用 allowInsecureAuth,并配置 SSL/TLS 加密通信。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容