FastChat流程圖:

image.png
- 先建兩個(gè)目錄壓壓驚
#保存模型數(shù)據(jù)
mkdir models
#模型下載時(shí)的緩存目錄,防止斷線需要重下
mkdir hf-cache
- 創(chuàng)建Dockerfile
FROM pytorch2
#fschat不限版本給你全裝,限死版本告訴你缺fsapi,只能限定范圍了
RUN pip3 install "fschat[model_worker,webui]>=0.2.28"
CMD /bin/bash
- 生成鏡像
docker build -t fastchat -f Dockerfile-fastchat .
- 先起個(gè)臨時(shí)容器用于下載模型數(shù)據(jù)和測(cè)試
docker run -it --rm \
-e HF_ENDPOINT=https://hf-mirror.com \
-e HF_HUB_ENABLE_HF_TRANSFER=0 \
-v /home/ubuntu/models:/model \
-v /home/ubuntu/hf-cache:/cache \
--gpus all \
fastchat \
/bin/bash
- 容器內(nèi)下載模型數(shù)據(jù)
#將HF_HUB_ENABLE_HF_TRANSFER設(shè)為1可加快下載速度,但如果網(wǎng)絡(luò)不穩(wěn)定或需要看下載進(jìn)度可改為0
huggingface-cli download --resume-download \
lmsys/vicuna-7b-v1.5-16k \
--local-dir=/model/lmsys/vicuna-7b-v1.5-16k \
--local-dir-use-symlinks=False \
--cache-dir=/cache
- 啟動(dòng)FastChat命令行模式測(cè)試下能不能用
#gpu模式 Vicuna-13B大概需要28GB顯存,Vicuna-7B大概需要14GB顯存
python3 -m fastchat.serve.cli --model-path /model/lmsys/vicuna-7b-v1.5-16k
#cpu模式 Vicuna-13B大概需要60GB內(nèi)存,Vicuna-7B大概需要30GB內(nèi)存
python3 -m fastchat.serve.cli --model-path/model/lmsys/vicuna-7b-v1.5-16k --device cpu
退出測(cè)試容器后就能開(kāi)始正式架設(shè)FastChat了
- 架設(shè)FastChat 服務(wù)
啟動(dòng)controller 默認(rèn)端口21001
docker run -d \
--restart unless-stopped \
-e TZ=Asia/Shanghai \
--network fastchat \
--name fastchat-center \
fastchat \
python3 -m fastchat.serve.controller --host=0.0.0.0
啟動(dòng)worker默認(rèn)端口21002
docker run -d \
--restart unless-stopped \
-e TZ=Asia/Shanghai \
--network fastchat \
--name fastchat-worker1 \
-v /home/ubuntu/models:/model \
--gpus all \
fastchat \
python3 -m fastchat.serve.model_worker \
--model-path /model/lmsys/vicuna-7b-v1.5-16k \
--host=0.0.0.0 \
--controller-address=http://fastchat-center:21001 \
--worker-address=http://fastchat-worker1:21002
啟動(dòng)WEB服務(wù)默認(rèn)端口7860
docker run -d \
--restart unless-stopped \
-e TZ=Asia/Shanghai \
--network fastchat \
--name fastchat-web \
-p 80:7860 \
fastchat \
python3 -m fastchat.serve.gradio_web_server --controller-url=http://fastchat-center:21001
打開(kāi)網(wǎng)頁(yè)試下效果

image.png
如果你想自己寫(xiě)程序調(diào)用API還可以啟動(dòng)API服務(wù)默認(rèn)端口8000
docker run -d \
--restart unless-stopped \
-e TZ=Asia/Shanghai \
--network fastchat \
--name fastchat-api \
-p 8000:8000 \
fastchat \
python3 -m fastchat.serve.openai_api_server --host=0.0.0.0 --controller-address=http://fastchat-center:21001 --api-keys=66666
調(diào)API看一下模型參數(shù)
curl http://localhost:8000/v1/models
收工,全部搞完!~