3、用 Ollama 部署本地大模型

你是不是也遇到過這樣的情況:想用大模型搭建個智能客服系統(tǒng),但又擔心數(shù)據(jù)泄露、網(wǎng)絡(luò)延遲,或者只是想在本機先調(diào)試測試?別擔心,今天我就來帶你一步步在本地電腦上部署屬于你自己的大模型!無需深厚的技術(shù)背景,只要跟著做,30 分鐘內(nèi)就能搞定!

一、先來認識一下 Ollama:本地大模型的好幫手

Ollama 是一個開源工具,專門用來在本地運行各種大型語言模型(比如 DeepSeek、千問、Mamba 等等)。你不用糾結(jié)環(huán)境配置、依賴安裝,它都幫你封裝好了,特別適合初學者或者快速原型開發(fā)。

?? 官網(wǎng)在這里:Ollama 官方網(wǎng)站(打開直接點擊下載就行~)

二、第一步:安裝 Ollama(Windows 為例)

  1. 打開 Ollama 官網(wǎng),點擊頁面上的 Download 按鈕;
image.png
  1. 選擇你的操作系統(tǒng)版本(這里以 Windows 為例),下載安裝包;

  2. 雙擊安裝,一路“下一步”就行——它自動裝好,不用你選安裝路徑啥的;

  3. 安裝完成后,打開命令行(Win+R 輸入 cmd 回車),輸入:

ollama

如果出現(xiàn)一屏說明文字,恭喜你,安裝成功!

三、挑選一個適合你電腦的模型

回到 Ollama 官網(wǎng),點擊 Models 標簽,你會看到很多模型可選:

  • DeepSeek 系列(當前挺火的開源模型)

  • Qwen(阿里通義千問)

  • Mamba(一種更新架構(gòu)的模型)

  • Llama3(Meta 開源)等等……

每個模型還有不同參數(shù)規(guī)模,比如:1.5B、7B、14B、70B 等。 這個“B”是“Billion”的意思,也就是 10 億參數(shù)。參數(shù)越多,模型越聰明,但對電腦要求也越高。

四、怎么選模型?看你的硬件決定!

如果你不清楚該選哪個模型參數(shù),可以參考這個建議:

補充說明與注意事項:

  1. “以上”含義: “以上”或“+”表示這是最低起步要求。在實際部署中,尤其是希望獲得更好性能(如更快的響應速度、同時處理多任務)時,超過該配置是必要且推薦的。

  2. 顯存與推理速度: 顯卡顯存決定了模型能否運行。將模型完全加載到顯存中會獲得最快的推理速度。如果顯存不足,可以通過系統(tǒng)內(nèi)存和硬盤進行交換(Offloading),但這會顯著降低運行速度。

  3. 量化技術(shù): 通過量化(Quantization)技術(shù)(如將模型從 FP16 轉(zhuǎn)換為 INT4),可以大幅降低對顯存和內(nèi)存的需求(例如,70B 模型經(jīng)量化后可能只需單張 40GB 顯卡即可運行),但通常會以輕微的性能損失為代價。

  4. 70B 模型: 該模型參數(shù)巨大,通常需要多張高端顯卡(如 NVIDIA A100 / H100 80GB * 2,或 4090 24GB * 3 等組合)通過 NVLink 或 PCIe 連接進行并行計算,對硬件和技術(shù)的要求非常高。

五、下載和運行模型:一句命令搞定

選好模型后,比如你想用 deepseek-r1:7b,就直接在命令行中輸入:

ollama run deepseek-r1:7b

第一次運行會自動下載模型文件(可能需要幾分鐘到幾十分鐘,取決于你的網(wǎng)速和模型大小)。 完成后,你會看到命令行中出現(xiàn)三個箭頭 >>>,意味著模型已經(jīng)加載好,你可以直接在這里打字跟它對話了!

試著輸入一句你好,比如:

你好,你是誰?

模型就會回答你啦~如果響應速度還行,說明你的硬件扛得住!

?? 注意:運行過程中可以打開任務管理器看看 GPU/CPU 和內(nèi)存使用情況,如果卡頓可以考慮換更小模型。

六、更實用的用法:通過 API 接入你的應用

雖然命令行能聊天,但我們最終是要把模型接入到客服系統(tǒng)中去的。Ollama 支持 API 方式調(diào)用。

啟動模型后,它默認會在本地開啟一個服務(通常是 http://localhost:11434``\),你可以用代碼(比如 Python、Node.js)發(fā)送請求到這個地址,就能獲得模型回復。

例如使用 curl 測試一下:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "你好,請介紹你自己"
}'

或者用 Python 寫個簡單的調(diào)用示例:

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-r1:7b",
        "prompt": "請問你們客服工作時間是?"
    }
)
print(response.json()["response"])

這樣你就可以把大模型集成到你自己的客服系統(tǒng)或者應用中啦!

常見問題和小貼士

  • 下載慢怎么辦? Ollama 目前還沒國內(nèi)鏡像,如果下載慢可以嘗試開代理或耐心等待一下。

  • 跑模型時顯存爆了? 換更小的模型(比如從 7B 換成 1.5B),或者關(guān)閉一些其他吃顯存的軟件。

  • 模型文件存在哪里? 一般在 C:\Users\<你的用戶名>\.ollama\models(Windows)或 ~/.ollama/models(Mac/Linux)

如果有問題歡迎在評論區(qū)交流~我也會持續(xù)分享更多從 0 到 1 搭建 AI 應用的實戰(zhàn)內(nèi)容。 下次我們會講如何用 API 接入業(yè)務數(shù)據(jù),讓模型變得更“懂你”!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容