你是不是也遇到過這樣的情況:想用大模型搭建個智能客服系統(tǒng),但又擔心數(shù)據(jù)泄露、網(wǎng)絡(luò)延遲,或者只是想在本機先調(diào)試測試?別擔心,今天我就來帶你一步步在本地電腦上部署屬于你自己的大模型!無需深厚的技術(shù)背景,只要跟著做,30 分鐘內(nèi)就能搞定!

一、先來認識一下 Ollama:本地大模型的好幫手
Ollama 是一個開源工具,專門用來在本地運行各種大型語言模型(比如 DeepSeek、千問、Mamba 等等)。你不用糾結(jié)環(huán)境配置、依賴安裝,它都幫你封裝好了,特別適合初學者或者快速原型開發(fā)。
?? 官網(wǎng)在這里:Ollama 官方網(wǎng)站(打開直接點擊下載就行~)
二、第一步:安裝 Ollama(Windows 為例)
- 打開 Ollama 官網(wǎng),點擊頁面上的 Download 按鈕;

選擇你的操作系統(tǒng)版本(這里以 Windows 為例),下載安裝包;
雙擊安裝,一路“下一步”就行——它自動裝好,不用你選安裝路徑啥的;
安裝完成后,打開命令行(Win+R 輸入
cmd回車),輸入:
ollama
如果出現(xiàn)一屏說明文字,恭喜你,安裝成功!

三、挑選一個適合你電腦的模型
回到 Ollama 官網(wǎng),點擊 Models 標簽,你會看到很多模型可選:
DeepSeek 系列(當前挺火的開源模型)
Qwen(阿里通義千問)
Mamba(一種更新架構(gòu)的模型)
Llama3(Meta 開源)等等……
每個模型還有不同參數(shù)規(guī)模,比如:1.5B、7B、14B、70B 等。 這個“B”是“Billion”的意思,也就是 10 億參數(shù)。參數(shù)越多,模型越聰明,但對電腦要求也越高。
四、怎么選模型?看你的硬件決定!
如果你不清楚該選哪個模型參數(shù),可以參考這個建議:

補充說明與注意事項:
“以上”含義: “以上”或“+”表示這是最低起步要求。在實際部署中,尤其是希望獲得更好性能(如更快的響應速度、同時處理多任務)時,超過該配置是必要且推薦的。
顯存與推理速度: 顯卡顯存決定了模型能否運行。將模型完全加載到顯存中會獲得最快的推理速度。如果顯存不足,可以通過系統(tǒng)內(nèi)存和硬盤進行交換(Offloading),但這會顯著降低運行速度。
量化技術(shù): 通過量化(Quantization)技術(shù)(如將模型從 FP16 轉(zhuǎn)換為 INT4),可以大幅降低對顯存和內(nèi)存的需求(例如,70B 模型經(jīng)量化后可能只需單張 40GB 顯卡即可運行),但通常會以輕微的性能損失為代價。
70B 模型: 該模型參數(shù)巨大,通常需要多張高端顯卡(如 NVIDIA A100 / H100 80GB * 2,或 4090 24GB * 3 等組合)通過 NVLink 或 PCIe 連接進行并行計算,對硬件和技術(shù)的要求非常高。
五、下載和運行模型:一句命令搞定
選好模型后,比如你想用 deepseek-r1:7b,就直接在命令行中輸入:
ollama run deepseek-r1:7b
第一次運行會自動下載模型文件(可能需要幾分鐘到幾十分鐘,取決于你的網(wǎng)速和模型大小)。 完成后,你會看到命令行中出現(xiàn)三個箭頭 >>>,意味著模型已經(jīng)加載好,你可以直接在這里打字跟它對話了!
試著輸入一句你好,比如:
你好,你是誰?
模型就會回答你啦~如果響應速度還行,說明你的硬件扛得住!

?? 注意:運行過程中可以打開任務管理器看看 GPU/CPU 和內(nèi)存使用情況,如果卡頓可以考慮換更小模型。
六、更實用的用法:通過 API 接入你的應用
雖然命令行能聊天,但我們最終是要把模型接入到客服系統(tǒng)中去的。Ollama 支持 API 方式調(diào)用。
啟動模型后,它默認會在本地開啟一個服務(通常是 http://localhost:11434``\),你可以用代碼(比如 Python、Node.js)發(fā)送請求到這個地址,就能獲得模型回復。
例如使用 curl 測試一下:
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "你好,請介紹你自己"
}'
或者用 Python 寫個簡單的調(diào)用示例:
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "deepseek-r1:7b",
"prompt": "請問你們客服工作時間是?"
}
)
print(response.json()["response"])
這樣你就可以把大模型集成到你自己的客服系統(tǒng)或者應用中啦!
常見問題和小貼士
下載慢怎么辦? Ollama 目前還沒國內(nèi)鏡像,如果下載慢可以嘗試開代理或耐心等待一下。
跑模型時顯存爆了? 換更小的模型(比如從 7B 換成 1.5B),或者關(guān)閉一些其他吃顯存的軟件。
模型文件存在哪里? 一般在
C:\Users\<你的用戶名>\.ollama\models(Windows)或~/.ollama/models(Mac/Linux)
如果有問題歡迎在評論區(qū)交流~我也會持續(xù)分享更多從 0 到 1 搭建 AI 應用的實戰(zhàn)內(nèi)容。 下次我們會講如何用 API 接入業(yè)務數(shù)據(jù),讓模型變得更“懂你”!