國產(chǎn) AI 再放大招!智譜開源 GLM-4.5V,視覺推理能力“屠榜”全球

國產(chǎn) AI 這兩個月的節(jié)奏,可以用四個字形容:不講武德。
上個月,智譜開源的 GLM-4.1V-Thinking 沖上 HuggingFace Trending 榜首,累計下載量突破 13 萬次。 上周,又推出了旗艦多模態(tài)模型 GLM-4.5 和輕量版 GLM-4.5-Air,技術(shù)圈瞬間沸騰。
這周,智譜再次扔下“核彈”——基于 GLM-4.5-Air 架構(gòu),訓(xùn)練出更強大的視覺推理模型 GLM-4.5V,并且毫不猶豫地 全量開源。
更夸張的是,在 42 個權(quán)威多模態(tài)榜單 中,GLM-4.5V 拿下了 41 項 SOTA(全球最佳)。 一句話:在開源視覺推理領(lǐng)域,它幾乎是無敵的存在。

01 GLM-4.5V 究竟強在哪?
如果說普通的視覺模型只是“看得清”,那 GLM-4.5V 則是“看得懂、想得通、還會自己動手”。
它的三個核心能力,讓它不只是個識圖工具,而更像一個擁有視覺和常識的大腦:
① 多模態(tài)融合推理
能同時理解圖像、文字、視頻等多種信息,并在一個上下文中推理,這意味著它不僅能識別圖片,還能結(jié)合文字背景得出更準(zhǔn)確的結(jié)論。
類比一下,這就像一個工程師看圖紙時,不僅看到了線條,還理解了設(shè)計目的,并能立即判斷可行性。
② 長上下文記憶
可以連續(xù)處理數(shù)十張圖片、幾分鐘視頻或長文檔,并保持邏輯一致,不會出現(xiàn)“前一句和后一句不沾邊”的問題。 這對長流程的任務(wù)(比如視頻內(nèi)容分析、長文檔解析)非常關(guān)鍵。
③ Grounding 精準(zhǔn)定位
不只是說“這是一個貓”,而是能告訴你它在畫面中的精確坐標(biāo),甚至能直接生成可用的標(biāo)注文件,讓 AI 從“感知”走向“可操作”。
02 模型規(guī)格:真正的 100B 級視覺推理猛獸
- 總參數(shù):106B
- 激活參數(shù):12B
- 輸入類型:圖像 / 文本 / 視頻
?? GitHub:https://github.com/zai-org/GLM-V?? Hugging Face:https://huggingface.co/zai-org/GLM-4.5V
03 能力覆蓋面有多廣?
- 圖像推理:場景理解、多圖分析、位置識別
- 視頻理解:長視頻分鏡、事件識別
- GUI 任務(wù):前端頁面復(fù)刻、桌面操作輔助
- 圖表與文檔解析:結(jié)構(gòu)化提取、自動標(biāo)注
- Grounding 定位:精準(zhǔn)框選視覺元素
簡單來說,它既能幫你看懂一份復(fù)雜的財報圖表,也能復(fù)刻一個網(wǎng)頁 UI,甚至能像人類助手一樣操作電腦界面。
04 桌面助手:多模態(tài)能力落地的“利器”
為了讓開發(fā)者更快上手,智譜還同步開源了 GLM-4.5V 桌面助手,支持:
- 實時截屏并分析
- 獲取屏幕信息
- 基于視覺推理執(zhí)行自動化任務(wù)
寫在最后
從 GLM-4.1V-Thinking 到 GLM-4.5V,智譜用一波接一波的開源操作證明: 國產(chǎn)大模型,不只是能打,還能 打到世界第一。
未來的多模態(tài) AI,可能不僅僅是“工具”,而是能理解、能推理、能協(xié)作的數(shù)字伙伴。 它們正在用另一種方式,重塑我們的工作和生活。
推薦閱讀
2025大語言模型部署實戰(zhàn)指南:從個人筆記本到企業(yè)級服務(wù)的全棧方案 - 霍格沃茲測試開發(fā)學(xué)社 - 博客園
Playwright實戰(zhàn):寫UI自動化腳本,速度直接起飛 - 霍格沃茲測試開發(fā)學(xué)社 - 博客園
2025大模型應(yīng)用平臺選型指南:從個人助手到企業(yè)級智能體,5大平臺場景化拆解 - 霍格沃茲測試開發(fā)學(xué)社 - 博客園