2025-08-14

國產(chǎn) AI 再放大招!智譜開源 GLM-4.5V,視覺推理能力“屠榜”全球

b44e6068-92a8-44a1-b649-8cfdf75408ea.png

國產(chǎn) AI 這兩個月的節(jié)奏,可以用四個字形容:不講武德

上個月,智譜開源的 GLM-4.1V-Thinking 沖上 HuggingFace Trending 榜首,累計下載量突破 13 萬次。 上周,又推出了旗艦多模態(tài)模型 GLM-4.5 和輕量版 GLM-4.5-Air,技術(shù)圈瞬間沸騰。

這周,智譜再次扔下“核彈”——基于 GLM-4.5-Air 架構(gòu),訓(xùn)練出更強大的視覺推理模型 GLM-4.5V,并且毫不猶豫地 全量開源。

更夸張的是,在 42 個權(quán)威多模態(tài)榜單 中,GLM-4.5V 拿下了 41 項 SOTA(全球最佳)。 一句話:在開源視覺推理領(lǐng)域,它幾乎是無敵的存在。

06524f08-4f24-4b1d-9a6e-e1c1d80fee10.png

01 GLM-4.5V 究竟強在哪?

如果說普通的視覺模型只是“看得清”,那 GLM-4.5V 則是“看得懂、想得通、還會自己動手”。

它的三個核心能力,讓它不只是個識圖工具,而更像一個擁有視覺和常識的大腦

① 多模態(tài)融合推理

能同時理解圖像、文字、視頻等多種信息,并在一個上下文中推理,這意味著它不僅能識別圖片,還能結(jié)合文字背景得出更準(zhǔn)確的結(jié)論。

類比一下,這就像一個工程師看圖紙時,不僅看到了線條,還理解了設(shè)計目的,并能立即判斷可行性。

② 長上下文記憶

可以連續(xù)處理數(shù)十張圖片、幾分鐘視頻或長文檔,并保持邏輯一致,不會出現(xiàn)“前一句和后一句不沾邊”的問題。 這對長流程的任務(wù)(比如視頻內(nèi)容分析、長文檔解析)非常關(guān)鍵。

③ Grounding 精準(zhǔn)定位

不只是說“這是一個貓”,而是能告訴你它在畫面中的精確坐標(biāo),甚至能直接生成可用的標(biāo)注文件,讓 AI 從“感知”走向“可操作”。

02 模型規(guī)格:真正的 100B 級視覺推理猛獸

  • 總參數(shù):106B
  • 激活參數(shù):12B
  • 輸入類型:圖像 / 文本 / 視頻

?? GitHubhttps://github.com/zai-org/GLM-V?? Hugging Facehttps://huggingface.co/zai-org/GLM-4.5V

03 能力覆蓋面有多廣?

  • 圖像推理:場景理解、多圖分析、位置識別
  • 視頻理解:長視頻分鏡、事件識別
  • GUI 任務(wù):前端頁面復(fù)刻、桌面操作輔助
  • 圖表與文檔解析:結(jié)構(gòu)化提取、自動標(biāo)注
  • Grounding 定位:精準(zhǔn)框選視覺元素

簡單來說,它既能幫你看懂一份復(fù)雜的財報圖表,也能復(fù)刻一個網(wǎng)頁 UI,甚至能像人類助手一樣操作電腦界面。

04 桌面助手:多模態(tài)能力落地的“利器”

為了讓開發(fā)者更快上手,智譜還同步開源了 GLM-4.5V 桌面助手,支持:

  • 實時截屏并分析
  • 獲取屏幕信息
  • 基于視覺推理執(zhí)行自動化任務(wù)

寫在最后

GLM-4.1V-ThinkingGLM-4.5V,智譜用一波接一波的開源操作證明: 國產(chǎn)大模型,不只是能打,還能 打到世界第一。

未來的多模態(tài) AI,可能不僅僅是“工具”,而是能理解、能推理、能協(xié)作的數(shù)字伙伴。 它們正在用另一種方式,重塑我們的工作和生活。

推薦閱讀
2025大語言模型部署實戰(zhàn)指南:從個人筆記本到企業(yè)級服務(wù)的全棧方案 - 霍格沃茲測試開發(fā)學(xué)社 - 博客園
Playwright實戰(zhàn):寫UI自動化腳本,速度直接起飛 - 霍格沃茲測試開發(fā)學(xué)社 - 博客園
2025大模型應(yīng)用平臺選型指南:從個人助手到企業(yè)級智能體,5大平臺場景化拆解 - 霍格沃茲測試開發(fā)學(xué)社 - 博客園

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容