國(guó)產(chǎn)AI再出絕招!智譜開(kāi)源GLM-4.5V,視覺(jué)推理能力領(lǐng)跑全球

這兩個(gè)月來(lái),國(guó)產(chǎn)AI的發(fā)展勢(shì)頭可以用四個(gè)字概括:勢(shì)如破竹。

上個(gè)月,智譜發(fā)布的 GLM-4.1V-Thinking 一舉沖上了 HuggingFace Trending 榜首,總下載量已突破13萬(wàn)次。

上周,又推出了旗艦多模態(tài)模型GLM-4.5 和輕量版GLM-4.5-Air,技術(shù)圈瞬間沸騰。

這周,智譜再次扔下“核彈”——基于 GLM-4.5-Air 架構(gòu),訓(xùn)練出更強(qiáng)大的視覺(jué)推理模型 GLM-4.5V,并且毫不猶豫地 全量開(kāi)源。

更夸張的是,在42 個(gè)權(quán)威多模態(tài)榜單 中,GLM-4.5V 拿下了 41 項(xiàng) SOTA(全球最佳)。 一句話:在開(kāi)源視覺(jué)推理領(lǐng)域,它幾乎是無(wú)敵的存在。

image.png

01 GLM-4.5V 究竟強(qiáng)在哪?

如果說(shuō)普通的視覺(jué)模型只是“看得清”,那 GLM-4.5V 則是“看得懂、想得通、還會(huì)自己動(dòng)手”。

它的三個(gè)核心能力,讓它不只是個(gè)識(shí)圖工具,而更像一個(gè)擁有視覺(jué)和常識(shí)的大腦

① 多模態(tài)融合推理
能同時(shí)理解圖像、文字、視頻等多種信息,并在一個(gè)上下文中推理,這意味著它不僅能識(shí)別圖片,還能結(jié)合文字背景得出更準(zhǔn)確的結(jié)論。

類比一下,這就像一個(gè)工程師看圖紙時(shí),不僅看到了線條,還理解了設(shè)計(jì)目的,并能立即判斷可行性。

② 長(zhǎng)上下文記憶
可以連續(xù)處理數(shù)十張圖片、幾分鐘視頻或長(zhǎng)文檔,并保持邏輯一致,不會(huì)出現(xiàn)“前一句和后一句不沾邊”的問(wèn)題。 這對(duì)長(zhǎng)流程的任務(wù)(比如視頻內(nèi)容分析、長(zhǎng)文檔解析)非常關(guān)鍵。

③ Grounding 精準(zhǔn)定位
不只是說(shuō)“這是一個(gè)貓”,而是能告訴你它在畫(huà)面中的精確坐標(biāo),甚至能直接生成可用的標(biāo)注文件,讓 AI 從“感知”走向“可操作”。

02 模型規(guī)格:真正的 100B 級(jí)視覺(jué)推理猛獸

  • 總參數(shù):106B
  • 激活參數(shù):12B
  • 輸入類型:圖像 / 文本 / 視頻

?? GitHub:https://github.com/zai-org/GLM-V?? Hugging Face:https://huggingface.co/zai-org/GLM-4.5V

03 能力覆蓋面有多廣?

  • 圖像推理:場(chǎng)景理解、多圖分析、位置識(shí)別
  • 視頻理解:長(zhǎng)視頻分鏡、事件識(shí)別
  • GUI 任務(wù):前端頁(yè)面復(fù)刻、桌面操作輔助
  • 圖表與文檔解析:結(jié)構(gòu)化提取、自動(dòng)標(biāo)注
  • Grounding 定位:精準(zhǔn)框選視覺(jué)元素

簡(jiǎn)單來(lái)說(shuō),它既能幫你看懂一份復(fù)雜的財(cái)報(bào)圖表,也能復(fù)刻一個(gè)網(wǎng)頁(yè) UI,甚至能像人類助手一樣操作電腦界面。

04 桌面助手:多模態(tài)能力落地的“利器”

為了讓開(kāi)發(fā)者更快上手,智譜還同步開(kāi)源了 GLM-4.5V 桌面助手,支持:

  • 實(shí)時(shí)截屏并分析
  • 獲取屏幕信息
  • 基于視覺(jué)推理執(zhí)行自動(dòng)化任務(wù)

寫(xiě)在最后
GLM-4.1V-ThinkingGLM-4.5V,智譜用一波接一波的開(kāi)源操作證明: 國(guó)產(chǎn)大模型,不只是能打,還能 打到世界第一

未來(lái)的多模態(tài) AI 或?qū)⒊絾渭兊摹肮ぞ摺苯巧?,成為能夠理解、推理與協(xié)作的數(shù)字伙伴。 它們正在用另一種方式,重塑我們的工作和生活。

企業(yè)微信截圖_ffa0ff53-bf11-4740-8370-be54fc2e9d03.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容