一、OpenAI全新Agent工具套件發(fā)布,可以自己手搓Manus通用Agent,人人都是AI全能打工人
在今天凌晨的召開的發(fā)布會上,OpenAI 發(fā)布了全套 Agent 開發(fā)套件

核心要點(diǎn)如下
1. Responses API:簡化復(fù)雜任務(wù)調(diào)用
Responses API是原有Chat Completions API的升級版,整合了工具調(diào)用能力,單次API調(diào)用即可完成復(fù)雜任務(wù),例如網(wǎng)頁搜索、文件檢索和計算機(jī)自動化操作。其特點(diǎn)包括:
-
內(nèi)置工具集成:支持網(wǎng)頁搜索(可配置國家、時區(qū)等參數(shù))、文件搜索(支持21種格式如PDF、DOCX)以及計算機(jī)控制工具(CUA,可執(zhí)行點(diǎn)擊、輸入等操作)。
-
兼容性與擴(kuò)展性:兼容舊版API,未來計劃支持音頻處理和代碼解釋器。
-
定價分層:網(wǎng)頁搜索費(fèi)用較高(25-50美元/千次調(diào)用),文件搜索價格較低(2.5美元/千次調(diào)用)。
原有的 Chat Completions API 也沒下架,但 Pesponses API 既兼容老 API,又會持續(xù)更新新功能,除了老 API 沒有的Web 搜索、文件搜索、計算機(jī)使用功能,未來還將推出音頻和代碼解釋器。之前的代碼 稍微修改下代碼格式,就可以成功調(diào)用了。
Responses API 簡潔強(qiáng)大、內(nèi)置工具、統(tǒng)一設(shè)計、直觀清晰
2. Agents SDK:多智能體協(xié)作框架
這次OpenAI 開源了一個硬貨:OpenAI Agent 框架
這是一個開源的 Agent 框架,單 Agent 和多 Agent 系統(tǒng)都可以構(gòu)建,支持開發(fā)者構(gòu)建多智能體系統(tǒng),適用于復(fù)雜業(yè)務(wù)流程自動化,例如:
-
動態(tài)任務(wù)分配:在跨國電商場景中,可協(xié)調(diào)語言識別、庫存管理、訂單處理等不同功能的Agent協(xié)作。
-
安全與監(jiān)控:提供行為追蹤、安全檢查機(jī)制和實(shí)時監(jiān)控工具,確保智能體協(xié)作的可靠性和透明度。
-
模型兼容性:支持任何符合Chat Completions API的模型(如第三方模型DeepSeek),擴(kuò)展了應(yīng)用生態(tài)。
Agents SDK:
GitHub地址:https://github.com/openai/openai-agents-python
支持 multi-agent(多 Agent) 的框架,只要符合 OpenAI Chat Completions API 的模型都能用,理論上 DeepSeek 也能用,這對國內(nèi)用戶很方便。
3.三大核心工具:強(qiáng)化實(shí)際場景應(yīng)用
內(nèi)置工具 (Built-in Tools):這里的工具一共有三個,分別是網(wǎng)頁搜索、文件搜索 和 Computer Using Agent(CUA)
在這次的官方發(fā)布中,包含三種內(nèi)置工具:
-
Web Search / 網(wǎng)頁搜索
-
File Search / 文件搜索
-
Computer Use Agent(CUA)工具流程圖
-
網(wǎng)頁搜索工具:基于GPT-4o模型,實(shí)時抓取互聯(lián)網(wǎng)數(shù)據(jù)并標(biāo)注引用來源,適用于動態(tài)信息查詢。
-
文件搜索工具:支持向量存儲和元數(shù)據(jù)過濾,快速檢索PDF、PPT等格式文件,提升企業(yè)知識管理效率。
-
計算機(jī)使用工具(CUA):通過截圖識別界面元素,自動執(zhí)行鼠標(biāo)點(diǎn)擊、文本輸入等操作,實(shí)現(xiàn)跨平臺自動化(如填寫表格、操作軟件)。
按官方計劃,之后還會再加入「代碼編譯器」,等更新吧
這些東西,都需要前面提到的 Responses API,方式較為通用
以下圖片摘自:騰訊網(wǎng)的 賽博禪心 的文章

能力對比


1)Web Search-網(wǎng)頁搜索:都可以配置,就是價格略貴,OpenAI 的 API 支持搜索了,國家、時區(qū)、搜索量等,可以配置的東西比較多,但價格不便宜
Google Search 的價格是 5 美元 1000 次
Bing Search 的價格是 20 美元 1000 次,
Open AI 的價格最便宜的 25 美元 1000 次,最貴的達(dá)到了 50 美元 1000 次。

2)File Search:版本更新
文件搜索也是舊功能的更新,支持包括常見的 .pdf、.docx、.pptx 等 21 種格式(包括 utf-8、utf-16 以及 ascii),價格調(diào)用 1000 次 2.5 美元,存儲 1 GB 每天 0.1 美元。

3)計算機(jī)使用工具-CUA:截圖就能實(shí)現(xiàn)自動化
Computer Use Agent 可以讓 AI 通過截圖界面理解來執(zhí)行交互操作,從而實(shí)現(xiàn)自動化功能,它可以識別鼠標(biāo)單擊、雙擊、滾動、坐標(biāo)、路徑,輸入文本、等待、組合鍵、截圖等共 9 種行為,然后 CUA 進(jìn)行自動的執(zhí)行,就能操作電腦了。
讓 AI 通過截圖理解界面狀態(tài)并執(zhí)行交互操作,實(shí)現(xiàn)自動化任務(wù)。

在接口文檔,發(fā)現(xiàn)這東西目前支持 9 種行為

這些行為,將會被 CUA 進(jìn)行自動的組合和執(zhí)行,達(dá)到操作電腦的效果

按 OpenAI 的說法,性能肯定是 Sota(遙遙領(lǐng)先) 的

對了,如果你想快速體驗,可以直接fork 這個項目
GitHub 有示例項目可以去先試試體驗一下??梢灾苯?fork 這個項目
https://github.com/openai/openai-cua-sample-app
4. 監(jiān)控工具 及 開發(fā)者資源與生態(tài)建設(shè)
-
開源示例項目:GitHub已發(fā)布CUA示例應(yīng)用和Agents SDK代碼庫,開發(fā)者可快速上手。
-
監(jiān)控工具:提供執(zhí)行過程追蹤和調(diào)試功能,幫助優(yōu)化智能體行為。幫助追蹤和檢查 Agent 的執(zhí)行過程
5. 行業(yè)影響與未來展望
-
勞動力革命:OpenAI預(yù)測2025年將是“AI智能體元年”,Operator等工具將推動AI從“被動應(yīng)答”轉(zhuǎn)向“主動執(zhí)行任務(wù)”,例如預(yù)訂餐廳、處理電商訂單等。
-
企業(yè)級應(yīng)用:與DoorDash、Uber等企業(yè)的合作案例表明,智能體可優(yōu)化客戶體驗、提升轉(zhuǎn)化率,尤其在重復(fù)性任務(wù)中替代人力。
-
技術(shù)挑戰(zhàn):需平衡安全與創(chuàng)新,例如防范“提示注入攻擊”和保障用戶隱私。
二、總結(jié)
OpenAI此次發(fā)布的Agent套件標(biāo)志著AI技術(shù)向“主動執(zhí)行”的轉(zhuǎn)型,通過Responses API和Agents SDK降低了開發(fā)門檻,而內(nèi)置工具則覆蓋了搜索、文件管理和自動化操作等核心場景。隨著多智能體協(xié)作能力的增強(qiáng),未來或引發(fā)電商、客服、辦公等領(lǐng)域的效率革命。開發(fā)者可通過官方資源快速接入,企業(yè)需關(guān)注安全與倫理問題以充分利用這一技術(shù)浪潮。 Agent 套件的發(fā)布,必將改變我們的學(xué)習(xí)和生活,如果你還沒有 Manus 邀請碼 不妨式試OpenAI 的Agent套件
可點(diǎn)、贊、關(guān)、注、我