OpenAI全新Agent套件發(fā)布,自己手搓Manus人人都是AI全能打工人

一、OpenAI全新Agent工具套件發(fā)布,可以自己手搓Manus通用Agent,人人都是AI全能打工人

在今天凌晨的召開的發(fā)布會上,OpenAI 發(fā)布了全套 Agent 開發(fā)套件

核心要點(diǎn)如下

1. Responses API:簡化復(fù)雜任務(wù)調(diào)用

Responses API是原有Chat Completions API的升級版,整合了工具調(diào)用能力,單次API調(diào)用即可完成復(fù)雜任務(wù),例如網(wǎng)頁搜索、文件檢索和計算機(jī)自動化操作。其特點(diǎn)包括:

  • 內(nèi)置工具集成:支持網(wǎng)頁搜索(可配置國家、時區(qū)等參數(shù))、文件搜索(支持21種格式如PDF、DOCX)以及計算機(jī)控制工具(CUA,可執(zhí)行點(diǎn)擊、輸入等操作)。

  • 兼容性與擴(kuò)展性:兼容舊版API,未來計劃支持音頻處理和代碼解釋器。

  • 定價分層:網(wǎng)頁搜索費(fèi)用較高(25-50美元/千次調(diào)用),文件搜索價格較低(2.5美元/千次調(diào)用)。

原有的 Chat Completions API 也沒下架,但 Pesponses API 既兼容老 API,又會持續(xù)更新新功能,除了老 API 沒有的Web 搜索、文件搜索、計算機(jī)使用功能,未來還將推出音頻和代碼解釋器。之前的代碼 稍微修改下代碼格式,就可以成功調(diào)用了。

Responses API 簡潔強(qiáng)大、內(nèi)置工具、統(tǒng)一設(shè)計、直觀清晰

2. Agents SDK:多智能體協(xié)作框架

這次OpenAI 開源了一個硬貨:OpenAI Agent 框架

這是一個開源的 Agent 框架,單 Agent 和多 Agent 系統(tǒng)都可以構(gòu)建,支持開發(fā)者構(gòu)建多智能體系統(tǒng),適用于復(fù)雜業(yè)務(wù)流程自動化,例如:

  • 動態(tài)任務(wù)分配:在跨國電商場景中,可協(xié)調(diào)語言識別、庫存管理、訂單處理等不同功能的Agent協(xié)作。

  • 安全與監(jiān)控:提供行為追蹤、安全檢查機(jī)制和實(shí)時監(jiān)控工具,確保智能體協(xié)作的可靠性和透明度。

  • 模型兼容性:支持任何符合Chat Completions API的模型(如第三方模型DeepSeek),擴(kuò)展了應(yīng)用生態(tài)。

Agents SDK

GitHub地址:https://github.com/openai/openai-agents-python

支持 multi-agent(多 Agent) 的框架,只要符合 OpenAI Chat Completions API 的模型都能用,理論上 DeepSeek 也能用,這對國內(nèi)用戶很方便。

3.三大核心工具:強(qiáng)化實(shí)際場景應(yīng)用

內(nèi)置工具 (Built-in Tools):這里的工具一共有三個,分別是網(wǎng)頁搜索、文件搜索 和 Computer Using Agent(CUA)

在這次的官方發(fā)布中,包含三種內(nèi)置工具:

  1. Web Search / 網(wǎng)頁搜索

  2. File Search / 文件搜索

  3. Computer Use Agent(CUA)工具流程圖

  • 網(wǎng)頁搜索工具:基于GPT-4o模型,實(shí)時抓取互聯(lián)網(wǎng)數(shù)據(jù)并標(biāo)注引用來源,適用于動態(tài)信息查詢。

  • 文件搜索工具:支持向量存儲和元數(shù)據(jù)過濾,快速檢索PDF、PPT等格式文件,提升企業(yè)知識管理效率。

  • 計算機(jī)使用工具(CUA:通過截圖識別界面元素,自動執(zhí)行鼠標(biāo)點(diǎn)擊、文本輸入等操作,實(shí)現(xiàn)跨平臺自動化(如填寫表格、操作軟件)。

按官方計劃,之后還會再加入「代碼編譯器」,等更新吧

這些東西,都需要前面提到的 Responses API,方式較為通用

以下圖片摘自:騰訊網(wǎng)的 賽博禪心 的文章


能力對比



1Web Search-網(wǎng)頁搜索:都可以配置,就是價格略貴,OpenAI 的 API 支持搜索了,國家、時區(qū)、搜索量等,可以配置的東西比較多,但價格不便宜

Google Search 的價格是 5 美元 1000 次

Bing Search 的價格是 20 美元 1000 次,

Open AI 的價格最便宜的 25 美元 1000 次,最貴的達(dá)到了 50 美元 1000 次。


2File Search:版本更新

文件搜索也是舊功能的更新,支持包括常見的 .pdf、.docx、.pptx 等 21 種格式(包括 utf-8、utf-16 以及 ascii),價格調(diào)用 1000 次 2.5 美元,存儲 1 GB 每天 0.1 美元。


3)計算機(jī)使用工具-CUA截圖就能實(shí)現(xiàn)自動化

Computer Use Agent 可以讓 AI 通過截圖界面理解來執(zhí)行交互操作,從而實(shí)現(xiàn)自動化功能,它可以識別鼠標(biāo)單擊、雙擊、滾動、坐標(biāo)、路徑,輸入文本、等待、組合鍵、截圖等共 9 種行為,然后 CUA 進(jìn)行自動的執(zhí)行,就能操作電腦了。

讓 AI 通過截圖理解界面狀態(tài)并執(zhí)行交互操作,實(shí)現(xiàn)自動化任務(wù)。


在接口文檔,發(fā)現(xiàn)這東西目前支持 9 種行為


這些行為,將會被 CUA 進(jìn)行自動的組合和執(zhí)行,達(dá)到操作電腦的效果


按 OpenAI 的說法,性能肯定是 Sota(遙遙領(lǐng)先) 的


對了,如果你想快速體驗,可以直接fork 這個項目

GitHub 有示例項目可以去先試試體驗一下??梢灾苯?fork 這個項目

https://github.com/openai/openai-cua-sample-app

4. 監(jiān)控工具 及 開發(fā)者資源與生態(tài)建設(shè)

  • 開源示例項目:GitHub已發(fā)布CUA示例應(yīng)用和Agents SDK代碼庫,開發(fā)者可快速上手。

  • 監(jiān)控工具:提供執(zhí)行過程追蹤和調(diào)試功能,幫助優(yōu)化智能體行為。幫助追蹤和檢查 Agent 的執(zhí)行過程

5. 行業(yè)影響與未來展望

  • 勞動力革命:OpenAI預(yù)測2025年將是“AI智能體元年”,Operator等工具將推動AI從“被動應(yīng)答”轉(zhuǎn)向“主動執(zhí)行任務(wù)”,例如預(yù)訂餐廳、處理電商訂單等。

  • 企業(yè)級應(yīng)用:與DoorDash、Uber等企業(yè)的合作案例表明,智能體可優(yōu)化客戶體驗、提升轉(zhuǎn)化率,尤其在重復(fù)性任務(wù)中替代人力。

  • 技術(shù)挑戰(zhàn):需平衡安全與創(chuàng)新,例如防范“提示注入攻擊”和保障用戶隱私。

二、總結(jié)

OpenAI此次發(fā)布的Agent套件標(biāo)志著AI技術(shù)向“主動執(zhí)行”的轉(zhuǎn)型,通過Responses API和Agents SDK降低了開發(fā)門檻,而內(nèi)置工具則覆蓋了搜索、文件管理和自動化操作等核心場景。隨著多智能體協(xié)作能力的增強(qiáng),未來或引發(fā)電商、客服、辦公等領(lǐng)域的效率革命。開發(fā)者可通過官方資源快速接入,企業(yè)需關(guān)注安全與倫理問題以充分利用這一技術(shù)浪潮。 Agent 套件的發(fā)布,必將改變我們的學(xué)習(xí)和生活,如果你還沒有 Manus 邀請碼 不妨式試OpenAI 的Agent套件


可點(diǎn)、贊、關(guān)、注、我


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容