OpenAI年度发布会:ChatGPT里能直接用App、Sora 2 API开放、推出Agent开发工具包

今天是 OpenAI 的年度发布会:OpenAI Dev Day 2025。

按 Sam 的话来说,这场发布会是聚焦于「如何让人更好的用 AI 去创造」,并带来了以下新鲜内容

超 14000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

进群后,你有机会得到:

不过按我的看法,这次的发布,更像是是聚焦于:让开发者去定义「人与 AI 的交互方式」。

这里,让我按发布顺序,仔细盘盘。并且,补充一些发布会上没说的内容。

01 App Inside ChatGPT

可以理解为,这是更加 Plugin 系统的加强版。

先说下插件系统,这是 MCP 或者 Function Call 的鼻祖,于 2023年3月14日发布、5月中灰度上线的到了 ChatGPT。通过这个系统,ChatGPT 可以向外部请求数据,比如联网搜索、查询数据库,或者干脆生成一个视频(HeyGen 当时也接入了 Plugin 系统)

后来,这个系统在去年4月9日下线,取而代之的,是大家更熟悉的 GPTs + 自定义 Action

这次的发布,更像是 Plugin 系统的加强版,第三方应用给到的不单单是数据,而且可以是界面

比如说,在之前的 plugin 系统中,用户通过 ChatGPT 让 Canva 去做一个 ppt,那么用户会获得一个链接,点开后打开对应的 Canva 的对应页面,然后继续编辑

在这个过程中,ChatGPT 也可以直接看到对应的东西,方便了不少。你甚至可以直接在 ChatGPT 里播放 Coursera 的课程视频,一边看一边问问题

Zillow 是美国的链家,在 Zillow 地图上点了个房子,问「这离狗狗公园有多远」,它能结合地图上的信息去搜索回答。

配合这个发布的,还有一个 Apps SDK。开发者们可以使用这个 SDK 把自己的应用集成到 ChatGPT 里面,获取流量。Apps SDK 基于 MCP 标准构建,如果你已经有 MCP 服务器,只需要加个返回 HTML 的 resource,就能快速升级成完整的 app。

这项功能今天就开始 Preview,可以去 OpenAI 平台开始构建,年底会开放正式提交和审核流程,到时候还会有个 app 目录让用户浏览。

首批合作伙伴包括 Figma、Canva、Coursera、Spotify、Zillow 等,今天就能用。

即将,还会有更多的专业伙伴加入,比如 Uber(美国的滴滴)、Tripadvisor(美国的携程/大众点评)。

同时,未来还会支持多种变现方式,包括新的 Agentic Commerce Protocol,帮助开发者完成商业化的闭环。

02 Agent Kit

看这个界面,像不像扣子?没错,OpenAI 发布了他们的 Workflow 编辑器。

从产品延续的角度,也可以说是 GPTs 的升级版:给 GPTs 加了更复杂的工作流,也能定义输出的形式。

对于上面说的「定义输出的形式」,对于这次的 OpenAI 发布会,如果我想做一个指定场景的工具「DevDay 百事通」,除了能像常规 Workflow 编辑器那样上传数据库之外,还可以给它一个样式模板,比如这个:

在这种情况下,我去问它问题:有什么关于 building agents 的分享?

它回复的,便不再是纯文字:“11:15 有一场 Orchestrating Agents at Scale,由 James 和 Rohan 主讲,讲的是如何构建 agents”

而是给你一个卡片:带着会议时间、主讲人、地点。

对了,这个 case 是一个叫做 Christina 小姐姐(看着是华裔)在台上现场搓的,累计没用到 8 分钟,流程包括:

设置工作流逻辑(分类器 + 条件判断)

对于这套东西,Ramp 团队用 Agent Builder 几小时就搭出了采购 agent,迭代周期缩短了 70%,两个 sprint 就上线了(以前要两个季度)

这套东西,叫做 Agent Kit,包含以下核心组件:

逐个来说说。

Agent Builder

可视化编辑工作流,拖拽节点就能搭。左边是常用的构建模块,包括工具(file search、MCP)、guardrails、human-in-the-loop、各种逻辑节点。支持预览运行、内联 eval 配置、完整版本管理。满意了就发布,拿到 workflow ID 直接用

另外,Agent Builder 里可以启用 Guardrails——开源的模块化安全层,能屏蔽或标记 PII、检测越狱攻击等,让 agent 更可靠、更安全

扯个题外话,这东西很像扣子的「开发平台」。

Chat Kit

可嵌入的聊天组件,直接集成到你自己的产品里。处理流式响应、管理对话线程、展示模型思考过程这些复杂的事情都帮你搞定。可以自定义品牌、主题、样式。Canva 说他们用 ChatKit 给开发者社区做支持 agent,省了两周时间,集成只花了不到一小时

扯个题外话,这东西很像扣子的「WebSDK」。

Evals for Agents

去年发布的 Evals,这次加了四个新能力:

扯个题外话:这东西,很像扣子的「扣子罗盘」。

此外,还有个发布会上没提的、也算在这个 kit 里的东西:Connector Registry。

这玩意儿就在 ChatGPT 的设置里面,帮你把所有数据源整合到一个管理面板里,横跨 ChatGPT 和 API。

包括预构建的连接器(Dropbox、Google Drive、SharePoint、Microsoft Teams)和第三方 MCP,让企业能统一管理多个工作区和组织的数据。

03 编程工具 Codex

Codex 今天开始,来到了正式版

这东西,5月发布的:

上个月,更新了一版

现在的 Codex 用的是 GPT-5 Codex 模型,专门为写代码和 agentic coding 优化的。现在,OpenAI 内部几乎所有新代码都是 Codex 用户写的,用 Codex 的工程师每周多完成 70% 的 PR,基本上每个 PR 都过 Codex review。

现在的 Codex 不只是命令行工具了,可以在你的 IDE、终端、GitHub、ChatGPT 账号里都能用,无缝切换。

Codex 这东西,还是靠谱的,在现场的工程师小哥 Ramon 做了个炸裂演示:

Ramon 拿了个会场上方的摄像头,让 Codex 写代码控制它。Codex 自己找到了 30 年前的 VISCA 协议文档,写好了控制代码,还做了个控制面板,并且用 XBox 手柄就能控制摄像头。

最后来了个大的:用 Real-time API 加语音,控制会场的灯光系统(通过 MCP)

现场对着 ChatGPT 说:“把观众席的灯打亮”,灯就亮了。

整个过程,小哥一行代码都没手写,纯口喷。

除此之外,Codex 还多了以下俩玩意儿:

Slack Integration:直接在 Slack 里问 Codex 写代码或回答问题,团队协作更方便。

Enterprise Control:给企业用的管理工具,包括环境控制、监控、分析仪表板等,让大公司也能放心用。

04 API 迭代

敲黑板,这里是正片。

本次发布会,明面上带来了三套模型的 API:

但其实...还发布了他们家的图像生成 API gpt-image-1-mini,低至 0.005 美分一张图。下面,让我来分别说说。

GPT-5 Pro API

8 月发布的 GPT-5 Pro,现在开放 API 了

这模型有 400k 上下文,272k 最长输出,适合金融、法律、医疗这种需要高准确度和深度推理的场景。Cursor、Windsurf、Replit 等头部编程工具都在用 GPT-5 系列改变软件开发方式

内部数据:GPT-5 Codex 已经处理了超过 40 万亿 tokens,是 OpenAI 增长最快的模型之一。

Sora 2 发布

重头戏来了,Sora 2 API 开放 Preview,分两个版本:

sora-2:快速版,适合快速迭代。几分钟出结果,适合社交媒体、产品原型、概念设计

sora-2-pro:更大更强,渲染时间更长价格更贵,但画质更精致稳定。适合高分辨率电影镜头、营销素材等对视觉精度要求高的场合。

价格呢...如下图,一个 15 秒的视频,需要至少 1.5 美金~10.5 人民币

调用的话,代码大概这么写:

from openai importOpenAI
openai = OpenAI

# 生成视频
video = openai.videos.create(
model="sora-2",
prompt="草地公园的广角镜头,孩子放着红色风筝,黄金时刻阳光"
)

# 轮询状态直到完成
while video.statusin ("in_progress", "queued"):
video = openai.videos.retrieve(video.id)
time.sleep(2)

# 下载视频
content = openai.videos.download_content(video.id)
content.write_to_file("video.mp4")

Real-Time Mini

语音模型 Real-Time Mini,比之前的 Advanced Voice 便宜 70%,质量一样

Sam 说他觉得语音会成为人跟 AI 交互的主要方式,所以把价格打下来,让大家都用得起

(Sam:家人们,我把价格打下来了)

GPT Image

这是个画图的新模型,支持图片、文字输入,然后生图,效果挺不错的。

模型也分正式版和mini版,价格如下:

05 One More Thing

这次发布会,还有几个很有意思的点:

Sam 炫了个数据

开场就说现在有 400 万开发者在用 OpenAI,每周 8 亿人用 ChatGPT(没听错,8亿),API 每分钟处理 60 亿 tokens

而在两年前的时候,是 200 万开发者、1 亿用户、3 亿 tokens/分钟。翻了一倍不止

现场表彰

大屏幕上列出了处理过 100 亿、1000 亿、甚至 1 万亿 tokens 的、在现场的开发者名字,全场鼓掌,颇有种「这些才是真正推动未来的人」的仪式感

日本 89 岁老爷爷

Sam 提到了一个案例,日本一个 89 岁的退休老人用 ChatGPT 自学编程,做了 11 个 iPhone app,专门给老年人用。这种故事听着就很暖

以及,开场有一句话我很喜欢

"AI has gone from something people build, play with to something people build with every day."

按 Sam 的话说,AI 已经从「大家拿来研究、试验的新鲜玩意儿」,变成了「每天都在用的生产工具」,一切潜移默化,一切顺利应然。

06 写在最后

OpenAI 会在每年秋天,进行一场面向开发者的发布会,称为 OpenAI DevDay。

第一场 DevDay 2023,聚焦于模型能力,于2023年11月6号召开。

这场发布会,带来了新模型 GPT‑4 Turbo(有了多模态理解)、JSON Mode(现在的结构化输出)、GPTs(OpenAI 最早的场景 Agent 探索)

提前拿到了 GPTs 权限...前 100 个 GPTs 里,可能有 3 个是我搓的

第二场是 DevDay 2024,聚焦于业务应用,一连开了3场,分别在旧金山(10月1号)、伦敦(10月30号)和新加坡(11月21号)

这系列的发布,带来了 Realtime API、Prompt Cache、蒸馏工具,并预告了 o1 的各项更新(比如:函数调用、开发者消息、结构化输出和图片理解)

发布会送的徽章,还挺好看的

今天是第三场:Dev Day 2025,N 倍扩大了规模,OpenAI 的朋友跟我说,这次来了上千人,人山人海...那乌压压的场面

这次阴差阳错没去成现场(心痛)

老实来说,每次 DevDay 最有意思的,其实不是台上讲了啥,而是散会之后,一群人开始琢磨「我能用这玩意儿搞点什么」。

然后大家对着新的 API 文档,在 GitHub 上传着各种项目,并在 Twitter、朋友圈、即刻、小红书上发布着各种 Demo...

这个时代,着实令人赞叹。

转载原创文章请添加微信:founderparker

展开阅读全文

更新时间:2025-10-08

标签:科技   工具包   发布会   年度   模型   开发者   扣子   东西   系统   代码   工作流   题外   玩意儿

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top