今天是 OpenAI 的年度发布会:OpenAI Dev Day 2025。
按 Sam 的话来说,这场发布会是聚焦于「如何让人更好的用 AI 去创造」,并带来了以下新鲜内容
App inside ChatGPT:加强版的 Plugin 系统
Agent Kit:OpenAI 的「扣子全家桶」
Codex 正式版:OpenAI 版的 「Claude Code」
API Update:GPT-5 Pro、Sora、Real-Time Mini 的 API 都发布了
还有个大会上没讲的新模型: gpt-image,这个也以 API 发布了,是个生图的模型。
超 14000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
不过按我的看法,这次的发布,更像是是聚焦于:让开发者去定义「人与 AI 的交互方式」。
这里,让我按发布顺序,仔细盘盘。并且,补充一些发布会上没说的内容。
可以理解为,这是更加 Plugin 系统的加强版。
先说下插件系统,这是 MCP 或者 Function Call 的鼻祖,于 2023年3月14日发布、5月中灰度上线的到了 ChatGPT。通过这个系统,ChatGPT 可以向外部请求数据,比如联网搜索、查询数据库,或者干脆生成一个视频(HeyGen 当时也接入了 Plugin 系统)
后来,这个系统在去年4月9日下线,取而代之的,是大家更熟悉的 GPTs + 自定义 Action
这次的发布,更像是 Plugin 系统的加强版,第三方应用给到的不单单是数据,而且可以是界面
比如说,在之前的 plugin 系统中,用户通过 ChatGPT 让 Canva 去做一个 ppt,那么用户会获得一个链接,点开后打开对应的 Canva 的对应页面,然后继续编辑
在这个过程中,ChatGPT 也可以直接看到对应的东西,方便了不少。你甚至可以直接在 ChatGPT 里播放 Coursera 的课程视频,一边看一边问问题
Zillow 是美国的链家,在 Zillow 地图上点了个房子,问「这离狗狗公园有多远」,它能结合地图上的信息去搜索回答。
配合这个发布的,还有一个 Apps SDK。开发者们可以使用这个 SDK 把自己的应用集成到 ChatGPT 里面,获取流量。Apps SDK 基于 MCP 标准构建,如果你已经有 MCP 服务器,只需要加个返回 HTML 的 resource,就能快速升级成完整的 app。
这项功能今天就开始 Preview,可以去 OpenAI 平台开始构建,年底会开放正式提交和审核流程,到时候还会有个 app 目录让用户浏览。
首批合作伙伴包括 Figma、Canva、Coursera、Spotify、Zillow 等,今天就能用。
即将,还会有更多的专业伙伴加入,比如 Uber(美国的滴滴)、Tripadvisor(美国的携程/大众点评)。
同时,未来还会支持多种变现方式,包括新的 Agentic Commerce Protocol,帮助开发者完成商业化的闭环。
看这个界面,像不像扣子?没错,OpenAI 发布了他们的 Workflow 编辑器。
从产品延续的角度,也可以说是 GPTs 的升级版:给 GPTs 加了更复杂的工作流,也能定义输出的形式。
对于上面说的「定义输出的形式」,对于这次的 OpenAI 发布会,如果我想做一个指定场景的工具「DevDay 百事通」,除了能像常规 Workflow 编辑器那样上传数据库之外,还可以给它一个样式模板,比如这个:
在这种情况下,我去问它问题:有什么关于 building agents 的分享?
它回复的,便不再是纯文字:“11:15 有一场 Orchestrating Agents at Scale,由 James 和 Rohan 主讲,讲的是如何构建 agents”
而是给你一个卡片:带着会议时间、主讲人、地点。
对了,这个 case 是一个叫做 Christina 小姐姐(看着是华裔)在台上现场搓的,累计没用到 8 分钟,流程包括:
设置工作流逻辑(分类器 + 条件判断)
上传会议日程文档
加 PII 保护的 guardrail
配置输出的 widget 样式
部署到网站上
对于这套东西,Ramp 团队用 Agent Builder 几小时就搭出了采购 agent,迭代周期缩短了 70%,两个 sprint 就上线了(以前要两个季度)
这套东西,叫做 Agent Kit,包含以下核心组件:
Agent Builder
Chat Kit
Evals for Agents
逐个来说说。
Agent Builder
可视化编辑工作流,拖拽节点就能搭。左边是常用的构建模块,包括工具(file search、MCP)、guardrails、human-in-the-loop、各种逻辑节点。支持预览运行、内联 eval 配置、完整版本管理。满意了就发布,拿到 workflow ID 直接用
另外,Agent Builder 里可以启用 Guardrails——开源的模块化安全层,能屏蔽或标记 PII、检测越狱攻击等,让 agent 更可靠、更安全
扯个题外话,这东西很像扣子的「开发平台」。
Chat Kit
可嵌入的聊天组件,直接集成到你自己的产品里。处理流式响应、管理对话线程、展示模型思考过程这些复杂的事情都帮你搞定。可以自定义品牌、主题、样式。Canva 说他们用 ChatKit 给开发者社区做支持 agent,省了两周时间,集成只花了不到一小时
扯个题外话,这东西很像扣子的「WebSDK」。
Evals for Agents
去年发布的 Evals,这次加了四个新能力:
Datasets:快速构建 agent evals,用自动评分器和人工标注不断扩充
Trace grading:端到端评估 agent 工作流,自动评分找出问题
自动化 prompt 优化:根据人工标注和评分器输出生成改进的 prompt
第三方模型支持:在 OpenAI 平台上直接评估其他厂商的模型
扯个题外话:这东西,很像扣子的「扣子罗盘」。
此外,还有个发布会上没提的、也算在这个 kit 里的东西:Connector Registry。
这玩意儿就在 ChatGPT 的设置里面,帮你把所有数据源整合到一个管理面板里,横跨 ChatGPT 和 API。
包括预构建的连接器(Dropbox、Google Drive、SharePoint、Microsoft Teams)和第三方 MCP,让企业能统一管理多个工作区和组织的数据。
Codex 今天开始,来到了正式版
这东西,5月发布的:
上个月,更新了一版
现在的 Codex 用的是 GPT-5 Codex 模型,专门为写代码和 agentic coding 优化的。现在,OpenAI 内部几乎所有新代码都是 Codex 用户写的,用 Codex 的工程师每周多完成 70% 的 PR,基本上每个 PR 都过 Codex review。
现在的 Codex 不只是命令行工具了,可以在你的 IDE、终端、GitHub、ChatGPT 账号里都能用,无缝切换。
Codex 这东西,还是靠谱的,在现场的工程师小哥 Ramon 做了个炸裂演示:
Ramon 拿了个会场上方的摄像头,让 Codex 写代码控制它。Codex 自己找到了 30 年前的 VISCA 协议文档,写好了控制代码,还做了个控制面板,并且用 XBox 手柄就能控制摄像头。
最后来了个大的:用 Real-time API 加语音,控制会场的灯光系统(通过 MCP)
现场对着 ChatGPT 说:“把观众席的灯打亮”,灯就亮了。
整个过程,小哥一行代码都没手写,纯口喷。
除此之外,Codex 还多了以下俩玩意儿:
Slack Integration:直接在 Slack 里问 Codex 写代码或回答问题,团队协作更方便。
Enterprise Control:给企业用的管理工具,包括环境控制、监控、分析仪表板等,让大公司也能放心用。
敲黑板,这里是正片。
本次发布会,明面上带来了三套模型的 API:
GPT-5 Pro
Sora2 & Sora2 Pro
Real-Time Mini
但其实...还发布了他们家的图像生成 API gpt-image-1-mini,低至 0.005 美分一张图。下面,让我来分别说说。
GPT-5 Pro API
8 月发布的 GPT-5 Pro,现在开放 API 了
这模型有 400k 上下文,272k 最长输出,适合金融、法律、医疗这种需要高准确度和深度推理的场景。Cursor、Windsurf、Replit 等头部编程工具都在用 GPT-5 系列改变软件开发方式
内部数据:GPT-5 Codex 已经处理了超过 40 万亿 tokens,是 OpenAI 增长最快的模型之一。
Sora 2 发布
重头戏来了,Sora 2 API 开放 Preview,分两个版本:
sora-2:快速版,适合快速迭代。几分钟出结果,适合社交媒体、产品原型、概念设计
sora-2-pro:更大更强,渲染时间更长价格更贵,但画质更精致稳定。适合高分辨率电影镜头、营销素材等对视觉精度要求高的场合。
价格呢...如下图,一个 15 秒的视频,需要至少 1.5 美金~10.5 人民币
调用的话,代码大概这么写:
from openai importOpenAI
openai = OpenAI
# 生成视频
video = openai.videos.create(
model="sora-2",
prompt="草地公园的广角镜头,孩子放着红色风筝,黄金时刻阳光"
)
# 轮询状态直到完成
while video.statusin ("in_progress", "queued"):
video = openai.videos.retrieve(video.id)
time.sleep(2)
# 下载视频
content = openai.videos.download_content(video.id)
content.write_to_file("video.mp4")
Real-Time Mini
语音模型 Real-Time Mini,比之前的 Advanced Voice 便宜 70%,质量一样
Sam 说他觉得语音会成为人跟 AI 交互的主要方式,所以把价格打下来,让大家都用得起
(Sam:家人们,我把价格打下来了)
这是个画图的新模型,支持图片、文字输入,然后生图,效果挺不错的。
模型也分正式版和mini版,价格如下:
这次发布会,还有几个很有意思的点:
开场就说现在有 400 万开发者在用 OpenAI,每周 8 亿人用 ChatGPT(没听错,8亿),API 每分钟处理 60 亿 tokens
而在两年前的时候,是 200 万开发者、1 亿用户、3 亿 tokens/分钟。翻了一倍不止
大屏幕上列出了处理过 100 亿、1000 亿、甚至 1 万亿 tokens 的、在现场的开发者名字,全场鼓掌,颇有种「这些才是真正推动未来的人」的仪式感
Sam 提到了一个案例,日本一个 89 岁的退休老人用 ChatGPT 自学编程,做了 11 个 iPhone app,专门给老年人用。这种故事听着就很暖
以及,开场有一句话我很喜欢
"AI has gone from something people build, play with to something people build with every day."
按 Sam 的话说,AI 已经从「大家拿来研究、试验的新鲜玩意儿」,变成了「每天都在用的生产工具」,一切潜移默化,一切顺利应然。
OpenAI 会在每年秋天,进行一场面向开发者的发布会,称为 OpenAI DevDay。
第一场 DevDay 2023,聚焦于模型能力,于2023年11月6号召开。
这场发布会,带来了新模型 GPT‑4 Turbo(有了多模态理解)、JSON Mode(现在的结构化输出)、GPTs(OpenAI 最早的场景 Agent 探索)
提前拿到了 GPTs 权限...前 100 个 GPTs 里,可能有 3 个是我搓的
第二场是 DevDay 2024,聚焦于业务应用,一连开了3场,分别在旧金山(10月1号)、伦敦(10月30号)和新加坡(11月21号)
这系列的发布,带来了 Realtime API、Prompt Cache、蒸馏工具,并预告了 o1 的各项更新(比如:函数调用、开发者消息、结构化输出和图片理解)
发布会送的徽章,还挺好看的
今天是第三场:Dev Day 2025,N 倍扩大了规模,OpenAI 的朋友跟我说,这次来了上千人,人山人海...那乌压压的场面
这次阴差阳错没去成现场(心痛)
老实来说,每次 DevDay 最有意思的,其实不是台上讲了啥,而是散会之后,一群人开始琢磨「我能用这玩意儿搞点什么」。
然后大家对着新的 API 文档,在 GitHub 上传着各种项目,并在 Twitter、朋友圈、即刻、小红书上发布着各种 Demo...
这个时代,着实令人赞叹。
转载原创文章请添加微信:founderparker
更新时间:2025-10-08
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号