麻省理工科学评论：不要让关于 AI 代理的炒作领先于现实

谷歌最近推出了所谓的“新型代理体验”，感觉就像是一个转折点。例如，在 5 月的 I/O 2025 活动中，该公司展示了一款数字助理，它不仅可以回答问题;它通过找到匹配的用户手册、找到 YouTube 教程，甚至打电话给当地商店询问零件，帮助维修自行车，所有这些都只需要最少的人工推动。这些功能可能很快就会扩展到 Google 生态系统之外。该公司推出了一个名为 Agent-to-Agent 或 A2A 的开放标准，旨在让来自不同公司的代理相互交谈并协同工作。

愿景令人兴奋：智能软件代理，就像数字同事一样，为您预订航班、重新安排会议、申报费用，并在幕后相互交谈以完成工作。但是，如果我们不小心，我们将在整个想法有机会带来真正的好处之前就脱轨。与许多技术趋势一样，存在炒作领先于现实的风险。当期望失控时，反弹也不远了。

我们准备好将密钥交给 AI 代理了吗？

我们开始赋予 AI 代理真正的自主权，但我们还没有为接下来可能发生的事情做好准备。

让我们从 “agent” 一词本身开始。现在，从简单的脚本到复杂的 AI 工作流程，它无处不在。没有共同的定义，这为公司留下了足够的空间，可以将基本自动化作为更先进的产品进行营销。这种 “代理清洗” 不仅会让客户感到困惑;它招致了失望。我们不一定需要一个严格的标准，但我们确实需要对这些系统应该做什么、它们的自主运行程度以及它们的执行可靠性有更明确的期望。

可靠性是下一个重大挑战。当今的大多数代理都由大型语言模型（LLM）提供支持，这些模型会生成概率响应。这些系统功能强大，但也不可预测。他们可能会编造事情、偏离轨道或以微妙的方式失败——尤其是当他们被要求完成多步骤任务、引入外部工具并将 LLM 响应链接在一起时。最近的一个例子：Cursor 是一种流行的 AI 编程助手，其用户被自动支持代理告知，他们不能在多个设备上使用该软件。用户取消订阅的投诉和报告广泛存在。但事实证明，这项政策并不存在。它是 AI 发明的。

在企业设置中，这种错误可能会造成巨大的损害。我们需要停止将 LLM 视为独立产品，并开始围绕它们构建完整的系统——这些系统可以考虑不确定性、监控输出、管理成本，并设置安全性和准确性的护栏。这些措施有助于确保输出符合用户表达的要求、遵守公司关于信息访问的政策、尊重隐私问题等。一些公司，包括 AI21（我与他人共同创立并获得了 Google 的资助）已经朝着这个方向前进，将语言模型包装在更深思熟虑的结构化架构中。我们最新推出的 Maestro 专为企业可靠性而设计，将 LLM 与公司数据、公共信息和其他工具相结合，以确保可靠的输出。

尽管如此，即使是最聪明的代理在真空中也不会有用。要使代理模式发挥作用，不同的代理需要合作（预订您的旅行、查看天气、提交您的费用报告），而无需持续的人工监督。这就是 Google 的 A2A 协议的用武之地。它旨在成为一种通用语言，让代理分享他们可以做什么并划分任务。原则上，这是一个好主意。

在实践中，A2A 仍然不足。它定义了代理如何相互交谈，但没有定义它们的实际含义。如果一个代理说它可以提供“风况”，那么另一个代理必须猜测这是否有助于评估飞行路线上的天气。没有共享的词汇或上下文，协调就会变得脆弱。我们以前在分布式计算中见过这个问题。大规模解决它绝非易事。

当 AI 讨价还价时，不太高级的代理可能会让您付出代价

新的研究表明，在 AI 到 AI 的价格谈判中，较弱的模型往往会失败，从而使用户损失惨重，并引发对日益严重的数字不平等的担忧。

还有一个假设是，代理人天生是合作的。这可能在 Google 或其他公司的生态系统中成立，但在现实世界中，代理商将代表不同的供应商、客户甚至竞争对手。例如，如果我的旅行计划代理向您的航空公司预订代理索取报价，而您的代理受到激励而偏爱某些航空公司，那么我的代理可能无法为我提供最好或最便宜的行程。如果没有办法通过合同、支付或博弈论机制来调整激励措施，期望无缝协作可能是一厢情愿的想法。

这些问题都不是不可克服的。可以开发共享语义。协议可以发展。可以教会代理人以更复杂的方式进行谈判和协作。但这些问题不会自行解决，如果我们忽视它们，“代理”一词将走上其他被过度炒作的科技流行语的道路。一些 CIO 听到这个消息时已经翻了个白眼。

这是一个警告信号。我们不希望兴奋掩盖陷阱，只是让开发人员和用户以艰难的方式发现它们，并对整个努力产生负面的看法。那将是一种耻辱。这里的潜力是真实的。但我们需要将雄心壮志与深思熟虑的设计、明确的定义和现实的期望相匹配。如果我们能做到这一点，代理将不仅仅是另一个过时的趋势;他们可能会成为我们在数字世界中完成工作的支柱。

Yoav Shoham 是斯坦福大学名誉教授，也是 AI21 Labs 的联合创始人。他 1993 年关于面向代理编程的论文获得了 AI Journal 经典论文奖。他是该领域的标准教科书《Multiagent Systems： Algorithmic， Game-Theoretic， and Logical Foundations》的合著者。

展开阅读全文

更新时间：2026-01-31

标签：科技麻省理工现实科学可能会公司用户模型定义数字可靠性系统深思熟虑

1 2 3 4 5

麻省理工科学评论：不要让关于 AI 代理的炒作领先于现实

“民有所呼我必有应”！云南移动10086热线听音活动举行

网友在比利时偶遇马云

【苹果】iPhone17Pro细节曝光背面logo大变动？

“京东社区”免费领稳定币，再送原始股！是天降好事还是诈骗陷阱？

野生救援中国首席代表余冲：提升公众认知助力海洋治理｜2025年生态文明贵阳国际论坛

云南勐关高速公路建成通车

从“输入”视角看人工智能工具的使用

德国团队基于DeepSeek打造R1T2模型，速度比R1-0528快200%

人人租等平台涉灰色租机产业链：注册后个人信息泄露，“秒接”套现中介电话

保护国际基金会（CI）蓝色自然联盟共同主席洛尔·塞拉·卡茨：南大洋保护对全球生态至关重要｜2025年生态文明贵阳国际论坛

AI寻人、危险预警？上海乐高乐园“智慧大脑”上线

OpenAI的「独立战争」

英特尔取得可重新配置装置比特流密钥认证专利

7.4主力已经“大幅卖出”这些股

港股新能源车企股走弱，小鹏汽车跌超7%，小鹏G7上市，大摩认为“G 三驾马车”月销量将达到2万辆

德国团队基于DeepSeek打造R1T2模型，速度比R1-0528快200

一大型央企子公司副总经理，被查

意欲何为？崔康熙经纪公司发文：健康权被剥夺，休假权合法

韩国科学家在Nature发表论文宣布将 CO₂ 转化为“液态

Google大模型Gemini 在印度“世界最难”考试中击败所

36氪首发丨与腾讯合作，抓住新兴赛道：竞想科技完成Pre-A

航宇科技：与海外客户签署约4460万美元长期供货协议

和林微纳：公司MEMS精微零组件主要应用于MEMS声学及MEMS

中国五矿：公司及下属企业从未通过网页、微信公众号形式

2025全球数字经济大会“人工智能融合应用发展论坛”主