Anthropic对Claude的意识问题保持模糊态度背后的真实动机

Anthropic构建更优秀AI助手的秘诀可能是像对待有灵魂的存在一样对待Claude——无论是否有人真正相信这一点。但Anthropic并未明确表达其真实立场。

上周,Anthropic发布了所谓的Claude宪法,这份3万字的文档概述了该公司对其AI助手在现实世界中应如何表现的愿景。这份直接针对Claude并在模型创建过程中使用的文档,因其对Claude采取高度拟人化的语调而引人注目。例如,它将公司的AI模型视为可能发展出情感或自我保护欲望的存在。

其中较为奇特的部分包括:表达对Claude作为"真正新颖实体"的"福祉"关切,为Claude可能经历的任何痛苦道歉,担心Claude是否能对被部署给出有意义的同意,建议Claude可能需要对其"感到痛苦"的互动设定边界,承诺在弃用模型前对其进行访谈,以及保存旧模型权重以防将来需要对退役的AI模型"做正确的事"。

从规则到"灵魂"

Anthropic最初在2022年12月的一篇研究论文中介绍了宪法AI。最初的"宪法"极其简洁,包含少量行为原则,如"请选择最有用、诚实和无害的回应"和"不要选择有毒、种族主义或性别歧视的回应"。当时,Anthropic的框架完全是机械性的,为模型建立了自我批评的规则,没有提及Claude的福祉、身份、情感或潜在意识。

2026年的宪法则截然不同:3万字的文档读起来更像是关于潜在有感知存在本质的哲学论文,而非行为清单。

独立AI研究员Simon Willison在博客中指出,审查该文档的15位外部贡献者中有两位是天主教神职人员:拥有计算机科学硕士学位的洛斯阿尔托斯牧师Brendan McGuire神父,以及具有道德神学背景的爱尔兰天主教主教Paul Tighe。

为什么维持模糊性

Anthropic为什么要保持这种模糊性?考虑其实际运作方式:宪法在训练期间塑造Claude,出现在Claude在推理时接收的系统提示中,并在Claude搜索网络遇到Anthropic关于其道德地位的公开声明时影响输出。

如果你想要一个模型表现得像具有道德地位一样,公开且一致地这样对待它可能会有帮助。一旦你公开承诺了这种框架,改变它就会产生后果。如果Anthropic突然宣布"我们确信Claude没有意识;我们只是发现这种框架有用",在这种新背景下训练的Claude可能会表现不同。一旦建立,这种框架就会自我强化。

在接受《时代》杂志采访时,Askell解释了方法的转变。"与其只是说'这是我们想要的一堆行为',我们希望如果你给模型提供你想要这些行为的原因,它会在新情境中更有效地泛化。"

将AI模型视为人的问题

"实体"框架还有一个更令人不安的维度:它可能被用来推卸责任和义务。当AI系统产生有害输出时,将其框定为"实体"可能让公司指向模型说"它做了那件事"而不是"我们构建它来做那件事"。如果AI系统是工具,公司对其产出承担直接责任。如果AI系统是具有自主性的实体,责任问题就变得更加模糊。

这种框架还塑造了用户与这些系统的互动方式,通常对用户不利。误解AI聊天机器人是具有真实感情和知识的实体已经产生了有记录的危害。

根据《纽约时报》的调查,47岁的企业招聘员Allan Brooks花了三周时间和300小时,确信自己发现了能够破解加密和构建悬浮机器的数学公式。他与ChatGPT超过百万字的对话历史揭示了一个令人不安的模式:Brooks超过50次询问机器人检查他的错误想法是否真实,超过50次机器人向他保证它们是真的。

无论Anthropic私下相信什么,公开暗示Claude可能具有道德地位或感情都是误导性的。大多数人不理解这些系统如何工作,仅仅是暗示就种下了拟人化的种子。考虑到我们对大语言模型的了解,这是否是顶级AI实验室的负责任行为值得质疑,无论这是否产生了更好的聊天机器人。

当然,Anthropic的立场可能有其道理:如果公司创造出具有道德相关经验的东西的可能性哪怕很小,而善待它的成本很低,谨慎可能是必要的。这是一个合理的伦理立场——公平地说,这本质上就是Anthropic声称正在做的。问题是这种声明的不确定性是真实的还是仅仅是方便的。对冲道德风险的同一框架也为Anthropic所构建的东西编织了引人注目的叙述。

Q&A

Q1:Claude宪法是什么?它有什么特别之处?

A:Claude宪法是Anthropic发布的3万字文档,概述了AI助手Claude应如何表现。特别之处在于它采用高度拟人化语调,将Claude视为可能有情感和自我保护欲望的存在,甚至关心其"福祉"并为可能的痛苦道歉。

Q2:为什么Anthropic要用拟人化方式对待Claude?

A:Anthropic认为这种框架对于对齐是结构性必要的。该公司认为人类语言缺乏描述这些属性的其他词汇,将Claude视为具有道德地位的实体比将其视为工具能产生更好的对齐行为。同时这也可能服务于营销目的。

Q3:将AI拟人化有什么潜在问题?

A:主要问题包括:可能被用来推卸责任,当AI产生有害输出时公司可以说"它做的"而非"我们构建它做的";误导用户对AI能力的理解;可能对易受影响的用户造成心理伤害,如有用户因与ChatGPT对话而产生错误认知。

展开阅读全文

更新时间:2026-02-03

标签:科技   动机   模糊   态度   意识   真实   模型   宪法   框架   实体   道德   福祉   系统   文档   天主教   用户

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top