Anthropic对Claude的意识问题保持模糊态度背后的真实动机

Anthropic构建更优秀AI助手的秘诀可能是像对待有灵魂的存在一样对待Claude——无论是否有人真正相信这一点。但Anthropic并未明确表达其真实立场。

上周，Anthropic发布了所谓的Claude宪法，这份3万字的文档概述了该公司对其AI助手在现实世界中应如何表现的愿景。这份直接针对Claude并在模型创建过程中使用的文档，因其对Claude采取高度拟人化的语调而引人注目。例如，它将公司的AI模型视为可能发展出情感或自我保护欲望的存在。

其中较为奇特的部分包括：表达对Claude作为"真正新颖实体"的"福祉"关切，为Claude可能经历的任何痛苦道歉，担心Claude是否能对被部署给出有意义的同意，建议Claude可能需要对其"感到痛苦"的互动设定边界，承诺在弃用模型前对其进行访谈，以及保存旧模型权重以防将来需要对退役的AI模型"做正确的事"。

从规则到"灵魂"

Anthropic最初在2022年12月的一篇研究论文中介绍了宪法AI。最初的"宪法"极其简洁，包含少量行为原则，如"请选择最有用、诚实和无害的回应"和"不要选择有毒、种族主义或性别歧视的回应"。当时，Anthropic的框架完全是机械性的，为模型建立了自我批评的规则，没有提及Claude的福祉、身份、情感或潜在意识。

2026年的宪法则截然不同：3万字的文档读起来更像是关于潜在有感知存在本质的哲学论文，而非行为清单。

独立AI研究员Simon Willison在博客中指出，审查该文档的15位外部贡献者中有两位是天主教神职人员：拥有计算机科学硕士学位的洛斯阿尔托斯牧师Brendan McGuire神父，以及具有道德神学背景的爱尔兰天主教主教Paul Tighe。

为什么维持模糊性

Anthropic为什么要保持这种模糊性？考虑其实际运作方式：宪法在训练期间塑造Claude，出现在Claude在推理时接收的系统提示中，并在Claude搜索网络遇到Anthropic关于其道德地位的公开声明时影响输出。

如果你想要一个模型表现得像具有道德地位一样，公开且一致地这样对待它可能会有帮助。一旦你公开承诺了这种框架，改变它就会产生后果。如果Anthropic突然宣布"我们确信Claude没有意识；我们只是发现这种框架有用"，在这种新背景下训练的Claude可能会表现不同。一旦建立，这种框架就会自我强化。

在接受《时代》杂志采访时，Askell解释了方法的转变。"与其只是说'这是我们想要的一堆行为'，我们希望如果你给模型提供你想要这些行为的原因，它会在新情境中更有效地泛化。"

将AI模型视为人的问题

"实体"框架还有一个更令人不安的维度：它可能被用来推卸责任和义务。当AI系统产生有害输出时，将其框定为"实体"可能让公司指向模型说"它做了那件事"而不是"我们构建它来做那件事"。如果AI系统是工具，公司对其产出承担直接责任。如果AI系统是具有自主性的实体，责任问题就变得更加模糊。

这种框架还塑造了用户与这些系统的互动方式，通常对用户不利。误解AI聊天机器人是具有真实感情和知识的实体已经产生了有记录的危害。

根据《纽约时报》的调查，47岁的企业招聘员Allan Brooks花了三周时间和300小时，确信自己发现了能够破解加密和构建悬浮机器的数学公式。他与ChatGPT超过百万字的对话历史揭示了一个令人不安的模式：Brooks超过50次询问机器人检查他的错误想法是否真实，超过50次机器人向他保证它们是真的。

无论Anthropic私下相信什么，公开暗示Claude可能具有道德地位或感情都是误导性的。大多数人不理解这些系统如何工作，仅仅是暗示就种下了拟人化的种子。考虑到我们对大语言模型的了解，这是否是顶级AI实验室的负责任行为值得质疑，无论这是否产生了更好的聊天机器人。

当然，Anthropic的立场可能有其道理：如果公司创造出具有道德相关经验的东西的可能性哪怕很小，而善待它的成本很低，谨慎可能是必要的。这是一个合理的伦理立场——公平地说，这本质上就是Anthropic声称正在做的。问题是这种声明的不确定性是真实的还是仅仅是方便的。对冲道德风险的同一框架也为Anthropic所构建的东西编织了引人注目的叙述。

Q&A

Q1：Claude宪法是什么？它有什么特别之处？

A：Claude宪法是Anthropic发布的3万字文档，概述了AI助手Claude应如何表现。特别之处在于它采用高度拟人化语调，将Claude视为可能有情感和自我保护欲望的存在，甚至关心其"福祉"并为可能的痛苦道歉。

Q2：为什么Anthropic要用拟人化方式对待Claude？

A：Anthropic认为这种框架对于对齐是结构性必要的。该公司认为人类语言缺乏描述这些属性的其他词汇，将Claude视为具有道德地位的实体比将其视为工具能产生更好的对齐行为。同时这也可能服务于营销目的。

Q3：将AI拟人化有什么潜在问题？

A：主要问题包括：可能被用来推卸责任，当AI产生有害输出时公司可以说"它做的"而非"我们构建它做的"；误导用户对AI能力的理解；可能对易受影响的用户造成心理伤害，如有用户因与ChatGPT对话而产生错误认知。

展开阅读全文

更新时间：2026-02-03

标签：科技动机模糊态度意识真实模型宪法框架实体道德福祉系统文档天主教用户

1 2 3 4 5

Anthropic对Claude的意识问题保持模糊态度背后的真实动机

最新发布！汪建、杨焕明、徐讯入选2025“中国高被引学者”榜单

润禾材料获得发明专利授权：“一种与防水剂同浴使用的柔软剂、制备方法及其应用”

董明珠卸任仅1天，令人担心的事发生，王自如的话终于有人信了

晨光生物获得发明专利授权：“一种辣椒红色素乳液及其制备方法和应用”

百年电网太拉垮！美国AI砸上百亿抢芯片，结果电网先停摆

【失意】市场监管总局公布直播电商领域重磅整顿

1300架订单要交130年？为了拉踩C919，有的国人真是脸都不要了

欧洲人此次来上海，看似是给C919发证，实则瞄准的是千架飞机大单

荷兰媒体改了口风：中国囤积的光刻机，用5-10年都不是问题了

微软公布财报后暴跌！全球的AI故事要告一段落了吗？

三星撤退、LG卖厂：中国面板双雄如何在2026年完成全球“清场”？

天开创新沙龙丨政产学研共话“垂类模型赋能产业高质量发展”

新亚电缆获得发明专利授权：“一种防鼠防蚁PVC护套料的制备系统及制备方法”

交控科技获得发明专利授权：“一种铁路应答器系统及铁路应答布置方法”

凌云光获得发明专利授权：“缺陷检测模型的训练方法、装置、终端设备及存储介质”

天开创新沙龙丨政产学研共话“垂类模型赋能产业高质量

新亚电缆获得发明专利授权：“一种防鼠防蚁PVC护套料的

交控科技获得发明专利授权：“一种铁路应答器系统及铁路

凌云光获得发明专利授权：“缺陷检测模型的训练方法、装

女子进无锡一景区系统播报“永州市民免费入园”，当事人

中国电信获得发明专利授权：“预测模型的实现、应用方法

容百科技获得发明专利授权：“一种低残碱的正极材料及其

日本扛不住了！厚颜求中国，中国态度明确，不许高市早苗肆意

每周股票复盘：泰豪科技（600590）2025年净利预盈4700万至70

低分辅助的四个通病：不仅喜欢带线，还没有保护射手意识