本文为深度编译,仅供交流学习,不代表日新说观点;今日头条独家发布,谢绝转载
本周,美国联邦调查局(FBI)披露,两名涉嫌于上月在加利福尼亚州炸毁一家生育诊所的男子,据称使用人工智能(AI)获取了制造炸弹的指令。FBI并未透露所涉AI程序的具体名称。
此事件凸显了加快推进人工智能安全体系建设的紧迫性。目前,我们正处于人工智能发展的“蛮荒时代”,各家公司在激烈竞争中争相开发更快速、更具吸引力的AI系统,力图占据技术领先地位。这种竞争态势常常导致企业在安全问题上采取有意或无意的捷径。
巧合的是,就在FBI披露该消息的同时,现代人工智能领域的先驱之一、加拿大计算机科学教授约书亚·本吉奥启动了一个新的非营利组织,致力于开发一种在设计上更为安全、并可对有潜在社会危害的人工智能模型进行监督的新型人工智能模型。
那么,本吉奥提出的新模型具备哪些特点?它是否真的能够有效防范人工智能所带来的风险?
2018年,因在三年前发表的关于深度学习的开创性研究成果,本吉奥与同行扬·勒丘恩和杰弗里·辛顿共同获得了图灵奖。作为机器学习的一个分支,深度学习通过人工神经网络从数据中学习和预测,试图模拟人类大脑的运作方式。
本吉奥的新非营利组织LawZero正在开发一种名为“科学家人工智能”的模型。他表示,该模型将“诚实且不具欺骗性”,并融合“安全设计”的原则。
根据今年早些时候发布于在线平台的一篇预印本论文,“科学家人工智能”(Scientist AI)将在两个关键方面区别于现有人工智能系统。
首先,该模型能够评估并传达其对所给答案的信心水平,从而有助于减少人工智能在错误问题上表现得过于自信的情况。
其次,该模型可以向人类解释其推理过程,使其得出的结论能够被验证与测试,从而提高透明度与可审查性。
有趣的是,早期的人工智能系统在一定程度上具备这类可解释性功能。然而,在现代人工智能系统中,为追求运算速度和算法创新,开发者往往牺牲了可解释性。
本吉奥还计划赋予“科学家人工智能”作为防护机制的角色,监控其他可靠性较低、具有潜在危险性的人工智能系统,形成一种“以火攻火”的安全策略。
鉴于人类难以有效监管如ChatGPT等每天处理上十亿次查询的大型系统,借助另一种人工智能对其进行实时监控或许是唯一可行的路径。
事实上,利用人工智能对抗人工智能并非科幻设想,而是在研究领域中的常见实践方式,常用于比较不同层级的人工智能模型效果。
当前的大型语言模型与机器学习系统,仅代表人工智能应用的冰山一角。
Bengio团队计划为“科学家人工智能”加入一个关键组成部分——“世界模型”,以增强其决策的确定性与可解释性。正如人类在理解世界的基础上作出决策,人工智能也需要类似的模型以实现有效推理。
目前主流人工智能系统普遍缺乏“世界模型”,这一问题在实践中表现得尤为明显。
一个广为流传的例子是“手的问题”:大多数现有AI模型能够模仿手的外形,却无法呈现自然的手部动作,根源在于其缺乏对物理规律的理解,即缺乏“世界模型”。
另一个例子是ChatGPT等模型在国际象棋领域的表现,它们不仅难以取胜,甚至可能作出非法走法。相比之下,一些更为基础的AI系统,在嵌入了象棋规则“世界模型”后,已具备击败人类顶尖棋手的能力。
这些差异揭示出现有系统并未从根本上建构关于现实世界动态的理解。
约书亚·本吉奥被公认为人工智能领域的先驱之一
本吉奥正朝着构建更加安全、值得信赖的人工智能方向迈进,其核心在于将大型语言模型与其他AI技术相结合。
然而,这条道路注定不会平坦。LawZero目前获得的资金仅为3000万美元,与今年初美国总统唐纳德·特朗普宣布的5000亿美元人工智能发展计划相比,可谓微不足道。
此外,LawZero还面临数据资源的瓶颈问题。与其他人工智能项目一样,“科学家人工智能”需要海量数据支撑其模型能力,而这类数据多掌握在大型科技企业手中。
另一个关键挑战在于,即使本吉奥最终成功构建出能够兑现承诺的人工智能系统,它又将如何控制那些潜在危害性更大的其他AI系统?
尽管面临诸多挑战,该项目仍展现出引发变革的潜力。若能成功,有望为人工智能安全制定新标准,推动研究人员、开发者与政策制定者将安全置于首要位置。
或许,若我们在社交媒体初现时就采取类似的安全举措,今天的年轻人将享有一个更为安全的网络环境,从而更好地维护心理健康。而如果“科学家人工智能”早已部署,或许便能通过AI系统及时阻止恶意行为者获取危险信息。
作者:阿敏·奇蒂扎德 讲师,悉尼大学计算机科学学院
更新时间:2025-06-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号