谷歌主办的首届大模型对抗赛:国际象棋比赛中Grok 4表现最好

多知2025-08-06 16:33:46

多知8月6日消息,谷歌发起的首届大模型对抗赛引发了广泛关注。此次比赛于8月5日至7日在 Kaggle Game Arena 举行,汇聚了包括 DeepSeek、Kimi 等在内的八款顶尖 AI 模型,竞争将在策略游戏(如国际象棋和其他游戏中)中展开对决。

第一轮比赛,Grok 4 表现最好,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

Kaggle Game Arena是谷歌推出的一个全新的、公开的基准测试平台。此次参赛的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro(谷歌)、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等,每一款模型都代表了当前 AI 领域的最前沿技术。组织方特别邀请了世界顶级国际象棋专家进行解说,为比赛增添了专业性与观赏性。

截至目前,大语言模型在象棋对弈中暴露出的问题包括:全局棋盘视觉化能力不足、棋子间互动关系理解有限……

至于Grok 4 表现最好,马斯克的解释是:“国际象棋很简单,Grok 没花费太多力气。”

马斯克认为,毫无疑问,Grok 的推理能力就是强。

展开阅读全文

更新时间:2025-08-09

标签:游戏   国际象棋   对抗赛   模型   能力   互动关系   观赏性   棋盘   棋子   半决赛   象棋   基准

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top