谷歌主办的首届大模型对抗赛：国际象棋比赛中Grok 4表现最好

多知2025-08-06 16:33:46

多知8月6日消息，谷歌发起的首届大模型对抗赛引发了广泛关注。此次比赛于8月5日至7日在 Kaggle Game Arena 举行，汇聚了包括 DeepSeek、Kimi 等在内的八款顶尖 AI 模型，竞争将在策略游戏（如国际象棋和其他游戏中）中展开对决。

第一轮比赛，Grok 4 表现最好，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2，晋级半决赛。

Kaggle Game Arena是谷歌推出的一个全新的、公开的基准测试平台。此次参赛的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro（谷歌）、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等，每一款模型都代表了当前 AI 领域的最前沿技术。组织方特别邀请了世界顶级国际象棋专家进行解说，为比赛增添了专业性与观赏性。

截至目前，大语言模型在象棋对弈中暴露出的问题包括：全局棋盘视觉化能力不足、棋子间互动关系理解有限……

至于Grok 4 表现最好，马斯克的解释是：“国际象棋很简单，Grok 没花费太多力气。”

马斯克认为，毫无疑问，Grok 的推理能力就是强。

展开阅读全文

更新时间：2026-02-20

标签：游戏国际象棋对抗赛模型能力互动关系观赏性棋盘棋子半决赛象棋基准

1 2 3 4 5

谷歌主办的首届大模型对抗赛：国际象棋比赛中Grok 4表现最好

ChinaJoy最大赢家揭秘，鸿蒙让我看到游戏的未来

《影之刃零》更像战神？外网博主称赞游戏玩法独特

LPL最能“宫斗”战队诞生！连换八位首发选手，终于拿到全球首胜

DNF手游：8月策划交流会爆料！大小深渊都改版，矛盾就值300泰拉

（2025）五款海贼手游7月营收，壮志雄心要注意了

钙片再次成为关注中心！医生发现：吃钙片后，千万多留意这4点！

立秋七日・暖脉饮：把秋天的暖意喝进骨子里

在立秋感悟生命的真谛

夏秋蚊虫传播基孔肯雅热等多种疾病，专家教你几招“防灭”技巧！！

立秋“三香草”泡水喝！祛湿不闹肚子，喝到寒露都舒坦！

夏夜睡眠终极拷问：空调和风扇，谁才是真正的“睡眠守护神”？

“立秋吃4草，不往医院跑”4草是什么？该怎么吃？今天告诉你！

刘海云医生：长期口干口苦口臭，可能是这些潜在病因在“作祟”！

三伏天高温！医生：开空调最好别低于这个温度，别害了自己！

立秋养身

ChinaJoy最大赢家揭秘，鸿蒙让我看到游戏的未来

《影之刃零》更像战神？外网博主称赞游戏玩法独特

《老公啊，你能去死吗》：当婚姻变成真人版吃鸡游戏

浪潮信息发布万亿参数大模型的超节点AI服务器

国产怀旧逻辑解谜游戏《力力普的工坊》现已上线Steam

首发24小时内免费入库！多人合作肉鸽射击游戏《枪途末路

波兰游戏节的宝藏游戏！《波提：字节国度大冒险》

AI“诸神黄昏”本周上演？GPT-5、Claude 4.1、Gemini 3

多邻国CEO：看好中国市场增长；已收购一家音乐游戏公司|财

SNK王绍珏出席2025 CIGDC“中日游戏企业交流专场” 发