本文原文来自DataLearnerAI官方博客:Grok-4未发布评测结果已泄露:2个版本,支持长推理输出,但是最高上下文仅132K,泄露的评测数据显示Grok4是迄今为止得分最高的大模型,甚至大幅超越Gemini 2.5 Pro! | 数据学习者官方网站(Datalearner)
Grok4是马斯克旗下大模型初创企业xAI的第四代大模型,在五月份的时候,马斯克就透露他们马上要发布Grok 3.5模型,六月份的时候说这个模型效果很好,版本号就直接改为4,这中间经过多次波折,最终马斯克说Grok 4将在7月4日之后发布。截止目前,虽然xAI官方没有正式宣布Grok 4,但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。
首先确认的是,Grok4至少包含2个版本,分别是通用大模型Grok 4和针对编程优化的Grok 4 Code。不过最新的截图也显示,Grok4模型最高仅支持132K上下文长度,这个相比较对手的100万、200K来说都是有点低的。而Grok 3对外宣传100万上下文长度,很多人测试也表示长了之后Grok 3的效果也会下降。也许本次只是回归真正的能力。
目前官方后台的数据显示这两个模型的版本是0629版本,即grok-4-0629和grok-4-code-0629。
此外,官方的接口显示,这两个模型支持Test Time Compute,也就是在推理过程增加推理时间(或者说增加推理过程的思维链tokens的数量)来获得更好的效果。
Grok的这个模式称为TTC(Test Time Compute),而OpenAI官方则使用 low、medium和high来表示。Google的官方使用但是deeper thinking模式,叫法不同,但是都是一个意思。
尽管xAI还没有正式发布Grok4,但是大家已经从接口中发现了Grok 4模型的评测数据了。透露评测数据看,Grok 4模型在各个方面都超越了当前模型的效果。甚至在很高难度的HLE评测上,大幅领先市面上的模型,是第二名得分的2倍以上!
如下图所示,是Grok 4和其它模型的对比结果(感兴趣的童鞋可以去下面链接有更详细的表格数据对比):
数据来源:DataLearnerAI
数据来源:AI大模型对比:Grok-4 (TTC),Grok 4,
Gemini-2.5-Pro-Preview-06-05,DeepSeek-R1-0528,Claude Opus 4,Claude Sonnet 4,OpenAI o3在HLE,GPQA Diamond,AIME2025评测基准性能分析和评测结果对比 | 数据学习 | 数据学习 (DataLearner)
这三个评测都是难度非常高的评测结果,其中HLE是2-3000个非常难的跨学科问题,GPQA Diamond则是高难度的涵盖生物、物理、化学三个 STEM 领域的多选题,而AIME 2025是一项难度仅次于美国数学奥林匹克(USAMO)的高中数学竞赛,强调技巧与多步推理。
从这个结果,我们可以看出Grok4模型的强大:
这里,我们提供一个HLE的排行榜截图,大家可以更加清晰感受到Grok 4的强大!
数据来自DataLearnerAI的HLE排行榜得分:https://www.datalearner.com/ai-models/llm-benchmark-tests/31
数据来自DataLearnerAI的HLE排行榜得分:大模型HLE评测基准详情以及最新排行结果 | 数据学习 (DataLearner)
此前,在这些评测霸榜的是Gemini 2.5 Pro模型,当前看,也是敌不过Grok 4的。如果加上更多的推理(TTC)能力,Grok 4的表现更加惊人!
Grok 4还有一个针对编程领域优化的大模型Grok 4 Code,这个模型的也支持长推理模式(TTC),不过,当前官网泄露的数据仅仅包含SWE Bench Verified结果。
数据来源:DataLearnerAI的SWE-Bench Verified排行榜
数据来源:DataLearnerAI的SWE-Bench Verified排行榜:大模型SWE-bench Verified评测基准详情以及最新排行结果 | 数据学习 (DataLearner)
从这个图看,Grok 4 Code在SWE Bench Verified得分72,和Gemini 2.5 Pro差不多。如果加上TTC之后,得分达到75,第一名。
从xAI的截图显示,xAI随着Grok 4发布的还有一些新的应用,目前看到的包括2个,一个是Game,一个是云端存储。
Grok的Game应用
Grok的云存储
从这些截图看,Grok4强大的能力也促使xAI开始提供更加复杂的应用服务,如开发游戏、个人数据的问答等。
期待Grok 4的发布,大家也可以关注DataLearnerAI的Grok4模型信息卡来获取最新的信息和评测结果。
Grok 4模型信息卡地址:Grok 4 模型详解:参数、评测及开源信息 - 数据学习(DataLearner)
Grok 4 Code模型信息卡地址:Grok 4 Code 模型详解:参数、评测及开源信息 - 数据学习(DataLearner)
更新时间:2025-07-07
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号