比人类专家还牛!美国AI霸主测出比自己还厉害的AI,但不是中国的

文 | 金锐点

编辑 | 金锐点

提到AI“打工能力”,你可能会默认OpenAI的GPT系列稳坐第一?毕竟从GPT-4到GPT-4o,它一直是很多人眼中的“行业标杆”。

可最近OpenAI自己搞了个大动作,推出一套专门衡量AI真实经济价值的测试标准,结果却让人大跌眼镜、

表现最拔尖的不是自家模型,连中国AI也没挤进出彩梯队,这到底是怎么回事?被OpenAI“盖章认证”的最强“打工AI”,又凭什么能赢过GPT家族?

事情要从OpenAI推出的GDPval基准说起,过去咱们看AI厉害不厉害,大多看它答题准不准、写文厉害不厉害,可这些“实验室成绩”到了真实工作场景里,未必能转化成实实在在的价值。

OpenAI显然也意识到了这个问题,所以GDPval直接把矛头对准了“能挣钱的真本事”,它覆盖了美国GDP贡献最大的9个行业,挑出44种以数字任务为主的职业,这些职业加起来每年能创收3万亿美元,相当于不少小国全年的经济总量。

更关键的是,测试里的任务全是按平均14年经验的行业专家日常工作设计的,不是随便编几道题就能应付的。

别以为这只是简单的“AI做题大赛”,GDPval的严谨程度远超想象。

先看职业筛选,OpenAI不是拍脑袋选的,他们先挑出2024年第二季度对美国GDP贡献超5%的行业,再在每个行业里选工资总额高、数字任务占比超60%的职业,光这一步就刷掉了不少不符合“实用导向”的岗位。

接着是专家招募,能参与任务设计的人,不仅得有至少4年相关经验,简历里还得有专业认可、晋升经历,甚至要经过视频面试和背景调查,前雇主不乏苹果、谷歌、摩根大通这些巨头,平均14年的行业经验保证了任务设计的“接地气”。

任务本身更不简单,每个任务都包含“需求”和“交付成果”两部分,专家会对照美国职业信息网络的标准设计,确保覆盖真实工作的方方面面。

而且每个任务还要算“经济账”,结合美国劳工统计局的数据,用“完成时间×时薪”算出任务值多少钱,比如一个需要专家花7小时完成的任务,按对应职业的中位时薪算,可能就值几百美元。

最终GDPval全集中有1320项任务,每一项都经过“自动化筛选+多轮人工审核”,平均要过5次人工关,连难度、代表性这些细节都要打分,就是为了避免“水任务”拉低测试含金量。

等测试结果一出来,不少人都惊了,Claude Opus 4.1居然成了最大赢家,有47.6%的输出成果被评定为和人类专家一样好,甚至更好。

而OpenAI自家的GPT-5虽然拿了第二,38.8%的成绩和Claude比还是差了一截,更别说GPT-4o了,只有12.4%的成果能和人类打平或胜出。

这时候OpenAI也出来“找补”,说不同模型各有优势,Claude强在美学设计,比如处理PDF、Excel、PPT这些文件时,格式排版、视觉呈现更出彩,GPT-5则在准确性上更胜一筹,像严格按指令做事、复杂计算不出错这些方面更靠谱。

这个结果其实也能从实际场景里找到印证,比如有企业用Claude Opus 4.1做项目汇报PPT,它不仅能准确提取数据,还能自动调整版式、搭配配色,出来的成品几乎不用人工再改。

而用GPT-5处理财务报表计算时,它能精准识别表格里的隐藏数据,连小数点后几位的误差都能避免。

不过有意思的是,在测试的220项优质任务里,有超过一半的任务中,至少有一个AI的表现能媲美人类专家。

这意味着AI在不少职业场景里,已经能帮人分担不少核心工作了,比如先让AI出初稿,人再做微调,比完全靠人做节省不少时间,成本也能降下来。

OpenAI还提到一个值得关注的点,AI的进步速度太快了,他们的前沿模型短短一年时间,在这类实用任务中的胜率几乎翻了一倍。

而且只要给模型多一点“思考空间”,比如增加推理强度、提供更详细的任务背景,甚至优化提示词,性能就能明显提升。

就像给GPT-5搭配“最优N选1”的抽样策略后,它在文本分析任务中的正确率一下子提高了15%。

不过OpenAI也没藏着掖着,坦言GDPval还有不少不足,比如只覆盖了44种职业,没包含体力劳动;任务都是一次性的,没有交互性。

自动评分器和人类评分的一致性虽然有66%,但比人类之间71%的一致性还是差了点,他们计划之后慢慢完善,让这个基准能更全面地衡量AI的真实价值。

这次测试让大家看清了,AI的“厉害”不再只是实验室里的分数,而是能实实在在帮人干活、创造经济价值的能力。

更值得留意的是,微软最近还和Claude的母公司Anthropic合作,要优化Microsoft 365 Copilot,这意味着接下来我们可能会在更多日常办公场景里,看到这款“最强打工AI”的身影。

说到底,这次测试与其说是“AI比高低”,不如说是给行业指了个方向:未来AI的竞争,会更聚焦“能不能落地、能不能创造价值”。

至于中国AI,虽然这次没在测试中出挑,但国内不少模型在中文处理、垂直行业应用上也有自己的优势,比如在政务文档处理、工业质检这些场景里,已经能达到很高的准确率。

或许接下来,我们更该关注的是,如何让AI在咱们自己的行业场景里,也能长出“接地气”的实用能力,毕竟不管是哪国的AI,最终能帮人把活干得更好、更高效,才是真的厉害。

展开阅读全文

更新时间:2025-09-30

标签:科技   美国   霸主   中国   厉害   人类   专家   行业   测试   职业   场景   模型   真实

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top