OpenAI发布医疗开源测试基准HealthBench

IT之家 5 月 13 日消息，OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源，旨在更好地衡量 AI 系统在医疗健康领域能力。

与以往测试集不同的是，HealthBench 的 5000 段核心测试对话，由来自 60 个国家 / 地区的 26 个专业 262 名医生打造，极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同，HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估，涵盖多个健康背景（例如，紧急情况、全球健康）和行为维度（例如，准确性、遵循指示、沟通）。

此外，HealthBench 采用了多轮对话测试，而不是简单的答题或选择题模式。IT之家注意到，测试数据显示大模型在医疗保健领域的表现有了显著提升。例如，从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%，再到 o3 的 60%，整体性能有了显著进步。尤其是小型模型的进步更为突出，GPT-4.1nano 不仅在性能上超越了 GPT-4o，而且成本降低了 25 倍。

参考资料：

展开阅读全文

更新时间：2026-03-01

标签：科技基准医疗测试模型健康性能医生领域维度选择题参考资料

1 2 3 4 5

OpenAI发布医疗开源测试基准HealthBench

Manus 全面开放注册！10万天价到全民可用能否引爆AI应用潮？

饿了么两连襟骑手猝死后续，生前3天每日工作11小时，平台未回应

国内足金饰品跌破千元大关

省委财经委员会召开会议赵一德主持并讲话赵刚邢善萍出席

南京银行，何以“暴富”？

中通快递：营收增长 15.3% 股权稳定

涉港口交易，长江和记最新发布！

不满与巴基斯坦一著名城市同名，印度民众打砸72年老店“卡拉奇”

中国资产大涨！美股道指劲升1100点

饮料行业大降价！

中美日卷烟销量差距巨大：美1780亿支，日881亿支，中国让我意外

特朗普预告降药价80%，搅乱全球医药股？

伊利股份获得外观设计专利授权：“包装盒（香草巧克力+姜撞奶蜜桃乌龙口味脆筒冰淇淋）”

原材料价格持续上涨，章源钨业调整焊接机夹刀片价格

联合国对苏丹民用基础设施持续遭袭深表关切呼吁立即恢复人道准入

香烟有害健康其实是"大骗局"，尼古丁根本不致癌？真相更加

中药手串成养生新宠，它真有健康功效吗？

医生提醒：老年男性若长期不喝茶，身体大概率会发生这3个

医生提醒男性：这5个行为，会伤害前列腺！你经常做吗？

震撼！谷歌AI系统3秒诊出13种癌症，医生要被淘汰了吗？

心梗与散步脱不开关系？医生建议：65岁以后，散步时多注意这

喝水后一直小便的人，和半天不去厕所的人，谁更健康？早知道

早起散步不如睡懒觉？医生提醒：年过60岁的老人，早上3“不

广东男子吃辅酶Q10，1年后入院，医生：怎能犯这么低级的错误

抽烟的人会短命吗？国外医生进行长达20年的调查，终于找出