观点网讯:6月18日,红杉中国在中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在服务大模型和AI Agent开发者,避免静态评测集常见的过拟合问题,确保工具长期有效。
该开源举措将基于AI发展动态更新评测集,采用“黑白盒”机制提升模型评估准确性。红杉中国表示,这有助于推动AI技术创新,并为开发者提供可靠基准支持。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
本文源自观点网
更新时间:2025-06-19
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号