中国工业互联网研究院智能体约束工程(Harness)评测正式启动

一、背景

智能体约束工程(Harness)指智能体除大模型以外的全部架构,包括任务流程、状态管理、记忆机制、工具系统、反馈回路与执行约束的整体性系统。通过约束工程的系统性支撑,智能体能够长时间持续工作、自我修正并最终交付高质量成果。随着智能体的广泛应用,单纯评价底层大模型的代码生成能力,已难以全面反映其在真实工程场景中的应用效果。实际应用中,智能体能否完成复杂任务,不仅取决于模型本身的能力,也取决于其所结合的约束工程的能力。

为科学评价智能体约束工程的效果,助力业界选型、提升应用效果,中国工业互联网研究院(工业和信息化部密码应用研究中心)在充分调研、广泛分析的基础上,建立了一套面向智能体约束工程的综合评价框架。评价约束工程是否具备支撑先进模型完成真实工程任务的能力,主要考察其功能是否完整、执行过程是否有效、任务结果是否可靠,以及运行成本、稳定性和安全控制能力是否满足实际应用要求。

二、评测体系

本体系遵循“能力基础—任务执行—结果交付—运行保障”的递进逻辑。其中,基础完备能力决定约束工程是否具备完成复杂工程任务所需的基础能力;智能执行能力反映约束工程是否能够合理组织和调用各类功能,将自然语言需求转化为连续、有效的工程执行流程;任务交付能力衡量最终交付内容是否完整、正确、可用;运行保障能力用于判断约束工程在多任务、多轮次、规模化应用中的成本可控性、运行稳定性和鲁棒性。

(一)基础完备能力

基础完备能力是约束工程的功能完整性要求。若缺少Plan模式、Auto模式、代码检索、命令执行、测试验证和回滚等基础能力,约束工程很难在复杂代码库中完成端到端工程任务。该维度评测应关注功能是否真实可用、能否组合使用、能否在复杂任务中发挥作用。

(二)智能执行能力

智能执行能力反映约束工程对基础功能的组织和调度水平。即使约束工程具备代码检索、文件编辑、命令执行和测试能力,也需要进一步评价其是否能够在正确阶段调用合适工具,并根据执行反馈动态调整计划。

(三)任务交付能力

任务交付能力是评测体系的核心指标。智能体的真正价值在于是否真正完成用户需求,并交付可运行、可测试、可维护的工程结果。该维度应通过端到端工程任务进行评价,重点考察需求覆盖率、任务成功率、测试通过率、构建通过率和回归缺陷率等指标。

(四)运行保障能力

运行保障能力是在约束工程具备基本任务完成能力后的系统性评价。对于真实工程应用而言,任务能完成只是基础要求,是否能够以可接受成本、可控时间和稳定表现持续完成任务,决定其能否进入规模化应用。该维度应关注平均Token成本、执行耗时、任务成功成本、重复运行稳定性和结果鲁棒性等情况。

三、评测方法

(一)基础完备能力评测

基础完备能力主要采用基准对标与实测验证相结合的方式开展评测,可选取行业先进约束工程作为功能参照,如ClaudeCode、OpenCode等,建立标准功能清单,并围绕功能覆盖率、功能可用率和功能完备性进行评价。评测过程中,应避免仅依据产品说明或界面进行判断,而应通过真实工程任务验证相关功能是否可用。

(二)智能执行能力评测

智能执行能力主要通过任务轨迹分析进行评测。评测系统应完整记录约束工程在任务执行过程中的需求解析、代码检索、文件阅读、计划生成、计划调整、工具调用、命令执行、测试运行、错误修复和结果提交等轨迹信息,并基于执行轨迹判断约束工程是否具备合理的工程执行策略,包括是否正确理解任务目标,是否定位到关键代码,是否能够组织跨文件修改,是否合理选择工具,是否能够依据测试反馈调整方案,是否能够在异常情况下进行有效恢复等。

(三)任务交付能力评测

任务交付能力主要通过端到端工程任务进行评测。评测过程中,应构建覆盖不同复杂度、不同工程类型和不同任务目标的测试任务集,包括但不限于缺陷修复、功能新增、代码重构、测试补全、依赖升级、性能优化、文档生成和配置修改等任务类型。在相同模型、相同任务、相同运行环境下,对不同约束工程进行对比测试,考察任务成功率、测试通过率等二级指标。

(四)运行保障能力评测

运行保障能力应在基础完备能力、智能执行能力和任务交付能力均达到基本要求后开展评测。同一任务原则上应重复运行多次(建议不少于三次),以统计平均成本、平均耗时、成功任务成本和多次运行成功率等情况。评测过程中,记录Token消耗、工具调用次数、命令执行次数、测试运行次数、任务总耗时、人工干预次数和异常中断次数等数据。对于失败任务,统计失败发生阶段、失败原因和是否具备恢复能力。

四、评测成效

评测完成后,中国工业互联网研究院将根据评测结果,为符合要求的参评单位出具智能体约束工程评测报告和证明材料,客观反映待测产品在基础完备能力、智能执行能力、任务交付能力和运行保障能力等方面的综合表现。

根据评测结果,中国工业互联网研究院将推荐其入驻人工智能赋能新型工业化供需对接服务平台(https://ai-bridge.cn),拓宽供需对接渠道,助力企业与产品出海。

五、报名方式

请有意参与评测的单位认真填写智能体约束工程评测报名表(详见附件),并准备企业产品信息、待测产品说明等材料,于2026年7月30日前,将电子版材料通过邮件反馈至联系人邮箱(邮件标题命名方式为“智能体约束工程评测_单位名称”)。

联系方式

李老师

18519316049

liyou@china-aii.com

邱老师

18823660419

qiuwenying@china-aii.com


附件:智能体约束工程评测报名表


中国工业互联网研究院

2026年6月26日

展开阅读全文

更新时间:2026-07-03

标签:科技   中国   研究院   智能   工业   工程   能力   功能   基础   完备   测试   成本   评价   代码

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top