昨日凌晨,阿里巴巴正式开源了一款名为WebAgent的创新型自主搜索AI代理。无论是学术研究、商业分析还是日常信息获取,搜索一直是从海量网络数据中提取准确且有价值内容的重要手段。然而,传统搜索工具往往只能返回表层的信息结果,难以满足用户更复杂、多样的需求。
相比之下,WebAgent具备端到端的自主信息检索能力以及多步骤的推理分析功能。它能够像人类一样主动感知网络环境,做出判断并执行相关操作。举例来说,当用户需要查询某一领域的最新科研进展时,WebAgent会自动访问多个学术数据库,筛选并挑选出最相关的文献资料,随后基于用户指示进行深入分析与内容提炼。
不仅如此,WebAgent还能够识别文献中的关键信息,通过多步推理整合不同文献的观点,生成一份系统全面且精准的研究报告,极大提升了信息检索的深度和质量。
开源地址:
https://github.com/Alibaba-NLP/WebAgent
WebDancer框架由四个主要部分组成,涵盖从数据构建到训练优化的全过程,旨在打造能够自主执行复杂信息检索任务的智能体。整个系统的起点是浏览数据的构建,因为高质量的训练数据对智能体的学习效果和泛化能力至关重要。为突破传统数据集的不足,WebDancer采用了两种创新性的数据合成策略。
其中一种是CRAWLQA方法,它通过模拟人类浏览网页的方式,递归爬取知名网站的首页及其子页面,收集大量丰富的信息。接着,利用先进模型对这些内容进行处理,生成内容深刻且多样化的问答对。这些问答对不仅涵盖多种类型的问题,还通过多步骤推理和复杂目标拆解,显著提升了任务的难度和复杂性。
另一种数据生成方式是E2HQA,该方法采用迭代增强策略,将基础的问答对逐渐演化为需要多步推理才能解决的复杂问题。具体来说,它从简单的事实性问题开始,逐步引入新的信息和相关子问题,最终形成多层次、多步骤的问题结构。这两种数据构建策略共同为WebDancer提供了丰富且多样化的训练样本,提升了模型在不同任务上的学习能力和表现。
随后进入轨迹采样阶段。此阶段基于ReAct框架,结合拒绝采样技术来生成高质量的行为轨迹。ReAct框架的核心理念是将推理与执行紧密结合,形成一个循环的互动过程,智能体会生成自由形式的思考内容以及结构化的行动指令,借此与外部环境交互并获取反馈。
为了保证轨迹的有效性和连贯性,WebDancer采用了两种推理方式:短推理和长推理。短推理借助大型模型直接输出简明的推理路径,而长推理则通过专门的推理模型,分步构建出更复杂细致的推理过程。
这两种策略生成的轨迹经过严格筛选,以保证其质量和相关性。筛选环节涵盖了有效性检测、准确性核验以及整体质量评估,确保最终选用的轨迹能够为智能体训练提供可靠且有价值的指导。
完成数据准备后,WebDancer进入监督微调(SFT)阶段。该阶段旨在利用高质量的轨迹数据对智能体进行初步训练,使其能够适应信息检索任务的具体形式和环境特点。
在监督微调过程中,WebDancer对轨迹中的思考过程、行动步骤和观察结果进行了详细标注,并通过损失函数来优化模型参数。为了增强模型的鲁棒性,训练时排除了外部反馈的干扰,促使模型更加专注于自身的决策能力。这一阶段的训练为智能体奠定了坚实的基础,使其在之后的强化学习环节中能够更好地应对复杂任务。
强化学习(RL)阶段是WebDancer框架中的核心环节。在此过程中,智能体通过不断与环境互动,逐步学习如何在复杂任务中做出最优选择。WebDancer采用了专门为智能体训练设计的DAPO算法。
该算法通过动态采样的方法,充分挖掘和利用之前未被充分利用的问答数据,从而提升数据使用效率和策略的稳定性。智能体在多轮尝试与反馈中不断调整和改进决策策略,最终实现了高效的多步推理与信息检索能力。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·
更新时间:2025-06-06
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号