前天,阿里巴巴推出了名为ZeroSearch的创新型大模型搜索引擎,并将其开源。ZeroSearch是一个强化学习框架,无需依赖真实搜索引擎即可激发大模型的搜索能力。它充分利用大模型在大规模预训练中积累的丰富知识,将这些知识转化为一个检索模块,能够根据用户查询生成相关内容。此外,ZeroSearch还能动态调控生成内容的质量,这一特性是传统搜索引擎所不具备的。
研究团队在包括NQ、TriviaQA、PopQA和HotpotQA等7个主流问答数据集上进行了全面评测。结果显示,采用ZeroSearch后,参数量为70亿的监督微调模型搜索能力得分达到33.06,而参数量140亿的模型则取得33.97的成绩,显著优于谷歌搜索的32.47。
在成本方面,通过SerpAPI调用谷歌搜索进行约64,000次查询训练,费用约为586.70美元;而在搭载四块A100 GPU的环境下,使用140亿参数的大模型进行同样规模的模拟训练,成本仅需70.80美元,实现了超过80%的成本节约。
开源地址:
https://github.com/Alibaba-nlp/ZeroSearch
笑脸:
https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
为了应对大模型的幻觉问题并扩展其外部知识来源,检索增强生成(RAG)技术逐渐成为主流。早期的RAG方法主要依赖基于提示的策略,利用大模型进行查询生成、查询拆解和多轮检索,从而整合外部信息,但这类方法对提示设计要求较高,且对模型的推理能力依赖较深。
此外,一些研究尝试通过监督微调和蒙特卡洛树搜索等技术提升模型的搜索能力,虽然在效果上有所突破,但由于计算资源消耗巨大,实际应用中面临较大挑战。
随着DeepSeek-R1、o1等模型的相继问世,强化学习逐渐成为提升模型推理能力的重要手段。这些模型利用奖励机制进行驱动学习,不依赖明确的逐步监督信号,极大改变了模型的逻辑推理方式。
因此,许多工作将强化学习引入大模型搜索领域。例如,Search-R1能够通过强化学习自主生成多个搜索查询;ReSearch则通过强化学习教会模型如何利用搜索结果进行推理,无需监督中间的推理步骤。然而,这些方法通常需要结合像谷歌这样的大型商业搜索引擎才能发挥最佳性能,且运行成本较高。
ZeroSearch 利用强化学习提升大模型的搜索能力,有效避免了依赖真实搜索引擎所带来的高成本和不可控因素。它通过轻量级的监督微调,将大模型转变为一个检索模块,充分发挥了大模型在大规模预训练阶段积累的丰富知识,使模型能够根据输入的查询生成相关或部分噪声的文档。通过调整提示中的关键字,ZeroSearch 可以灵活控制生成内容的质量,从而为后续训练创造多样化的检索环境。
这一能力的实现依赖于收集模型与真实搜索引擎交互时产生的轨迹数据,并对这些数据进行标注和微调。在训练过程中,大模型与真实搜索引擎进行多轮互动,直到生成最终答案。
模板
ChatGPT 4.1 Mini
在训练过程中,详细记录了从模型发起查询、搜索引擎返回文档,到模型根据这些文档生成最终答案的完整交互流程。这些交互轨迹随后经过精细标注,其中能够产生正确答案的被归类为正样本,表明相关文档对结果有积极贡献;而导致错误答案的则被标记为负样本,显示检索到的文档存在干扰。
通过从正负样本中准确提取查询与文档的对应关系,研究人员对大模型进行了轻量级的监督微调。在微调时,他们灵活调整提示中的关键词,比如加入“有用信息”或“噪声信息”,以指导模型生成不同质量的文档内容。同时,将问题及相应答案一并纳入提示,帮助扩展模型的知识范围。
此外,ZeroSearch引入了“课程学习”策略,在训练过程中逐步提高生成文档的难度。这样,模型可以先从较简单的检索任务入手,逐步适应并应对更复杂的检索环境,实现能力的稳步提升。
ZeroSearch通过一个动态调整概率的方法来控制噪声文档的生成比例。训练初期,模型主要接触高质量的文档,以便快速掌握基本的任务要求和输出格式。随着训练进展,逐渐增加噪声文档的比例,促使模型提升推理能力和鲁棒性,应对更加复杂的检索场景。
在强化学习框架下,ZeroSearch采用了多种优化算法,如近端策略优化(PPO)和组相对策略优化,旨在最大化策略模型的预期奖励。这些算法结合了参考模型和精心设计的奖励函数共同驱动模型训练。
奖励机制聚焦于答案的准确性,基于F1分数设计,以兼顾精确率和召回率。此外,为了保持训练过程的稳定性,ZeroSearch引入了损失掩蔽技术,确保梯度仅针对模型自身生成的内容进行更新,从而避免外部文档标签噪声的影响。
训练流程采用多轮交互式的模板,明确区分推理、搜索和答复三个阶段。在推理阶段,模型在
这种结构化的训练模板不仅提升了模型决策过程的透明度,也增强了其在实际应用场景中的稳定性和可靠性。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·
更新时间:2025-05-13
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号