一直以来,高性能 Search Agent 都像是 “大厂的专属游戏”。虽然业界涌现了许多开源模型,但真正决定 Agent 能力上限的 “高质量训练数据” 却始终被各大企业严格保密,形成了一道坚固的数据护城河。这种持续的数据稀缺,极大地阻碍了广大研究社区在这一领域的创新与发展。
今天,由上海交通大学研究团队推出的OpenSeeker彻底打破这一现状!
作为首个纯学术团队打造,完整开源模型 + 100% 全量训练数据的前沿深度搜索 Agent,OpenSeeker 证明了:不靠堆砌算力资源,依靠极高的数据合成质量,学术界同样能跑出 SOTA!在同等条件下(约 30B 参数量、纯 ReAct 架构),OpenSeeker 仅需11.7k 合成样本进行单轮 SFT(监督微调),便在多个前沿榜单上取得了 SOTA 成绩。
核心亮点速览
核心技术揭秘:
突破大厂数据瓶颈的高质量数据合成方案
要有效训练深度搜索 Agent,核心在于解决两个关键问题:首先,必须构建足够高难度的问答任务,以激发模型“推理 → 工具调用 → 工具反馈”的多轮工具调用能力,从而形成包含明确决策节点和长工具调用链的长程交互轨迹;其次,需要通过稳定且可复现的方法生成高质量解题轨迹,确保训练信号学习到的是正确且可泛化的策略,而非依赖随机采样产生的偶然成功。
为此,OpenSeeker 进一步提出基于真实网页结构的事实锚定问答构建与动态去噪轨迹合成方法,以系统性提升多跳推理能力与信息提取能力。
1. 基于事实锚定的问答构建:基于真实网页图谱构造高难度多跳问题
现有的检索任务往往容易被模型通过简单的模式匹配 “走捷径”。为了逼迫模型进行真正的多跳推理,OpenSeeker 直接从海量真实网页的图结构出发进行逆向工程。
OpenSeek QA 合成的方法,不仅保证了数据的真实可信,还从结构上强制模型必须进行多步导航与深度推理。
2. 动态去噪轨迹合成:基于非对称上下文构建,强化嘈杂环境下的核心信息提取
真实的网页环境充满了冗长且无关的噪音。为了合成高质量的动作轨迹,OpenSeeker 设计了一套非对称的 “动态上下文去噪” 策略:
该方法激发 OpenSeeker 从嘈杂的真实网页环境中学习到了强大的信息提取与去噪能力。
实验结果:11.7k 数据的越级挑战
11.7k 数据单轮 SFT,媲美大厂表现:OpenSeeker 仅使用 11.7k 样本和 SFT 进行单轮训练,便展现出媲美甚至超越大厂资源密集型模型的竞争力。令人瞩目的是,在 BrowseComp-ZH 榜单上,仅采用单轮简单 SFT 训练的 OpenSeeker-v1-30B-SFT 取得了48.4%的高分,超越经历了持续预训练 (CPT)、SFT 和强化学习 (RL) 多阶段训练的 Tongyi DeepResearch (46.7%)。
纯 SFT 与 ReAct 架构下的 SOTA 表现:在同为 SFT 训练的 ReAct Agent 竞争中,OpenSeeker 取得 SOTA。仅凭借 11.7k 数据,OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜单上均取得最优成绩,显著拉开了与阿里巴巴通义实验室提出的 WebSailor-V2、WebLeaper 等同类开源模型的差距。
同等数据规模下的显著优势,凸显极高数据质量:在控制数据量规模可比的情况下(10k-15k 级别),OpenSeeker 的数据质量明显优于阿里巴巴通义实验室的 WebSailer-V2 和 WebLeaper 的各类组合版本,在各项指标上均保持显著优势。
远超 Benchmark 的数据难度:为了量化数据难度,研究团队使用相同的模型对合成数据和标准 Benchmark 进行了推理对比。结果显示:
社区反响:真正推动领域发展的底层开源支撑
OpenSeeker 一经发布,便在海外社交平台和开源社区引发了热烈反响。许多研究者与开发者纷纷表示,这正是目前学术界最迫切需要的破局之作:
这不仅是一个 SOTA 模型,更是赋能整个学术界探索下一代 Search Agent 的坚实基座。
全面开源,即刻体验!
OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索 Agent,从根本上打破了长期以来由大厂构筑的数据护城河,真正为科研人员提供了可直接使用、可复现、可扩展的高质量研究数据基础。这一开放不仅降低了前沿 Search Agent 研究的门槛,更让研究者能够专注于方法创新本身,而不再受限于数据。打破闭源垄断,让前沿研究不再遥不可及。也期待更多开发者与研究者加入,共同探索下一代 Agent 的可能性,欢迎 Star 关注并上手体验!
作者介绍:
本文共同第一作者为上海交通大学博士生杜钰文与叶锐,其中叶锐为项目负责人,指导老师为上海交通大学人工智能学院陈思衡教授,主要研究方向为 AI Agents、Agentic Science 等领域。