上海交通大学本次发布的数据集OpenSeeker-v1-Data,OpenSeeker-v1-Data是由上海交通大学团队构建的首个全开源搜索智能体训练数据集,包含1.17万条合成样本(含10.3k英文和1.4k中文)。该数据集通过逆向工程网络拓扑结构生成多跳推理任务,并采用实体混淆技术增强问题复杂性,同时利用回顾性摘要机制净化轨迹数据以提升质量。其核心创新在于事实锚定的可扩展QA合成与去噪轨迹合成技术,旨在解决前沿搜索智能体研究中高质量训练数据稀缺的问题,支持复杂网络搜索、多语言信息检索等应用场景。
关于上海交通大学,上海交通大学是中国历史最悠久、享誉海内外的著名高等学府之一,是教育部直属并与上海市共建的全国重点大学。学校创建于1896年,涵盖理、工、医、经、管、文、法等学科门类,在国内外享有盛誉。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)