five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

上海交通大学发布OpenSeeker-v1-Data数据集,应用在搜索智能体、信息检索领域

五号数据雷达开源数据市场2026-03-18 03:2598
OpenSeeker-v1-Data是上海交通大学发布的数据集,于2026-03-17首发在arXiv应用于搜索智能体、信息检索领域

上海交通大学本次发布的数据集OpenSeeker-v1-Data,OpenSeeker-v1-Data是由上海交通大学团队构建的首个全开源搜索智能体训练数据集,包含1.17万条合成样本(含10.3k英文和1.4k中文)。该数据集通过逆向工程网络拓扑结构生成多跳推理任务,并采用实体混淆技术增强问题复杂性,同时利用回顾性摘要机制净化轨迹数据以提升质量。其核心创新在于事实锚定的可扩展QA合成与去噪轨迹合成技术,旨在解决前沿搜索智能体研究中高质量训练数据稀缺的问题,支持复杂网络搜索、多语言信息检索等应用场景。

查看OpenSeeker-v1-Data

关于上海交通大学,上海交通大学是中国历史最悠久、享誉海内外的著名高等学府之一,是教育部直属并与上海市共建的全国重点大学。学校创建于1896年,涵盖理、工、医、经、管、文、法等学科门类,在国内外享有盛誉。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们