five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

字节跳动研究院 发布 AutoScholarQuery, RealScholarQuery 数据集, 应用在 学术搜索、AI模型优化 领域

五号数据雷达开源数据市场2025-01-21 07:10151
AutoScholarQuery, RealScholarQuery 是 字节跳动研究院 发布的数据集,于 2025-01-17 首发在 arXiv 应用于 学术搜索、AI模型优化 领域

字节跳动研究院 本次发布的数据集 AutoScholarQuery, RealScholarQuery, AutoScholarQuery是由字节跳动研究院创建的高质量合成数据集,专为AI领域的学术搜索任务设计。该数据集包含35,511条细粒度学术查询及其对应的论文,数据来源于ICLR、ICML、NeurIPS、ACL和CVPR等顶级AI会议的论文。数据集通过GPT-4生成学术查询,并仅保留可在arXiv上检索到的论文。AutoScholarQuery旨在通过强化学习优化PaSa模型,提升其在复杂学术查询中的表现。RealScholarQuery则是一个包含50条真实世界学术查询的基准数据集,用于评估PaSa在现实场景中的性能。该数据集通过人工收集和标注相关论文,确保查询与论文的相关性。两个数据集的应用领域主要集中在学术文献检索,旨在解决复杂学术查询的自动化处理问题。

查看AutoScholarQuery, RealScholarQuery

README 内容: 

 

关于 字节跳动研究院 , 字节跳动研究院是字节跳动公司的研究部门,专注于人工智能、机器学习、数据科学等领域的前沿技术研究,旨在推动技术创新和产品应用。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们