字节跳动研究院 本次发布的数据集 AutoScholarQuery, RealScholarQuery, AutoScholarQuery是由字节跳动研究院创建的高质量合成数据集,专为AI领域的学术搜索任务设计。该数据集包含35,511条细粒度学术查询及其对应的论文,数据来源于ICLR、ICML、NeurIPS、ACL和CVPR等顶级AI会议的论文。数据集通过GPT-4生成学术查询,并仅保留可在arXiv上检索到的论文。AutoScholarQuery旨在通过强化学习优化PaSa模型,提升其在复杂学术查询中的表现。RealScholarQuery则是一个包含50条真实世界学术查询的基准数据集,用于评估PaSa在现实场景中的性能。该数据集通过人工收集和标注相关论文,确保查询与论文的相关性。两个数据集的应用领域主要集中在学术文献检索,旨在解决复杂学术查询的自动化处理问题。
查看AutoScholarQuery, RealScholarQuery
README 内容:
关于 字节跳动研究院 , 字节跳动研究院是字节跳动公司的研究部门,专注于人工智能、机器学习、数据科学等领域的前沿技术研究,旨在推动技术创新和产品应用。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)