five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

微软公司发布DocQAC benchmark数据集,应用在查询自动补全、文档检索领域

五号数据雷达开源数据市场2026-04-22 09:075
DocQAC benchmark是微软公司发布的数据集,于2026-04-20首发在arXiv应用于查询自动补全、文档检索领域

微软公司本次发布的数据集DocQAC benchmark,DocQAC benchmark是由微软研究院与印度理工学院联合构建的文档内查询自动补全专用数据集,基于ORCAS数据集增强而来,包含丰富的查询-文档对。该数据集通过严格的相似查询扩充和GPT-4驱动的相关性标注流程,融合了原始点击查询与语义相似查询,并创新性地采用加权相似度方法估算未点击查询的伪点击量。其核心应用场景为提升长文档检索效率,解决专业术语拼写纠错和上下文敏感查询建议等关键问题,适用于PDF阅读器、IDE等文档交互工具的搜索功能优化。

查看DocQAC benchmark

Dataset card内容:

 

Files and versions内容:

 

README内容:

 

关于微软公司,微软公司(Microsoft Corporation)是一家全球领先的科技公司,成立于1975年,总部位于美国华盛顿州雷德蒙德。微软以开发、制造、许可和销售计算机软件、消费电子产品和个人电脑及服务而闻名,其产品包括Windows操作系统、Office办公软件套件及Azure云计算服务等。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们