five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

微软联合印度理工发布DocQAC benchmark数据集 赋能文档检索与查询自动补全场景升级

五号数据雷达开源数据市场2026-04-22 17:5813
微软研究院联合印度理工学院共同推出DocQAC benchmark文档内查询自动补全专用数据集,该数据集基于ORCAS数据集增强而来,首发于arXiv平台,可广泛应用于查询自动补全、文档检索领域,解决长文档检索效率低、上下文敏感查询匹配不准等行业共性痛点。

随着数字化办公、学术研究、代码开发等场景下长文档使用需求持续攀升,高效的文档检索、智能查询补全功能已成为PDF阅读器、IDE等工具的核心体验竞争力,相关算法训练对高适配性的专用数据集需求不断增长。

近期,微软研究院联合印度理工学院共同构建的DocQAC benchmark文档内查询自动补全专用数据集正式发布,首发于预印本平台arXiv。该数据集基于ORCAS数据集增强而来,包含丰富的查询-文档对;构建过程中采用严格的相似查询扩充机制与GPT-4驱动的相关性标注流程,融合原始点击查询与语义相似查询,还创新性采用加权相似度方法估算未点击查询的伪点击量,数据标注精度与场景适配性较传统通用数据集有明显提升。

目前DocQAC benchmark可广泛应用于查询自动补全、文档检索领域,核心可解决长文档检索效率提升、专业术语拼写纠错、上下文敏感查询建议等行业共性问题,为各类搭载文档交互功能的工具搜索模块优化提供高质量训练数据支撑。

查看DocQAC benchmark

【机构背景】微软是全球领先的科技企业,成立于1975年,总部位于美国华盛顿州雷德蒙德,旗下核心产品涵盖Windows操作系统、Office办公软件、Azure云计算服务、Xbox游戏机等,在人工智能、生产力工具、云计算等领域拥有深厚技术积累。

【平台背景】arXiv是全球规模最大的预印本学术论文数据库,覆盖物理、数学、计算机科学等多个前沿学科领域,是全球学术成果快速发布、同行交流的核心公开渠道之一。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们