微软公司 本次发布的数据集 GeAR, GeAR数据集由微软公司创建,旨在支持生成增强检索(GeAR)模型的训练。该数据集包含580万条数据,主要用于问题回答检索(QAR)和相关信息检索(RIR)任务。数据来源于高质量维基百科文档,通过大语言模型(LLM)生成查询和文档的细粒度信息单元,并经过去重和相关性过滤处理。数据集的应用领域包括文档检索、细粒度信息定位和信息生成,旨在提升检索系统对复杂文本的细粒度语义理解能力。
关于 微软公司 , 微软公司是全球领先的软件、服务和解决方案提供商,成立于1975年,总部位于美国华盛顿州,以其Windows操作系统和Office办公软件闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)