five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】MS MARCO Web Search - 包含数百万真实点击标签的网页数据集

五号雷达开源数据市场2024-05-16 11:1045
该数据集可以帮助研究人员开发出更好的搜索引擎和信息检索系统,以及训练和测试大型语义理解模型,使其更精准把握用户搜索意图和文档内容。

MS MARCO Web Search是微软发布的一个大规模、信息丰富的网页数据集。该数据集包含约10亿个高质量网页,源自ClueWeb22,这些网页不仅包括纯文本,还有视觉元素、HTML结构、语义标注等,覆盖207种语言,同时包含1000万个独特查询和数百万带有相关标签的查询-文档对,这些数据来自微软Bing搜索引擎的搜索日志。MS MARCO Web Search提供了100M和10B两种规模的数据集。该数据集可以帮助研究人员开发出更好的搜索引擎和信息检索系统,以及训练和测试大型语义理解模型,使其更精准把握用户搜索意图和文档内容。

详情请参见五号雷达:https://www.5radar.com/result?key=MS+MARCO+Web+Search

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们