five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

华为技术有限公司 发布 DocPuzzle 数据集, 应用在 自然语言处理、文本推理 领域

五号数据雷达开源数据市场2025-02-27 15:0446
DocPuzzle 是 华为技术有限公司 发布的数据集,于 2025-02-25 首发在 arXiv 应用于 自然语言处理、文本推理 领域

华为技术有限公司 本次发布的数据集 DocPuzzle, DocPuzzle是一个由华为诺亚方舟实验室和华为技术有限公司共同创建的中文长语境推理基准数据集,包含100个涉及多步骤推理的专家级问答问题。这些问题基于现实世界的长文档,涵盖学术文章、财务报告等多个领域。数据集的构建注重于确保问题的质量和难度,通过人类与AI合作的方式进行注释和验证。每个样本包括一个文档、一个问题、一个答案和一个检查表,检查表用于评估推理过程是否正确,以减少LLM的猜测偏差。

查看DocPuzzle

关于 华为技术有限公司 , 华为技术有限公司是一家全球领先的信息与通信技术(ICT)解决方案提供商,致力于为全球客户提供具有竞争力的ICT产品、服务和解决方案。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们