five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University 发布 LongBench-v2 数据集, 应用在 大型语言模型、长上下文处理 领域

五号数据雷达开源数据市场2024-12-21 06:55101
LongBench-v2 是 Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University 发布的数据集,于 2024-12-20 首发在 HuggingFace 应用于 大型语言模型、长上下文处理 领域

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University 本次发布的数据集 LongBench-v2, LongBench v2 是一个用于评估大型语言模型(LLMs)处理长上下文问题的能力的数据集。该数据集设计用于测试模型在需要深度理解和推理的真实多任务场景中的表现。其特点包括:1)上下文长度从8k到2M字不等,大部分在128k以下;2)难度较高,即使是使用搜索工具的人类专家在短时间内也无法正确回答;3)覆盖多种现实场景;4)采用多选题格式以确保评估的可靠性。数据集包含503个具有挑战性的多选题,涉及六个主要任务类别:单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解。数据集的质量和难度通过自动化和手动审查流程来保证,结果显示人类专家在15分钟内只能达到53.7%的准确率,而最佳模型直接回答问题时准确率为50.1%,包含更长推理的模型则达到57.7%。

查看LongBench-v2

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University , 清华大学知识工程研究室(KEG)和数据挖掘小组(THUDM)专注于大型语言模型研究与应用。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们