five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Idiap研究所发布Blackbird Language Matrices (BLM)数据集,应用在自然语言处理、语言模型评估领域

五号数据雷达开源数据市场2026-02-26 06:2223
Blackbird Language Matrices (BLM)是Idiap研究所发布的数据集,于2026-02-24首发在arXiv应用于自然语言处理、语言模型评估领域

Idiap研究所本次发布的数据集Blackbird Language Matrices (BLM),Blackbird语言矩阵(BLM)是由Idiap研究所和日内瓦大学联合开发的创新型语言任务数据集,旨在通过结构化多选问题探究语言模型的系统性泛化能力。该数据集包含法语、意大利语和英语等多种语言的语法现象(如动词一致性、论元结构),通过人工构建和规则生成相结合的方式,形成包含上下文序列和对比答案的复杂语言谜题。其数据特点在于多层级结构设计(句子内、跨句子、候选答案间),支持对模型语言对象识别、模式检测等核心能力的多维度评估。该数据集主要应用于自然语言处理领域,用于诊断语言模型的语法归纳、结构依赖和组合系统性等类人语言能力,并为可解释性研究提供结构化数据支持。

查看Blackbird Language Matrices (BLM)

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们