five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

新里斯本大学发布ALBA数据集,应用在语言学评估、自然语言处理领域

五号数据雷达开源数据市场2026-03-31 05:1222
ALBA是新里斯本大学发布的数据集,于2026-03-27首发在arXiv应用于语言学评估、自然语言处理领域

新里斯本大学本次发布的数据集ALBA,ALBA是由新里斯本大学语言专家团队开发的欧洲葡萄牙语(pt-PT)语言学评估基准,包含800条人工构建的测试问题,覆盖语言变体、文化语义、话语分析等8个语言学维度。该数据集通过专家标注的参考答案(720条)和LLM-as-a-judge框架支持生成式模型的细粒度评估,旨在解决pt-PT语言资源匮乏导致的模型偏见问题,推动葡萄牙语NLP工具的发展。数据来源于专家设计的原创任务,涉及方言转换、谚语解释、诗歌创作等典型应用场景。

查看ALBA

关于新里斯本大学,新里斯本大学(Universidade Nova de Lisboa)是葡萄牙的一所公立大学,成立于1973年,位于里斯本。该校以现代教学方法和研究活动著称,提供广泛的本科、硕士和博士课程。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们