在全球多语言AI技术普惠化发展、文化数字化转型的行业背景下,低资源少数语言的结构化语料缺口,始终是制约计算语言学前沿研究、濒危方言文化活态传承的核心瓶颈之一。2026年4月21日,意大利比萨大学联合那不勒斯东方大学在预印本平台arXiv正式首发A Bolu数据集,作为全球首个针对撒丁岛即兴诗歌的公开结构化语料库,该资源的落地为少数语言领域的产学研工作填补了重要的资源空白。
据官方披露,A Bolu数据集聚焦撒丁岛Logudorese方言的cantada logudoresa即兴诗歌形式,共收录2835个完整诗节,覆盖141321个词汇标记,所有原始数据均来自撒丁本土文化平台làcanas.it的官方数字化转录文本,具备极高的文化权威性与语料真实性。为提升数据的通用性与易用性,研发团队采用标准化JSON层级结构对语料进行存储,同步标注了诗人标识、韵律类型、执行时间戳等多维度元数据,且所有数据均经过去重、实体解析、缺失标注补全等多轮规范化处理,可直接对接语言学研究、AI模型训练等多场景使用需求。
从应用价值来看,该数据集首先为计算语言学领域研究少数语言即兴创作的公式化模式提供了标准化基准资源,可支撑学界对口头诗学核心的Parry-Lord理论开展大样本定量验证,打破过往相关研究高度依赖定性分析的局限。在NLP技术落地层面,基于该结构化语料,研发人员可开展低资源方言的语义识别、口语理解、内容生成等模型训练,填补撒丁方言相关NLP工具的研发空白,推动多语言AI技术覆盖更多小众语言群体。此外,作为欧盟认定的濒危地区少数语言,撒丁方言的口头诗歌语料数字化,也为濒危文化的活态留存、跨地域文化传播提供了新的数字载体,为全球少数语言文化的数字化治理、公共文化数据资源开放提供了可参考的实践样本。
首页 / 开源数据市场 / 正文
比萨大学联合发布A Bolu撒丁方言诗歌数据集 填补低资源少数语言研究语料空白
五号数据雷达开源数据市场2026-04-23 11:3016
2026年4月21日,意大利比萨大学联合那不勒斯东方大学在预印本平台arXiv首发A Bolu数据集,作为全球首个撒丁岛Logudorese方言即兴诗歌结构化语料库,该资源将为少数语言计算语言学研究、低资源NLP工具开发及濒危文化数字化留存提供重要支撑。

社区讨论
近期热门




_1769672084863.jpg)