首页 / 开源数据市场 / 正文

罗马尼亚克卢日-纳波卡巴贝什-博里亚伊大学发布 TINYFABULIST TRANSLATION FRAMEWORK (TF2) 数据集, 应用在机器翻译、自然语言处理领域

五号数据雷达开源数据市场2025-09-11 06:5020

TINYFABULIST TRANSLATION FRAMEWORK (TF2) 是罗马尼亚克卢日-纳波卡巴贝什-博里亚伊大学发布的数据集,于 2025-09-09 首发在 arXiv 应用于机器翻译、自然语言处理领域

罗马尼亚克卢日-纳波卡巴贝什-博里亚伊大学本次发布的数据集 TINYFABULIST TRANSLATION FRAMEWORK (TF2), TINYFABULIST TRANSLATION FRAMEWORK (TF2)是一个用于数据集创建、微调和评估的统一框架，专注于英语到罗马尼亚语的文学翻译。它创建并公开发布了一个紧凑的、微调的语言模型（TF2-12B）和大规模的合成平行数据集（DS-TF2-EN-RO-3M和DS-TF2-ENRO-15K）。基于迄今为止最大的合成英语寓言集合DS-TF1-EN-3M（TF1），我们解决了低资源语言（如罗马尼亚语）中丰富、高质量的文学数据集的需求。我们的管道首先使用高性能的LLM从TF1池中生成15k高质量的罗马尼亚语参考。然后，我们对一个12B参数的开放权重模型应用两阶段的微调过程：（i）指令微调以捕获特定类型的叙事风格，（ii）适配器压缩以提高部署效率。评估结合了语料库级别的BLEU和基于五维LLM的评分标准（准确性、流畅性、连贯性、风格、文化适应）来提供对翻译质量的细微评估。结果显示，我们的微调模型在流畅性和充分性方面与顶级的大型专有模型具有竞争力，同时是开放、可访问的，并且成本效益显著。除了微调模型和两个数据集之外，我们还公开发布了所有脚本和评估提示。因此，TF2为研究成本效益高的翻译、跨语言叙事生成以及在低资源语言中广泛采用开放模型以获取具有文化意义的文学作品提供了一个端到端的可重复的流程。

查看TINYFABULIST TRANSLATION FRAMEWORK (TF2)

Dataset card 内容：

Files and versions 内容：

关于罗马尼亚克卢日-纳波卡巴贝什-博里亚伊大学 , -_simple

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

罗马尼亚克卢日-纳波卡巴贝什-博里亚伊大学 发布 TINYFABULIST TRANSLATION FRAMEWORK (TF2) 数据集, 应用在 机器翻译、自然语言处理 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

罗马尼亚克卢日-纳波卡巴贝什-博里亚伊大学发布 TINYFABULIST TRANSLATION FRAMEWORK (TF2) 数据集, 应用在机器翻译、自然语言处理领域