five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Projecte Aina 发布 ES-OC_Parallel_Corpus 数据集, 应用在 机器翻译、低资源语言翻译 领域

五号数据雷达开源数据市场2024-12-13 10:2815
ES-OC_Parallel_Corpus 是 Projecte Aina 发布的数据集,于 2024-10-02 首发在 HuggingFace 应用于 机器翻译、低资源语言翻译 领域

Projecte Aina 本次发布的数据集 ES-OC_Parallel_Corpus, ES-OC平行语料库是一个旨在支持西班牙语和阿拉尼斯语(一种在西班牙瓦尔达兰地区使用的奥克西坦语变体)之间机器翻译任务的数据集。该数据集包含西班牙语和阿拉尼斯语的平行句子,主要通过基于规则的翻译工具Apertium生成,包括从阿拉尼斯语的PILAR单语数据集生成的合成西班牙语,以及通过翻译OPUS中的西班牙语-阿拉尼斯语对生成的合成阿拉尼斯语。数据集以txt和parquet格式提供,每行parquet文件代表一对平行句子。该数据集旨在促进西班牙语和阿拉尼斯语之间的机器翻译发展,并作为WMT24共享任务的一部分,专注于低资源语言的翻译。

查看ES-OC_Parallel_Corpus

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 Projecte Aina , Projecte Aina是一个致力于推动人工智能技术研究和应用的组织。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们