five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

HiTZ zentroa 发布 EusParallel 数据集, 应用在 机器翻译、自然语言处理 领域

五号数据雷达开源数据市场2024-12-13 05:0221
EusParallel 是 HiTZ zentroa 发布的数据集,于 2024-10-30 首发在 HuggingFace 应用于 机器翻译、自然语言处理 领域

HiTZ zentroa 本次发布的数据集 EusParallel, EusParallel是一个包含英语、西班牙语和巴斯克语的多平行文档级语料库。巴斯克语文档由人工编写,而英语和西班牙语文本则是通过机器翻译从巴斯克语翻译而来,使用了`meta-llama/Meta-Llama-3-70B-Instruct`模型。该语料库旨在训练高质量的机器翻译模型,能够将文档从英语和西班牙语翻译成巴斯克语。文档长度在10到4096个token之间,使用了`meta-llama/Meta-Llama-3-70B-Instruct`的tokenizer进行计算。翻译过程中使用了特定的提示和超参数设置,并在8个A100 80GB GPU上使用vLLM推理引擎进行计算。

查看EusParallel

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 HiTZ zentroa , HiTZ zentroa是一家专注于人工智能和自然语言处理的研究机构。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们