five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】French Instruct - 法语指令数据集

五号雷达开源数据市场2024-03-05 16:3938
该数据集用于训练和评估大型模型的对话能力,同时也可用于区分人类写作文本和生成文本。

French Instruct是一组完全以法语编写的指令及其对应回答的数据集,包括多轮对话。数据集由27.6万个用户与助手之间的对话组成,Tokens总数约8500万个。数据来源多样,部分通过ChatGPT API从英语翻译成法语,并经过清理和过滤,去除了无关数据,如重复项、空白对话、残留的英语文本。每个文档均添加了注释,包括生成或人工编写、答案风格和是否包含代码等信息,便于按需筛选。该数据集用于训练和评估大型模型的对话能力,同时也可用于区分人类写作文本和生成文本。

数据集地址:
https://github.com/angeluriot/French_instruct
https://huggingface.co/datasets/angeluriot/french_instruct
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们