首页 / 开源数据市场 / 正文

LINAGORA Labs 发布 Claire French Dialogue Dataset 数据集, 应用在自然语言处理、语言模型领域

五号数据雷达开源数据市场2025-10-06 11:3723

Claire French Dialogue Dataset 是 LINAGORA Labs 发布的数据集,于 2025-10-06 首发在 arXiv 应用于自然语言处理、语言模型领域

LINAGORA Labs 本次发布的数据集 Claire French Dialogue Dataset, 该数据集名为CFDD，包含了大约1,600万词汇，这些词汇来源于法语对话和舞台剧剧本的转录文本。该数据集的构建旨在推动多语种、开源语言模型的发展。该数据集由24个独立语料库组成，这些语料库被细分为八个子类别，主要关注对话内容。其规模大约为1,600万单词，所承担的任务是开发多语种、开源的语言模型。

查看Claire French Dialogue Dataset

Dataset card 内容：

Files and versions 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

LINAGORA Labs 发布 Claire French Dialogue Dataset 数据集, 应用在 自然语言处理、语言模型 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

LINAGORA Labs 发布 Claire French Dialogue Dataset 数据集, 应用在自然语言处理、语言模型领域