NAVER LABS欧洲研究中心 本次发布的数据集 FrenchToxicityPrompts, FrenchToxicityPrompts是由NAVER LABS欧洲研究中心创建的一个包含50,000条自然发生的法语提示及其续写的数据集,旨在评估和缓解法语文本中的毒性问题。该数据集从Reddit的公共数据集中提取,经过Spacy分割成句子,并使用Perspective API进行毒性标注。数据集内容丰富,包含多种毒性级别,适用于研究大型语言模型在非英语环境下的毒性检测和缓解。创建过程中,采用了多语言版本的Detoxify分类器进行预筛选,确保数据的高召回率。该数据集的应用领域主要集中在提升法语环境下语言模型的安全性和减少毒性内容的生成。
关于 NAVER LABS欧洲研究中心 , NAVER LABS欧洲研究中心是NAVER LABS在欧洲设立的研究机构,专注于人工智能、机器学习和自然语言处理等领域的研究与开发。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)