five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】CantTalkAboutThis - 助力大模型保持话题专注度的数据集

五号雷达开源数据市场2024-04-19 14:2943
通过在该数据集上微调,大模型在遵循复杂对话指令方面的表现显著提升,同时在未见过的领域中也能更好地识别并避免离题的交互,此外,该数据集还有助于提高模型在零样本情境下的安全对齐性能。

CantTalkAboutThis是英伟达发布的一个旨在帮助语言模型在对话中保持话题专注度的数据集。该数据集包含1080个人工合成的对话,覆盖健康、银行、保险等多个领域,每个对话中均嵌入了使聊天机器人偏离预设话题的干扰项。数据集的创建过程包括三个步骤:首先,生成跨多种场景的话题跟踪提示;其次,使用类似于对话修复的技术创建遵循这些话题指令的对话;最后,在这些对话中整合干扰项,以测试模型在对话中保持话题的能力。通过在该数据集上微调,大模型在遵循复杂对话指令方面的表现显著提升,同时在未见过的领域中也能更好地识别并避免离题的交互,此外,该数据集还有助于提高模型在零样本情境下的安全对齐性能。

详情请参见五号雷达:https://www.5radar.com/result?key=CantTalkAboutThis

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们