five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

CausalLM发布Kingfall-Roleplay多语言角色扮演数据集 填补大模型角色一致性训练语料缺口

五号数据雷达开源数据市场2026-05-29 05:0011
2026年5月28日,大模型研发机构CausalLM在HuggingFace首发Kingfall-Roleplay合成对话数据集,包含1万条经多轮筛选优化的多语言角色扮演对话样本,可广泛用于角色扮演对话系统训练、大模型角色一致性建模、叙事生成能力评测等方向,为生成式AI沉浸式交互场景落地提供高质量合规语料支撑。

随着生成式AI交互场景向垂直化、沉浸式方向快速演进,角色扮演类AI应用(包括虚拟陪伴、ACG衍生角色互动、开放世界游戏智能NPC、AI剧本杀主持等)已成为C端AI产品的重要增长赛道,但该领域研发长期面临核心痛点:现有训练语料普遍存在角色设定一致性不足、对话逻辑脱离原作背景、版权与合规风险突出等问题,直接制约了相关产品的体验上限。正是瞄准这一行业需求,大模型研发机构CausalLM正式公开发布Kingfall-Roleplay数据集。作为Gemini Kingfall模型生成的大规模语料库的预览子集,该数据集是专门面向角色扮演任务打造的合成对话语料,本次开放的版本共包含10000条经过多轮改写和人工筛选的对话样本,既能够直观展示Kingfall模型在角色理解、世界知识调用、长叙事生成等维度的技术能力,同时研发团队还通过专项技术处理降低了数据溯源风险,所有语料均在Kingfall模型可用窗口期内通过Gemini API在欧洲经济区(EEA)批量生成,全程符合相关数据使用条款要求,解决了AI训练语料的核心合规隐患。
从数据集构建逻辑来看,所有对话均围绕小说、影视等大众文化作品中的经典虚构角色展开,入选角色均来自Kingfall模型知识蒸馏任务中表现优异的样本库,研发团队严格遵循原作品的人物设定、角色关系与世界观背景,为每对交互角色生成了双向对话内容,后续还经过多轮后处理优化,大幅提升了对话的逻辑相关性、上下文一致性以及角色人格特征的稳定度。数据存储格式采用对话列表结构,包含交替出现的Human和Assistant两类消息:Human消息负责发起或推进角色扮演场景,Assistant消息则严格遵循标准化系统提示要求,首轮回复会先清晰明确双方角色的性格特征、当前场景的背景设定,再输出符合角色身份的开场台词与动作描述,后续交互全程保持角色设定不偏移。目前该数据集已支持英语、中文、日语、德语四种主流语言,可覆盖多地区的相关研发需求。
从应用价值来看,Kingfall-Roleplay主要面向大模型研发团队、AI交互产品开发商等主体,可用于训练或优化沉浸式角色扮演对话系统,也可作为基准数据集评测大模型在角色扮演、人物一致性保持、长叙事生成等任务上的表现。其典型应用场景涵盖多个热门赛道:在ACG产业可用于虚拟偶像、官方衍生角色的对话系统训练,大幅降低角色OOC(脱离设定)的概率;在游戏行业可作为开放世界RPG、互动叙事类游戏的智能NPC交互语料参考,提升玩家的沉浸式体验;在AI服务领域可支撑心理陪伴类AI、定制化虚拟助理的人格一致性建模;同时也可作为通用大模型角色扮演能力的标准化评测工具,帮助研发团队定位模型能力短板。作为预览版本,本次发布的数据集已为行业提供了高质量的研究样例,CausalLM透露其完整版本及更多衍生数据集或将在后续陆续推出。

查看Kingfall-Roleplay

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们