five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

浙大NLP实验室(ZJUNLP)首发BeliefTrackDataset数据集 破解大模型多轮对话一致性痛点

五号数据雷达开源数据市场2026-05-30 07:1013
浙江大学自然语言处理实验室(ZJUNLP)于2026年5月29日在HuggingFace平台首发BeliefTrackDataset基准数据集,该数据集面向多轮语言模型交互的上下文信念管理场景打造,将为信念状态追踪、对话系统推理能力的评测与研发提供标准化数据支撑。

随着大模型在任务型对话、智能客服、多智能体协作等场景的落地加速,多轮交互中的上下文信息一致性、信念状态动态维护能力,已经成为制约大模型交互体验提升的核心瓶颈。过往大量落地案例显示,大模型在多轮对话中频繁出现遗忘用户前置需求、前后回答矛盾等问题,本质上是模型的上下文信念管理(CBM)能力不足所致,但行业长期缺乏标准化的基准数据集对该能力进行统一评测,也为相关技术的迭代和对齐带来了阻碍。

作为国内自然语言处理领域的顶尖研究机构,浙江大学自然语言处理实验室(ZJUNLP)本次发布的BeliefTrackDataset,是国内首个面向封闭世界场景的上下文信念管理专用基准数据集。该数据集旨在评估模型在对话或交互过程中,如何根据不断出现的正式证据,动态地维护和管理一组与之保持一致的假设(信念)。每个数据示例都要求模型在给定上下文和形式证据的条件下,追踪并更新哪些假设是仍然成立的,精准还原了真实交互场景中信息动态迭代的特征。

本次发布的BeliefTrackDataset共包含四个不同的配置(task_a_7b, task_a_9b, task_b_7b, task_b_9b),每个配置下均提供了训练集(train)和测试集(test)的JSON格式文件,可直接适配各类文本生成任务的训练与评测需求,特别适合需要模型进行逻辑推理、信念状态追踪和一致性维护的研究与应用场景。查看BeliefTrackDataset

从行业应用价值来看,该数据集的落地场景十分清晰:一方面可作为大模型厂商的标准化评测工具,量化评估模型的多轮对话一致性能力,为模型迭代优化提供明确的对齐目标;另一方面也可为对话系统研发方提供训练数据支撑,助力智能政务客服、电商导购、慢病管理问诊机器人等对交互准确性要求极高的场景优化体验,避免因信息前后矛盾带来的服务纠纷。此外,该数据集也可用于多智能体协作场景的相关研究,为多模型交互中的信念同步机制研发提供数据基础。作为AI数据要素市场中的垂直领域高质量基准数据,本次BeliefTrackDataset的发布也将进一步完善国内对话系统领域的数据集供给体系,推动大模型交互能力的标准化评估体系建设,加速相关技术从实验室研究到产业落地的转化进程。

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们