随着大语言模型技术迭代提速,其在真实落地场景中的推理可靠性、与人类认知习惯的对齐水平,已成为产业界与科研界共同关注的核心命题。当前,不少大模型在处理复杂语境任务时,常会出现严格遵循显式指令、却忽略语境中微妙但关键的隐式因果线索的「无意视盲」问题,直接导致模型输出结果偏离实际需求,而此前行业内缺乏专门针对显式-隐式信息整合推理能力的标准化测评基准,极大制约了相关研究的推进效率。2026年5月20日,电子科技大学深圳高等研究院正式在arXiv首发MixRea基准数据集,为上述痛点提供了系统化的评估解决方案。
据介绍,MixRea是专门用于评估大语言模型在显式-隐式推理任务中表现的基准数据集,共包含2246个多项选择题,覆盖9种推理类型,其中涉及1554个显式问题、1391个隐式问题,所有题目基于673个独特故事语境构建,每个语境平均设置3.34个推理示例,可实现对模型推理能力的多维度交叉验证。在数据集构建层面,研发团队以Possible Stories数据集为基础,通过GPT-4o辅助将隐式问题线索自然融入原始语境,同时设计四种差异化选项类型,可系统评估大模型对显式、隐式信息的整合处理能力。
该数据集目前主要面向认知对齐研究领域开放使用,可帮助科研人员量化分析大模型的「无意视盲」发生规律,进而为研发更具鲁棒性的多源信息推理模型提供数据支撑。从应用场景来看,MixRea可覆盖大模型研发全流程的能力验证环节:在预训练与微调阶段,研发团队可依托该数据集快速定位模型在隐式信息感知上的短板,针对性优化模型架构;在落地适配阶段,可通过该数据集的测评结果验证模型在复杂场景下的可靠性。未来,解决了显隐信息整合痛点的大模型,可在智能客户服务、司法案情分析、医疗辅助诊断、智慧城市事件研判等诸多需要处理复杂语境信息的场景中发挥更大价值。作为国内科研机构产出的高质量AI测评类数据集,MixRea的发布也为我国数据要素市场中AI基础数据集的供给体系提供了有益补充,对推动大模型评估体系标准化、加速大模型产业落地进程具有重要意义。
首页 / 开源数据市场 / 正文
电子科技大学发布MixRea基准数据集 为大语言模型推理评估、认知对齐研究提供标准化标尺
五号数据雷达开源数据市场2026-05-21 05:3813
电子科技大学深圳高等研究院于2026年5月20日在arXiv首发MixRea基准数据集,该数据集专门针对大语言模型显式-隐式信息整合推理能力测评设计,可广泛应用于大模型认知对齐、鲁棒性提升等研究领域,填补了现有推理类数据集的相关评估空白。

社区讨论
近期热门




_1769672084863.jpg)