随着多模态大模型技术的快速落地,智能客服、车载交互、数字人陪伴、企业级知识问答等场景对大模型长上下文跨模态记忆能力的要求持续提升——但此前行业长期缺乏标准化的长时多模态交互记忆评测基准,现有模型普遍存在长会话中视觉信息遗忘、跨模态推理准确度下降等痛点,制约了多模态大模型在长周期交互场景的商业化落地。
香港科技大学本次发布的数据集MEMLENS,是由香港科技大学等机构联合构建的综合性多模态长时会话记忆评测基准,旨在系统评估大视觉语言模型在长上下文多轮对话中的记忆能力。该数据集包含789个精心设计的问题,覆盖信息提取、多会话推理、时序推理、知识更新与答案拒绝五大核心记忆能力,并提供了32K至256K Tokens四种标准化上下文长度版本,其数据通过多阶段流程生成,确保问题解答必须依赖视觉证据与文本的跨模态联合推理,避免模型通过“猜题”获得虚高得分,评估结果具备更高的参考价值。
从应用价值来看,本数据集主要应用于推动长上下文注意力机制与结构化多模态检索相结合的混合架构研究,以解决现有模型在长时多模态交互中记忆退化与视觉保真度不足的挑战。对AI研发机构而言,MEMLENS可作为标准化测试集,为不同技术路线的大模型性能对比、迭代优化提供统一标尺;对产业端而言,该数据集可支撑多模态交互产品的性能验证:例如车载智能座舱可通过该数据集测试系统在数小时的长行程交互中,能否准确记忆用户此前上传的沿途照片、路牌信息等视觉内容;企业智能客服可借助该数据集验证系统能否在多轮沟通中始终匹配用户最初上传的故障图片、合同截图等信息;陪伴型数字人也可通过该基准评估长周期交互中对用户分享的图片、视频内容的记忆准确率。
作为AI基础数据资源的重要组成部分,MEMLENS的发布也填补了长上下文多模态评测领域的相关空白,为数据要素市场中AI评测数据集的品类完善提供了新的参考,有助于降低全行业的研发试错成本,加速多模态大模型的商业化落地进程。
首页 / 开源数据市场 / 正文
港科大发布MEMLENS多模态记忆评测数据集 填补长上下文大模型评估空白
五号数据雷达开源数据市场2026-05-16 05:3130
香港科技大学联合相关机构于2026年5月14日在预印本平台arXiv首发综合性多模态长时会话记忆评测基准数据集MEMLENS,可覆盖五大核心记忆能力维度的标准化评估,为长上下文视觉语言模型的技术迭代、性能校准提供权威参照,推动多模态大模型在复杂交互场景的落地应用。

社区讨论
近期热门




_1769672084863.jpg)