新加坡科技研究局本次发布的数据集CoMMET,CoMMET是由新加坡科技研究局牵头构建的多模态心理理论评估基准数据集,包含591个故事化交互单元(StoryTurns),涵盖欲望、信念、道德推理等7类心理状态。该数据集基于心理学经典ToM手册任务扩展而成,通过1973个问答对和826张配图构建多轮对话场景,采用Gemini 3.0 Pro生成初始数据并经人工校验。作为首个支持多轮交互式评估的基准,其核心价值在于全面测试大语言模型在真实社交场景中的心智推理能力,推动可信人机交互系统发展。
关于新加坡科技研究局,新加坡科技研究局(A*STAR)是新加坡领先的科技研发机构,致力于推动科学研究和科技创新,涵盖多个领域包括高性能计算、人工智能、生物医药等。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)