MiroMind Team本次发布的数据集MiroEval,MiroEval是由MiroMind团队开发的多模态深度研究代理评估基准,包含100个任务(70个纯文本和30个多模态),旨在解决现有评估方法在覆盖范围、真实性和时效性方面的不足。数据集通过双路径管道构建,结合了真实用户查询模式和实时网络趋势,支持定期更新以保持时效性。该数据集应用于评估深度研究系统在多维度上的性能,包括合成质量、事实准确性和研究过程严谨性,特别适用于金融、医疗和法律分析等高风险领域。
README内容:
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)