北京大学 本次发布的数据集 FINMME, FINMME是一个包含超过11,000个高质量金融研究样本的多模态数据集,涵盖了18个金融领域和6种资产类别,包括10种主要图表类型和21个子类型。数据集的质量通过20名标注者和精心设计的验证机制得到保证。此外,我们还开发了FinScore评估系统,该系统结合了幻觉惩罚和多维度能力评估,以提供无偏见的评估。实验结果表明,即使是像GPT-4o这样的最先进的模型在FINMME上的表现也不令人满意,突出了其挑战性。基准测试表现出高鲁棒性,在不同提示下的预测变化率保持在1%以下,与现有数据集相比表现出卓越的可靠性。我们的数据集和评估协议可在https://github.com/luo-junyu/FinMME获得。
Dataset card 内容:
Files and versions 内容:
关于 北京大学 , 北京大学是中国著名的综合性研究型大学,位于北京,是中国最早成立的现代大学之一,拥有多个国家重点实验室,涵盖了广泛的学科领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)