清华大学携手北京航空航天大学及曲一线智能出版中心,共同推出了OlympiadBench,一个 Olympiad-level 的双语、多模态的科学评测集。该评测集涵盖了8952道数学与物理题目,源自国际及中国奥林匹克竞赛、高考及模拟试题。研究人员通过Mathpix软件,将官方奥赛PDF文档转换为Markdown格式,并经过仔细校对、去重,标注了答案类型与关键信息,确保数据集的准确性。评测结果显示,当下最好的多模态模型 GPT-4V 在 OlympiadBench 上仅达到了 17.23%。 此评测集旨在建立一个代表人类智力成就顶峰的基准,从而鼓励研究人员推动大模型的数学和物理推理能力的边界。





_1769672084863.jpg)