首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】OlympiadBench - 奥林匹克级别的双语、多模态的科学评测集

五号雷达开源数据市场2024-03-08 16:5051

该评测集涵盖了8952道数学与物理题目，源自国际及中国奥林匹克竞赛、高考及模拟试题。

清华大学携手北京航空航天大学及曲一线智能出版中心，共同推出了OlympiadBench，一个 Olympiad-level 的双语、多模态的科学评测集。该评测集涵盖了8952道数学与物理题目，源自国际及中国奥林匹克竞赛、高考及模拟试题。研究人员通过Mathpix软件，将官方奥赛PDF文档转换为Markdown格式，并经过仔细校对、去重，标注了答案类型与关键信息，确保数据集的准确性。评测结果显示，当下最好的多模态模型 GPT-4V 在 OlympiadBench 上仅达到了 17.23%。此评测集旨在建立一个代表人类智力成就顶峰的基准，从而鼓励研究人员推动大模型的数学和物理推理能力的边界。

数据集地址: https://github.com/OpenBMB/OlympiadBench

社区讨论

近期热门