近年来,AI for Science(人工智能驱动科学发现)已成为全球科技领域的核心增长赛道,随着大语言模型在数学证明、分子动力学模拟、新材料研发等场景的落地应用逐步加速,学界对于“AI能否自主推断未知物理规律”的探索需求持续提升。但长期以来,行业缺乏一套可控、标准化的基准测试工具,来系统性评估大模型在非标准、非常规物理场景下的推理与发现能力,这一瓶颈也制约了AI与基础物理交叉研究的规模化推进。
针对这一行业痛点,普林斯顿大学联合多家研究机构构建的交互式基准数据集DISCOVERPHYSICS于2026年5月26日正式首发于arXiv平台。该数据集的核心定位是评估大型语言模型在非标准物理世界中的科学发现能力,共包含22个精心设计的模拟世界,每个世界通过N体模拟器动态生成粒子轨迹数据,数据规模灵活可调,涵盖短程指数屏蔽力、分数阶拉普拉斯算子及隐藏粒子物种等多样化物理定律。不同于传统静态科研数据集,DISCOVERPHYSICS的创建过程基于可控的仿真环境,允许智能体主动设计实验并观察原始轨迹,以迭代方式推断底层物理规律,更贴近真实科研探索的交互逻辑。
从应用价值来看,该数据集主要面向人工智能与科学发现交叉领域,可用于解决大模型从噪声观测中识别相关特征、构建机制模型并最终发现非常规运动方程的核心挑战,从而推动对模型长程推理与概念理解能力的深入测评。除此之外,该数据集的潜在典型应用场景还包括:为通用人工智能的认知能力评估提供物理场景下的测试标尺、为AI辅助暗物质等未知物理规律探索提供预训练与测试底座、为基础物理数字化教学工具及AI科研助手的开发提供训练数据支撑等,可覆盖基础科研、教育、AI技术测评等多个领域的需求。
作为基础科研领域的核心数据要素,DISCOVERPHYSICS的发布不仅填补了AI物理规律推断领域的基准工具空白,也为科研数据的开放共享、跨领域复用提供了参考样本,进一步推动AI for Science赛道的标准化、规范化发展,加速基础物理研究的数字化转型进程。





_1769672084863.jpg)