随着大模型向产业决策场景加速渗透,传统静态评测数据集已难以适配金融交易、动态调度、赛事预测等非静态环境的能力验证需求——这类场景要求AI具备持续消化动态变量、控制周期风险、实现长期目标的序列决策能力,而行业长期缺乏统一的公开评测基准,成为制约决策类大模型落地的核心瓶颈之一。
2026年4月30日,通用推理公司在arXiv平台首发的KellyBench数据集,正是瞄准这一行业痛点推出的专项评测工具。作为通用推理开发的开放式非静态环境数据集,KellyBench核心定位为评估语言模型在体育博彩等动态市场中的长期序列决策能力,所有底层数据均来自2023-24赛季英超联赛的真实公开信息,覆盖100-150个完整比赛日,囊括历史赛事记录、高阶技术统计、球队阵容变动、实时市场赔率等多维度时序数据。
该数据集严格遵循Open Reward Standard协议构建,全量数据附带精准时间戳标识,可支持研究人员开展离线时序决策模拟、奖励机制优化等多维度研究,无需依赖实时市场接口即可完成模型能力验证,大幅降低决策类大模型的前期研发成本。
从应用方向来看,KellyBench首先可直接服务于体育博彩决策领域的AI研发:这类场景要求模型在赛程推进过程中持续整合伤病、阵容、市场情绪等动态变量,识别被低估的投注机会,同时控制单场投注仓位、规避极端风险,最终实现长期资本增值,与量化投资、高频交易等金融决策场景的核心逻辑高度一致,因此该数据集也可作为金融决策类大模型的前置评测工具,降低真实市场环境中的测试风险与成本。除此之外,其“非静态环境+长期目标导向”的构建逻辑,也可为交通动态调度、能源网络负荷调节、供应链库存优化等更多长期序列决策场景的数据集研发提供参考范式。
通用推理公布的首轮测试数据显示,当前全球主流前沿大模型在KellyBench的模拟测试中平均亏损达到8%,这一结果直接印证了现有大模型在动态非静态环境下的优势识别、风险对冲、长期目标管理能力仍存在明显短板,也凸显了KellyBench作为行业评测基准的价值——统一的测试标准可帮助研发团队精准定位模型缺陷,加快决策类大模型的迭代效率,为AI在高风险动态决策场景的规模化落地筑牢基础。
通用推理公司本次发布的数据集KellyBench,KellyBench是由通用推理公司开发的开放式非静态环境数据集,旨在评估语言模型在体育博彩市场中的长期序列决策能力。该数据集基于2023-24赛季英超联赛的真实市场赔率,包含历史数据、高级统计、阵容和公开赔率等信息,数据量涵盖100-150个比赛日。数据集通过Open Reward Standard协议构建,提供时间戳信息以支持离线分析。其核心应用领域为金融决策和人工智能适应性测试,旨在解决模型在动态环境中识别市场优势、管理风险并实现长期资本增长的挑战。当前测试显示前沿模型平均亏损8%,表明该领域存在显著改进空间。





_1769672084863.jpg)