CAMEL-AI.org 本次发布的数据集 LOONGBENCH, LOONGBENCH是一个高质量的基础数据集,包含8,729个例子,覆盖12个推理密集型领域,每个例子都配以可执行代码和语义验证的答案。这些种子数据确保了领域特定模式的覆盖,同时保持了正确性和多样性,为下游的合成数据生成和推理能力增强提供了可靠的基础。LOONGENV是一个灵活且可扩展的合成数据生成环境,它采用LOONGBENCH的种子例子,并使用各种策略生成新的问答对。LOONGBENCH和LOONGENV共同构成了一个能够在大规模上实现强化学习的代理-环境循环,其中基于LLM的代理因其生成的思维链解决方案与代码执行的答案一致而获得奖励。
README 内容:
关于 CAMEL-AI.org , CAMEL-AI.org是一个专注于构建大规模语言模型驱动多智能体框架的开创性项目。_simple
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)