莱顿大学 本次发布的数据集 BLADE, BLADE是一个模块化和可扩展的基准测试框架,旨在评估由大型语言模型(LLM)驱动的自动算法发现(AAD)方法。该框架集成了多个基准问题(包括MA-BBOB和SBOX-COST等)的集合,旨在进行能力导向的测试,例如泛化、专业化和信息利用。BLADE提供了灵活的实验设置选项,标准化日志记录以确保可重复性和公平比较,并包含用于分析AAD过程的方法(例如代码演化图和多种可视化方法),并通过与IOHanalyser和IOHexplainer等现有工具的集成,便于与人工设计的基线进行比较。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)