five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

上海交大联合发布SkillGenBench基准数据集 破解大模型技能蒸馏与智能体能力评估难题

五号数据雷达开源数据市场2026-05-20 05:5438
2026年5月19日,上海交通大学联合QuantaAlpha等机构首发SkillGenBench基准数据集,可系统性评估大模型从复杂语料中蒸馏可复用技能的能力,为智能体技能生成领域提供标准化评估标尺,填补了相关领域的工具空白。

近年来,随着大语言模型向垂直场景深度落地,智能体系统成为人工智能领域的核心研发赛道之一,而如何让大模型从复杂的原始语料、开源代码库、行业专业文档中自动蒸馏出可部署、可跨场景复用的标准化技能,成为制约智能体商业化落地的核心瓶颈。长期以来,行业缺乏统一的基准数据集对大模型的技能蒸馏能力、智能体的技能生成效果进行量化评估,相关研发工作的效率与横向可比性受到较大限制。2026年5月19日,上海交通大学联合QuantaAlpha等机构共同构建的SkillGenBench基准数据集正式首发于学术预印本平台arXiv,瞄准技能蒸馏评估、智能体技能生成两大核心领域的评估需求,填补了相关领域的基准工具空白。

查看SkillGenBench

据介绍,SkillGenBench是国内首个专门面向大模型技能蒸馏能力评估的基准数据集,共包含187个经过严格筛选的任务实例,覆盖代码仓库、长文本文档两大主流知识来源,所有数据均通过知识图谱构建、场景生成、多阶段验证的标准化流程筛选产出。其构建逻辑重点突出“从分布式代码结构、分散文本约束中提取程序性知识、封装为标准化技能工件”的核心评估目标,可针对性衡量大模型在任务条件生成、任务不可知生成两种主流机制下的程序蒸馏效果与跨任务复用效能,解决了此前技能生成管道无法作为独立研究模块开展标准化评估的行业痛点。

从行业应用来看,SkillGenBench的落地将为多个AI研发场景提供标准化的评估工具:在大模型技能蒸馏研发环节,研发团队可借助该数据集量化测试模型从开源代码库、行业技术手册、企业内部文档中提取可部署技能的准确率、鲁棒性与复用率,有效降低金融、制造、医疗等领域行业大模型的落地适配成本;在智能体系统研发环节,该数据集可用于评估通用智能体、行业专用智能体的自主技能生成能力,支撑办公智能体、工业运维智能体、代码开发智能体等垂直产品的能力迭代,加速智能体产品从实验室走向商用场景。

作为面向AI能力评估的专用高价值数据资产,SkillGenBench的发布也是我国数据要素市场中垂直领域专用数据集供给不断完善的典型代表,对统一智能体技能评估标准、加快通用人工智能技术落地、推动数字经济核心产业创新都具有积极的行业意义。

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们