five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

北京航空航天大学 发布 Honey-Data-15M 数据集, 应用在 自然语言处理、机器学习 领域

五号数据雷达开源数据市场2025-10-17 09:4651
Honey-Data-15M 是 北京航空航天大学 发布的数据集,于 2025-10-16 首发在 arXiv 应用于 自然语言处理、机器学习 领域

北京航空航天大学 本次发布的数据集 Honey-Data-15M, Honey-Data-15M 是一个包含大约 1500 万个问答对的新 SFT 数据集,经过多种清理技术处理,并通过一种新颖的双层(短和长)CoT 增强策略进行增强。数据集的构建遵循两个核心原则:一是进行综合的数据精炼过程,从各种项目中收集并仔细清理语料库,以消除广泛的数据噪声,从而显著提高整体数据质量和可靠性;二是实施了一种微妙的、双层的 CoT 增强策略,根据指令的复杂性定制响应深度。对于需要适度推理的指令,我们构建了短 CoT 响应,创建了一个包含 1220 万个指令-响应对的庞大语料库。对于最复杂的指令,我们生成了详细的长期 CoT 响应,产生了一个高质量的 270 万对。这种有针对性的、双层的策略在整个数据集中提供了定制的推理深度,并从根本上解决了识别哪些指令需要更详细、多步解决方案的关键挑战。Honey-Data-15M 是使用我们的数据管道 HoneyPipe 创建的,它是我们自开发的数据精炼框架 DataStudio 的一个实例。该管道利用 MLLMs 自动化整个精炼工作流程,从清理到增强。作为昂贵的人工注释的替代方案,这种以模型为导向的过程使开源社区能够构建高质量的数据。为了验证我们精炼的 Honey-Data-15M 的有效性,我们还为完全开源的 MLLM 生态系统贡献了一个新模型。使用完整 Honey-Data-15M 数据集训练的最终模型 Bee-8B 在完全开源的 MLLMs 中建立了新的最先进水平 (SOTA),其性能非常高,与 InternVL3.5-8B 等最近的一些半开源模型相当,并在某些情况下超过了它们。这一重大飞跃直接归因于我们的数据精炼策略。一项全面的消融研究表明,与使用原始、未处理的数据相比,我们的精炼过程在多个基准测试中产生了显著的改进。这些结果证实,我们专注于数据质量是缩小完全开源的 MLLMs 与最近半开源模型之间性能差距的关键策略。

查看Honey-Data-15M

关于 北京航空航天大学 , 北京航空航天大学(Beihang University)成立于1952年,是中国一所综合性、研究型大学,位于北京市。学校以工为主,工、理、管、文、法、经、教育、艺术等多学科协调发展,是中国教育部直属的全国重点大学之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们