首页 / 开源数据市场 / 正文

北京航空航天大学发布 Honey-Data-15M 数据集, 应用在自然语言处理、机器学习领域

五号数据雷达开源数据市场2025-10-17 09:4651

Honey-Data-15M 是北京航空航天大学发布的数据集,于 2025-10-16 首发在 arXiv 应用于自然语言处理、机器学习领域

北京航空航天大学本次发布的数据集 Honey-Data-15M, Honey-Data-15M 是一个包含大约 1500 万个问答对的新 SFT 数据集，经过多种清理技术处理，并通过一种新颖的双层（短和长）CoT 增强策略进行增强。数据集的构建遵循两个核心原则：一是进行综合的数据精炼过程，从各种项目中收集并仔细清理语料库，以消除广泛的数据噪声，从而显著提高整体数据质量和可靠性；二是实施了一种微妙的、双层的 CoT 增强策略，根据指令的复杂性定制响应深度。对于需要适度推理的指令，我们构建了短 CoT 响应，创建了一个包含 1220 万个指令-响应对的庞大语料库。对于最复杂的指令，我们生成了详细的长期 CoT 响应，产生了一个高质量的 270 万对。这种有针对性的、双层的策略在整个数据集中提供了定制的推理深度，并从根本上解决了识别哪些指令需要更详细、多步解决方案的关键挑战。Honey-Data-15M 是使用我们的数据管道 HoneyPipe 创建的，它是我们自开发的数据精炼框架 DataStudio 的一个实例。该管道利用 MLLMs 自动化整个精炼工作流程，从清理到增强。作为昂贵的人工注释的替代方案，这种以模型为导向的过程使开源社区能够构建高质量的数据。为了验证我们精炼的 Honey-Data-15M 的有效性，我们还为完全开源的 MLLM 生态系统贡献了一个新模型。使用完整 Honey-Data-15M 数据集训练的最终模型 Bee-8B 在完全开源的 MLLMs 中建立了新的最先进水平 (SOTA)，其性能非常高，与 InternVL3.5-8B 等最近的一些半开源模型相当，并在某些情况下超过了它们。这一重大飞跃直接归因于我们的数据精炼策略。一项全面的消融研究表明，与使用原始、未处理的数据相比，我们的精炼过程在多个基准测试中产生了显著的改进。这些结果证实，我们专注于数据质量是缩小完全开源的 MLLMs 与最近半开源模型之间性能差距的关键策略。

查看Honey-Data-15M

关于北京航空航天大学 , 北京航空航天大学（Beihang University）成立于1952年，是中国一所综合性、研究型大学，位于北京市。学校以工为主，工、理、管、文、法、经、教育、艺术等多学科协调发展，是中国教育部直属的全国重点大学之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

北京航空航天大学 发布 Honey-Data-15M 数据集, 应用在 自然语言处理、机器学习 领域

社区讨论

北京航空航天大学发布 Honey-Data-15M 数据集, 应用在自然语言处理、机器学习领域