随着全球大模型产业进入规模化落地阶段,AI任务的算力需求持续攀升,作为衔接AI模型与底层硬件的核心枢纽,深度学习编译器的性能直接决定了大模型训练、推理的效率与成本。张量程序优化是深度学习编译器提升硬件适配性的核心环节,传统模式高度依赖专家人工调优,存在周期长、成本高、适配范围有限等痛点,近年来行业普遍探索用大语言模型(LLM)实现自动化张量程序优化,但始终缺乏可靠的步骤级监督数据,导致LLM的单步决策准确性低、优化过程可解释性差,成为制约该技术落地的核心瓶颈。
本次发布的Step-TP是三方联合打造的垂直领域专用后训练数据集,以LEIR中间表示为核心,首次为该领域提供了原子化、可验证的步骤级监督数据,同时融合了结构化思维链推理逻辑,覆盖了当前行业主流的多样化优化策略。在构建过程中,研发团队系统地将复杂优化轨迹分解为可组合的原子策略,通过专属的策略过滤机制平衡了数据覆盖范围与质量,有效避免了无效数据对模型训练的干扰。
Step-TP的发布直接瞄准了当前张量程序优化领域LLM缺乏可靠单步决策能力的核心痛点,可广泛应用于多个核心产业场景:一是深度学习编译器自动化优化,可基于该数据集训练专门的优化大模型,替代人工完成不同框架、不同硬件架构下的张量程序调优,大幅降低编译器研发的人力成本,缩短新硬件适配周期;二是GPU高效执行调度,针对云厂商GPU集群、智算中心的异构算力资源,优化后的张量程序可更好地匹配硬件性能,提升集群整体利用率,降低大模型训练与推理的能耗与单位成本;三是可解释AI性能工具开发,依托数据集的步骤级、可追溯的监督数据,开发者可快速定位AI任务的性能瓶颈,开发出白盒化的性能优化工具,打破传统优化方案的黑盒限制。
作为AI训练数据要素市场的稀缺垂直品类,面向底层算力优化的专业数据集供给不足始终是制约算力效率提升的核心短板,Step-TP的发布不仅填补了大语言模型驱动张量程序优化领域的高质量后训练数据空白,也为数据要素赋能AI底层技术创新提供了典型样本,将推动可解释、可扩展的自动化性能优化技术加速落地,为整个AI产业的降本增效与普惠化发展提供支撑。





_1769672084863.jpg)