摩尔线程为大规模AI训练提供稳定保障

2025-8-1 11:27| 发布者: admin| 查看: 35012| 评论: 0|原作者: 姬晓婷|来自: 中国电子报

摘要: 7月25日，摩尔线程在世界人工智能大会（WAIC 2025）开幕前夕举行技术分享会。会上，摩尔线程创始人兼CEO张建中表示，将以系统级技术创新与工程化能力打造用于生产智能的“AI工厂”。在他看来，“AI工厂”，如同芯片晶 ...

何以实现高效节点、集群算力？

软件生态被视为芯片企业的“护城河”。摩尔线程着力建设的MUSA软件栈正成为其全功能GPU性能发挥的有力支撑。

基于推理场景对Kernel延时敏感的现状，MUSA的驱动和运行时库，能够帮助用户实现Kernel launch开销缩减：通过软硬协同，核函数启动延迟降低至业界平均水平的50%；近千次的计算和通信任务下发开销，由近千次优化为单次，GPU等待时间大大缩减；借助引擎间依赖解析技术，任务流之间的依赖解析延时可大幅降低至1.5μs，优于业界头部算力卡。

为大规模AI训练提供稳定了保障

算子库的效率直接关乎分布式集群的训练效率。

当前，MUSA能够提供三大算子库：极致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine开源推理算子库。

其中，muDNN是一款极致性能的开箱即用标准算子库，完整覆盖常见的前向和反向算子。能够支持完整的XMMA，支持Tensor Core全精度及所有量化模式，以及常用的神经网络算子操作。当前，业内算子矩阵乘法的效率大部分可以做到90%以上，摩尔线程muDNN矩阵乘法算子效率可达到98%。国际一流厂商Flash Attention算子效率约为75%，而muDNN的Flash Attention能够达到95%。

MUTLASS高性能的线性代数模板库，可极大降低在MUSA环境中自定义算子的开发工作量，相当于提供了一个可供二次开发的模板。当前MUTLASS已在Github上开源，支持平湖架构所有特性，同时提供高性能矩阵乘法、卷积算子实现，在Kernel中调用模板库就可以进行二次开发。

此外，摩尔线程即将发布的面向大语言模型的开源推理算子库MUSA AI Tensor Engine，能够帮助开发者快速搭建自定义推理引擎。该算子库提供用户友好的Python API，进一步降低开发者使用门槛，只要会Python就可以调用。

大模型训练动辄需要调动几千张甚至几万张算力卡资源。要实现模型的高效训练，不仅单卡性能要高，还需要有强大的集群管理和调度能力。

摩尔线程自研的夸娥（KUAE）计算集群，集成了计算集群、软件平台、管理系统、优化系统以及维护和服务等一系列流程。整合数据、模型、张量、流水线和专家并行技术，全面支持Transformer等主流架构；支持端到端的模型训练，能够实现对混合专家模型、自动驾驶模型、视频生成模型、具身智能模型等多种类模型的全面支持。

在构建高效集群的基础上，稳定可靠的运行环境是“AI工厂”持续产出的保障。在万卡级AI集群中，硬件故障导致的训练中断会严重浪费算力，甚至会导致训练团队几个月的努力付诸东流。

为此，摩尔线程推出零中断容错技术，故障发生时仅隔离受影响节点组，其余节点继续训练，备机无缝接入，全程无中断。这一方案使KUAE集群有效训练时间占比超99%，大幅降低恢复开销。同时，KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断，将异常处理效率提升50%；结合集群巡检与起飞检查，训练成功率提高10%，为大规模AI训练提供稳定了保障。