何以实现高效节点、集群算力? 软件生态被视为芯片企业的“护城河”。摩尔线程着力建设的MUSA软件栈正成为其全功能GPU性能发挥的有力支撑。 基于推理场景对Kernel延时敏感的现状,MUSA的驱动和运行时库,能够帮助用户实现Kernel launch开销缩减:通过软硬协同,核函数启动延迟降低至业界平均水平的50%;近千次的计算和通信任务下发开销,由近千次优化为单次,GPU等待时间大大缩减;借助引擎间依赖解析技术,任务流之间的依赖解析延时可大幅降低至1.5μs,优于业界头部算力卡。 为大规模AI训练提供稳定了保障 算子库的效率直接关乎分布式集群的训练效率。 当前,MUSA能够提供三大算子库:极致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine开源推理算子库。 其中,muDNN是一款极致性能的开箱即用标准算子库,完整覆盖常见的前向和反向算子。能够支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神经网络算子操作。当前,业内算子矩阵乘法的效率大部分可以做到90%以上,摩尔线程muDNN矩阵乘法算子效率可达到98%。国际一流厂商Flash Attention算子效率约为75%,而muDNN的Flash Attention能够达到95%。 MUTLASS高性能的线性代数模板库,可极大降低在MUSA环境中自定义算子的开发工作量,相当于提供了一个可供二次开发的模板。当前MUTLASS已在Github上开源,支持平湖架构所有特性,同时提供高性能矩阵乘法、卷积算子实现,在Kernel中调用模板库就可以进行二次开发。 此外,摩尔线程即将发布的面向大语言模型的开源推理算子库MUSA AI Tensor Engine,能够帮助开发者快速搭建自定义推理引擎。该算子库提供用户友好的Python API,进一步降低开发者使用门槛,只要会Python就可以调用。 大模型训练动辄需要调动几千张甚至几万张算力卡资源。要实现模型的高效训练,不仅单卡性能要高,还需要有强大的集群管理和调度能力。 摩尔线程自研的夸娥(KUAE)计算集群,集成了计算集群、软件平台、管理系统、优化系统以及维护和服务等一系列流程。整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构;支持端到端的模型训练,能够实现对混合专家模型、自动驾驶模型、视频生成模型、具身智能模型等多种类模型的全面支持。 在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力,甚至会导致训练团队几个月的努力付诸东流。 为此,摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,将异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定了保障。
|
GMT+8, 2025-8-2 16:06 , Processed in 0.029540 second(s), 16 queries .
Powered by Discuz! X2
© 2001-2011 Comsenz Inc.