7月25日,摩尔线程在世界人工智能大会(WAIC 2025)开幕前夕举行技术分享会。会上,摩尔线程创始人兼CEO张建中表示,将以系统级技术创新与工程化能力打造用于生产智能的“AI工厂”。在他看来,“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。 AI工厂的生产效率取决于加速计算通用性、单芯片有效算力、单节点效率、集群效率、集群稳定性,这五大元素相互配合,缺一不可。与之相对应,摩尔线程以全功能GPU、MUSA架构、MUSA软件栈、KUAE集群、零中断五大技术,满足AI工厂对生产效率的要求。 为何要打造“AI工厂”? 全球前沿模型“智力”正迅猛增长。模型产业竞争激烈,迭代速度愈来愈快。全球代表性模型的迭代周期,从5—6个月逐渐缩减到1个月,甚至近期每周都有新的模型智能水平超越行业既有模型。以人类智力水平100分为标准,DeepSeek V3在2024年12月推出时,评分为46分;今年5月推出的DeepSeek R1,智力水平已经能够达到68分。在不到半年的时间内,DeepSeek智能水平提升了50%以上。 这种高频迭代不仅体现在大型语言模型(LLM)上,还同步扩展至多模态模型、语音模型、世界模型等前沿模型领域。这些模型在性能、效率和应用场景上实现的指数级突破,不仅推动了AI从专用领域向通用智能的跨越,其快速迭代的特性更对新一代高性能人工智能计算基础设施提出了迫切需求。 而训练具有高智能水平的模型,首先要算力足够高、效率足够高,才可以成为有效的算力。 张建中在主题演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程旨在通过系统级创新,将全功能GPU加速平台的强大潜能,转化为工程级的训练效率与可靠性,为AGI时代打造生产先进模型的“超级工厂”。 相较于海外行业头部企业代表,我国万卡以上算力集群搭建仍处于追赶状态。对于我国AI算力行业而言,部署规模更大、高效高可靠的大规模算力集群,仍是赢得国际竞争的重要技术路线。 何以提升单芯片有效算力? 算力芯片是AI工厂的技术基座。如果算力芯片不够通用、性能不够强,效率不够高,AI工厂的地基就不够牢。芯片运算效率高低取决于芯片架构、驱动性能、算子优化程度等多维因素。 在实际应用中,芯片算力很少能够达到理论峰值算力,实际运行算力与产品设计理论算力之间存在差值。而好的芯片架构,应该像一个优秀的管理者一样,通过调度使所有的资源“忙”起来。 记者注意到,摩尔线程正在以多种方式提升芯片实际应用算力。 MUSA(Meta-computing Unified System Architecture,即元计算统一架构)是摩尔线程自研架构,其核心理念是——要做多引擎可配置的统一系统架构。 首先是多引擎,体现在单颗GPU芯片上同时支持AI计算、图形渲染、物理仿真和科学计算、超高清编解码技术,目前国内只有以摩尔线程为代表的少数GPU厂商具备全功能能力。 其次,该架构采用统一的MUSA编程接口,提供统一的API。这样一来,开发者采用一套编程指令集就能驱动在MUSA架构之下的多种算力引擎。 为了更好地调动存算资源,摩尔线程自主研发的加速引擎——张量计算引擎(TCE)和张量访存引擎(TME)。前者将大大小小各种不同的复杂结构高效组合起来,同时具备高精度累加器,能够降低小数累入损失。后者用以充分发挥存储的效率,支持Img2Col、矩阵转置,能够加速前、后处理。 即便是国际GPU头部企业,也仍然存在通信任务占用计算资源的问题。而将原本可用于计算的处理器用于通信,会损失运算效率。为解决这一问题,摩尔线程开发了ACE(异步通信引擎),能够实现异步DMA搬移,同时不占用计算核的资源和访存带宽,减少了15%的计算资源损耗;内嵌同步机制,能够提高跨引擎协同性能;采用多种访存地址计算模式,提高搬移效率。 不仅如此,在计算层面,摩尔线程的AI加速系统全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。 |
GMT+8, 2025-8-2 06:55 , Processed in 0.024634 second(s), 16 queries .
Powered by Discuz! X2
© 2001-2011 Comsenz Inc.