在东方财富看资讯行情,选东方财富证券一站式开户交易>>

据了解,MoE是当前大模型的主流架构,但其在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。以海外主流模型Mixtral-8x7B为例,其训练过程中通信时间占比可高达40%。

  针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专家通信空转时间。

  相较DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。该工作以5/5/5/4的高分入选全球机器学习系统顶级会议MLSys 2025 ,被认为“在大规模生产环境中极具应用潜力”。

  COMET与Deepseek研发的DualPipe方案还可以联合使用。在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DualPipe则通过排布算子来掩盖通信,两种方案并不冲突,结合使用或将更大幅度压缩模型训练成本。

  目前,COMET支持多种MoE并行模式,部署灵活、方便。同时,COMET核心代码已开源,并向开发者提供了一套友好的Python API,计划兼容Triton等编译生态。

  近期国内大模型研发技术快速获得突破,相关APP下载量也迅速增长。下载量排名成为外界观察各家大模型实用能力最直接的窗口。截至发稿,DeepSeek在中国区苹果应用商店免费APP下载排行榜首,第二名是豆包,第三名是腾讯元宝。


追加内容

本文作者可以追加内容哦 !