自研2900亿参数大模型
一、大模型训练技术的突破
1. 低成本高性能的MoE架构创新
蚂蚁集团推出了两款混合专家模型(MoE)——百灵轻量版(Ling-Lite,16.8B参数)和百灵增强版(Ling-Plus,290B参数)。通过优化模型架构与训练策略,其性能与主流模型如Qwen2.5-72B、DeepSeek-V2.5等相当,同时在中文任务中显著优于Llama3.1-8B等海外模型。
成本降低:采用国产芯片(如阿里巴巴和华为的AI加速器)及创新训练框架(如DLRover和EDiT异步策略),训练1万亿Token的成本从635万元降至508万元,降幅达20%。
跨平台迁移优化:通过张量并行(TP)技术、浮点运算对齐及自动恢复机制,解决了跨异构硬件平台的损失收敛问题,确保模型在不同设备间的性能一致性。
2. 硬件依赖的突破
传统MoE模型训练依赖英伟达H100/H800等高端GPU,而蚂蚁通过低规格硬件系统实现了同等性能,推动AI技术向普惠化发展。例如,Ling-Plus在五种不同硬件配置下完成9万亿Token的预训练,证明了低成本方案的可行性。
二、行业应用的深度拓展
2. 跨行业人机融合解决方案
子公司数字蚂力的“VAT-人机融合智能体”已服务金融、电商、新能源汽车等8大行业,覆盖客服、巡检、培训等场景。例如,工业质检准确率超90%,企业培训周期缩短50%。
1. 人形机器人领域探索
蚂蚁成立上海蚂蚁灵波科技,聚焦具身智能技术研发,招聘人推动国产替代与技术普惠
开源与生态共建:开源Ling系列模型,降低中小企业的AI研发门槛,促进发展中国家参与技术竞争。
挑战英伟达霸权:通过国产芯片替代方案,减少对英伟达GPU的依赖,其成果被视为“中国技术独立的重要里程碑”。
四、挑战与未来方向
1. 技术稳定性与生态协同
需验证训练策略在不同硬件环境下的稳定性,解决专家负载不均衡、损失尖峰等技术难题。
跨行业数据孤岛与隐私壁垒限制了医疗、金融等领域的模型深度优化。
总结
蚂蚁集团的AI创新不仅通过“低资源依赖+国产替代”路径实现技术降本,更以医疗、金融等垂直领域的深度应用推动AI普惠化。其开源策略与行业解决方案的整合,为全球AI生态提供了新范式。未来,随着硬件生态的成熟与跨行业协同的深化,蚂蚁或将成为重塑全球AI竞争格局的关键力量
追加内容
本文作者可以追加内容哦 !