$飞乐音响(SH600651)$  8日乌镇,蚂蚁集团首次披露其国产算力集群规模已达“万卡级”,


这不仅是数字,更是一个信号,那就是中国AI基础设施的底层逻辑正在重构。



大家要知道,在算力时代的当下,国产算力持续再发,特别是今年以来DeepSeek等国产大模型持续突破。


华为,寒武纪等芯片的,训练任务稳定性不断提升,推理延迟控制在毫秒级,性能对标A100集群(在特定任务下)。


而在2024年以前,国产GPU厂商还在比拼单卡FP16算力是否突破300 TFLOPS(海外的是万级别)


到了2025年,国内芯片厂家走了另一个模式,那就是:如何让一万张卡像一张卡一样工作?


华为昇腾的“超节点”架构将8卡封装为一个逻辑单元,通过自研NVLink替代方案实现90%以上的通信效率。


寒武纪思元590通过Chiplet+先进封装,在互联带宽上逼近H100水平。



而蚂蚁则在其调度系统中引入“弹性容错”机制,即便单日出现数百次硬件故障,整体训练任务仍可无感续跑——这正是98.3%稳定性的来源。


更重要的是软件层的协同进化。


据第三方测试(MLPerf Inference v4.0,2025 Q3),在Llama-3-8B推理任务中,基于昇腾+MindSpore的组合,量已达A100+TensorRT方案的92%,而单位TCO(总拥有成本)低出37%


性能差距正在收窄,成本优势已然确立。


这或许标志着国产算力的技术范式完成一次关键跃迁:从“单点参数追赶”进入“全栈系统优化”时代。


场景闭环正在形成

如果说技术是引擎,那么场景就是燃料。


过去国产算力常陷于“有算力无负载”的尴尬。


如今,闭环正在加速闭合。



金融风控:


据蚂蚁内部评估,蚂蚁集团每日处理超50亿次实时风险决策,其大模型推理全部运行于国产集群,年节省算力采购成本超12亿元。


医疗科研:


中科曙光与中山一院共建的精准医学平台,利用国产GPU集群实现“基因+影像”跨模态分析,单样本处理时间从8小时压缩至30分钟,效率提升16倍。


运营商智算:天津移动TPU智算中心上线半年,已承载本地政务、交通、安防等23个AI应用,算力利用率稳定在75%以上,远高于行业平均的40%。


这些不是孤立案例,或许是一条清晰的反馈链:真实需求 → 模型适配 → 芯片调优 → 成本下降 → 更多场景接入。


尤其值得注意的是,模型厂商的态度正在转变。


2025年9月,DeepSeek宣布其MoE架构大模型已完成对海光DCU和昇腾芯片的原生支持,无需依赖CUDA转译层。


这意味着,国产芯片可能不再只是“能跑”,而是成为模型设计时的优先选项。


据IDC预测,到2027年,中国大模型训练中采用国产算力的比例将从2024年的不足8%跃升至45%以上。


这一拐点,可能zc推动的结果,而是经济性与可用性双重验证后的自然选择。


生态加速在建成

长期以来,国产算力生态被三大“孤岛”困住:


资源孤岛:东部算力紧张,西部算力闲置,全国智能算力平均利用率不足45%。


技术孤岛:昇腾、海光、寒武纪、天数智芯……各搞一套驱动和编译器,开发者适配成本高企。


供需孤岛:地方建了智算中心,但“空转率”高达60%。


破局之道,或许在于构建“中间层+服务化+标准统一”的协同机制。


2025年,多个关键进展正在弥合裂痕:


中间层突破:


OpenIREE、TVM Unity等开源编译框架已支持5种以上国产芯片后端,模型迁移成本下降70%。


服务化落地:


阿里云、华为云推出“国产算力即服务”(CaaS),提供从环境部署、性能调优到运维监控的一站式能力,


标准推进:


中国信通院牵头制定《大模型算力适配接口规范》,首批覆盖芯片、框架、调度三层,预计2026年Q1落地。


当生态从“各自”走向“接口互通”,国产算力的边际使用成本将持续下降,形成“越多人用→越好用→更多人用”的正向飞轮。

大利好wdz与时俱进上市融资激励创新研发自主可控掌握主动弯道超车刻不容缓,嘎嘎嘎嘎嘎嘎

2025-11-09 08:23:10 作者更新了以下内容

wdz上市融资激励创新3纳米刻不容缓

追加内容

本文作者可以追加内容哦 !