在2025北外滩科创会客厅活动中,中昊芯英创始人杨龚轶凡围绕《从DeepSeek看AI芯片软硬件一体化如何推动大模型“成本驱动普及”时代》展开深度分享,核心内容可归纳为以下几点:
一、技术突破与产品优势
1.芯片架构创新
中昊芯英自主研发的“刹那”TPU芯片,针对大模型场景实现算力性能超国际GPU 1.5倍,能耗降低30%。其核心突破在于:
- 硬件设计:基于硅谷团队10余年经验(曾主导Google TPU 2/3/4及甲骨文SPARC芯片研发),重构计算单元与内存架构,实现高效并行处理。
- 集群协同:支持1024片芯片高速互联,集群性能超越GPU数十倍,解决大模型训练中的通信瓶颈。
2.软硬协同优化
演讲强调“算法-芯片-系统”三位一体优化:
- 底层适配:通过PTX编程等技术深度挖掘硬件潜力,实现计算与通信近100%重叠(如双向流水线机制)。
- 混合精度训练:结合FP8低比特技术,在保证模型精度的同时,降低显存占用50%、加速计算2倍。
二、行业影响与生态构建
1.成本驱动普及
- 训练成本:通过软硬件协同,DeepSeek训练成本降至国际竞品的1/10-1/20,推动中小企业及地方政府算力需求释放。
- 推理效率:MLA架构降低显存消耗,MoE混合专家模型优化负载均衡,使推理成本接近互联网搜索水平。
2.国产替代与落地案例
- 打破垄断:芯片已在浙江大学、深圳联通、青海低碳算力产业园等场景落地,替代进口GPU。
- 生态合作:与燧原科技、天数智芯等厂商联合推出DeepSeek一体机,提供“开箱即用”解决方案,覆盖政务、金融、教育等领域。
三、未来展望
1.技术趋势
- 强调Chiplet、3D堆叠等技术为突破方向,应对摩尔定律极限。
- 提出AI芯片将分化为通用GPU与专用TPU两条路径,专用芯片更适配大模型场景。
2.产业闭环
- 呼吁国内产业链协同,从芯片设计到模型优化形成自主生态,例如根据国产芯片特性定制算法架构。
- 预测推理算力需求将爆发式增长(2-3个数量级),推动边缘计算与智能终端应用普及。
总结
杨龚轶凡的演讲揭示了中昊芯英通过TPU架构创新与DeepSeek模型的深度协同,正在重塑AI算力格局:以更低的成本、更高的能效比推动大模型从“高端实验室”走向“普惠应用”,为国产算力自主化提供了可复制的技术路径。
本文作者可以追加内容哦 !