12.26日晚,全新大模型Deepseek V3上线,拥有671B参数,训练数据14.8T 高质量token,训练成本极低,仅为557.6万美金,整个训练只需要280万个GPU小时,而LLama 3(405B)使用了3080万GPU小时,几乎是Deepseek V3的11倍,相比较来说Deepseek V3的参数量/训练成本的能效极高,训练超大模型的成本极低;
#DeepseekV3如何用极低的成本实现超大规模的模型训练?
1)模型架构的差异:
-- OpenAI和Claude普遍采用稠密的Transformer架构,需要在每个前向&后向过程中激活并更新全部参数,因而在大规模预训练时对算力与显存的需求非常高;
-- Deepseek V3采用的是稀疏的MoE(Mixture of Expert)架构,在推理或训练时只会激活少量参数(5%~10% 参数量),有效减少每次前向&后向的计算量,显著降低整体训练开支;
2)精度差异:
-- OpenAI和Claude等模型在训练过程中多采用FP16精度,兼顾数值稳定和计算效率;
-- Deepseek V3 采用了FP8 混合精度训练,从而将单位 GPU 小时的计算利用率推到更高水平,这也是其大幅缩减成本的重要原因之一,但工程复杂度与数值稳定风险也更高;
3)数据质量差异
-- OpenAI和Claude等模型采用的训练数据规模和质量更庞大、更多元化,且在RLHF(人类反馈强化学习)环节上投入很大,这部分也会增加不少成本;
-- DeepSeek V3 数据规模也很大(14.8T tokens),但对质量与重复度进行严格筛选,加之后训练与蒸馏策略做了优化,减少了对额外 RLHF 资源的依赖;
4)算法优化
-- OpenAI和Claude等模型通常拥有定制化的大规模 GPU/TPU 集群(甚至专用硬件),在软件栈、集群管理、数据管线方面投入巨大,但也会带来较高的运营成本;
-- DeepSeek V3 则通过在算法与工程侧的深度耦合,把相同的算力资源利用率最大化;
1)我们认为Deepseek V3通过稀疏的MoE的架构结合FP8的精度来极大的降低训练成本,但在通用性、稳定可靠性上还没有充分得到证明;
2)算力依然关键,同时架构和数据的重要性凸显,大模型厂商通过优化架构算法和提升数据质量,可以将同样算力发挥更高效的作用;
3)大模型训练及推理测需求在持续提升,需要大量的算力资源,Deepseek V3的出现将推进算力高效利用的趋势,算力、架构及数据的重要性同样重要;
4)全球及国内云厂商仍将加大投入推进大模型的训练及推理,高性价比的模型将成为产业链的长期趋势;
本文作者可以追加内容哦 !