DeepSeek-v3大模型只用了2048张H800显卡，2个月不到时间训练完毕_财富号

$兆龙互连(SZ300913)$

Deep Seek-v3大模型只用了2048张H800显卡，2个月不到时间训练完毕，计算预算只有不到600万美元，简单点说就是v3大模型训练只需要之前算力的1/10，对于机构吹嘘的算力的需求并没有想象中的那么大，甚至只有以前10%的水平，很多人可能不知道这个东西是啥，简单说两嘴，DeepSeek-V3是幻方量化旗下的模型，作为6710亿参数的专家混合模型，通过激活370亿个参数并在14.8万亿 token上完成预训练，性能超越Qwen2.5-72B和Llama-3.1-405B等开源模型，接近GPT-4o和Claude-3.5-Sonnet等闭源模型，生成速度达60TPS，较前代V2.5提升三倍；

从市场角度来看，机构一定会担忧新的大模型对传统算力硬件的需求会大幅减少，导致相关企业的订单预期下滑；另外，数据中心原本是算力的主要承载者，该消息可能使市场对数据中心短期的算力扩张速度产生疑虑，影响其投资和建设计划，从而影响公司估值；从今天的走势大致就能看出来了。

DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型，提供了一种史无前例的性价比：推理成本被降到每百万token仅1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。

追加内容

本文作者可以追加内容哦 !

代码	名称	最新价	涨跌幅
查看更多

代码

名称

总收益	20日收益	日收益
--	--	--

最新操作
-	-	-