$兆龙互连(SZ300913)$  

Deep Seek-v3大模型只用了2048H800显卡,2个月不到时间训练完毕,计算预算只有不到600万美元,简单点说就是v3大模型训练只需要之前算力的1/10,对于机构吹嘘的算力的需求并没有想象中的那么大,甚至只有以前10%的水平,很多人可能不知道这个东西是啥,简单说两嘴,DeepSeek-V3是幻方量化旗下的模型,作为6710亿参数的专家混合模型,通过激活370亿个参数并在14.8万亿 token上完成预训练,性能超越Qwen2.5-72BLlama-3.1-405B等开源模型,接近GPT-4oClaude-3.5-Sonnet等闭源模型,生成速度达60TPS,较前代V2.5提升三倍;

从市场角度来看,机构一定会担忧新的大模型对传统算力硬件的需求会大幅减少,导致相关企业的订单预期下滑;另外,数据中心原本是算力的主要承载者,该消息可能使市场对数据中心短期的算力扩张速度产生疑虑,影响其投资和建设计划,从而影响公司估值;从今天的走势大致就能看出来了。

DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

追加内容

本文作者可以追加内容哦 !