$景嘉微(SZ300474)$ 说DeepSeek利好景嘉微的脑洞也够大的。暂且不说JJW的卡能不能跑大模型以及能不能做集群,就假定它可以吧。大模型最在意的是成本和训练速度。大厂争着买英伟达新一代产品也是因为训练速度更快,平均成本很低。报道说DeepSeek-R1 预训练费用仅 557.6 万美元,在 2048 块英伟达 H800 GPU 集群上运行 55 天完成。简单理解用H800一个小型数据中心就可以搞定,换成JJW需要搞成大型数据中心,土建、发电、消防、空调、UPS增加十几甚至几十倍,能源消耗增加十几倍,谁吃得消。如果不想增加这些成本就少上点卡,但是别人两个月完成的训练,你搞两年,别人都迭代10代了,黄花菜都凉了。
DeepSeek的成功让ASIC很尴尬,通用性过低导致模型发生重大变化就不好用了。现在DeepSeek很火,但是未来它自己或其他公司为了更高精度可能又推出更大的模型,导致性能低卡根本跑不了。从大模型训练角度考虑,能买高性能卡绝不买低性能的。模型变了高性能卡还能跑,低性能的就变成电子垃圾了,纯纯的沉默成本。
追加内容
本文作者可以追加内容哦 !
中电科国博电子:国基南方及其一致行动人拟增持4亿元至7亿元公司股份!